| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 开发测试 -> selenium+python爬虫全流程教程 -> 正文阅读 |
|
[开发测试]selenium+python爬虫全流程教程 |
python+selenium爬虫全流程详解selenium+python爬虫简介该教程许多内容基于个人经验,部分内容有些口语化 selenium测试脚本selenium实际上是web自动化测试工具,能够通过代码完全模拟人使用浏览器自动访问目标站点并操作来进行web测试。 python+selenium通过python+selenium结合来实现爬虫十分巧妙。 由于是模拟人的点击来操作,所以实际上被反爬的概率将大大降低。 当然由于在获取页面的过程中会发送很多请求,所以效率较低,爬取速度会相对慢,建议用于小规模数据爬取。 selenium安装,直接通过pip安装即可
导入包
模拟浏览器----以chrome为例浏览器驱动安装链接: https://registry.npmmirror.com/binary.html?path=chromedriver/ 浏览器版本可在设置–关于Chrome中看到 浏览器模拟基本操作
爬取数据–web定位以下知识需要一些web相关知识为前提 案例–b站排行榜
定位方法以及实操定位方法的选择主要根据目标网页的情况来定
在案例网站中我们根据class名称来爬取,标签内class=“info”
结果 部分可能会用到的方法(辅助爬虫/降低反爬)加快网页加载速度(不加载js,images等)
异常捕捉
网页等待加载由于网速的问题等,进入该网址后页面还没加载出来需要等待 selenium自带的加载方式
用time等待时间
在输入框中输入数据
网页点击(如点击下一页,或者点击搜索)
打印网页信息
切换iframe有时候会碰到网页用iframe来作为文档框架
网页滚动(更像真人)
随机等待几秒再操作(更像真人)
讲在最后python+selenium爬虫技术仍还有很多可以写,该教程仅仅涉及一大部分,大家应该根据实际需求进行调整,进行搜索。 多进行实践,多百度,总结面对不同网页情况或者不同反爬情况的经验,这样我们才能不断成长。 实践是检验真理的唯一标准。 多谢各位阅读,也希望各位能有所收获。 |
|
开发测试 最新文章 |
pytest系列——allure之生成测试报告(Wind |
某大厂软件测试岗一面笔试题+二面问答题面试 |
iperf 学习笔记 |
关于Python中使用selenium八大定位方法 |
【软件测试】为什么提升不了?8年测试总结再 |
软件测试复习 |
PHP笔记-Smarty模板引擎的使用 |
C++Test使用入门 |
【Java】单元测试 |
Net core 3.x 获取客户端地址 |
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/18 0:29:45- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |