| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> Python动态网页数据收集 -> 正文阅读 |
|
[Python知识库]Python动态网页数据收集 |
作者:recommend-box insert-baidu-box |
动态网页数据收集有两种方式: 第一种: 先分析网页数据获取和跳转的逻辑,再去写代码。 第二种: Selenium+WebDriver,驱动浏览器,模拟用户输入,获取目标网页源码。 (第一种我不会,就直接选第二种,相比第一种,Selenium+WebDriver优点是逻辑简单,编码时间短,缺点是driver运行慢) Selenium安装: pip install torchtext(我也不知道为什么要装这个,但是直接install selenium就是不行) WebDriver根据自己的浏览器和版本安装: chrome浏览器的web driver(chromedriver.exe),可以在下面网址访问: firefox(火狐浏览器)的**web driver (geckodriver.exe)**在这里访问: 其他浏览器驱动可以见下面列表: Edge:https://developer.microsoft.com/en-us/micrsosft-edage/tools/webdriver Safari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/ 以谷歌浏览器为例: 在浏览器设置–>>关于Chrome查看浏览器版本,再下载对应的chromedriver chromedriver.exe放到python.exe的同级目录下 运行下面的代码测试,弹出浏览器打开百度就可以了 chromedriver测试代码
无界面测试代码 (Headless是无界面模式)
简单实战在1688搜索键盘,根据成交额排序,收集商品名和复购率数据
ps:有的界面需要滚动才会动态加载内容,可以把窗口设置大一点,当然也可以调用driver的滚动方法。
3 切换到新窗口 点击搜索后,打开了新的窗口,切换到新窗口
获取UI元素的技巧
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 15:52:37- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |