| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> python爬虫之selenium模块 -> 正文阅读 |
|
[Python知识库]python爬虫之selenium模块 |
当我们使用python爬虫,想爬取一个网页的数据时,要知道该网页的数据有没有动态加载出来的,没有的话就可以向该网页发起请求拿到数据,有那就要使用selenium模块了。 那我们怎么知道网页的数据是不是动态加载出来的呢? 在想要爬取的页面打开开发者工具,然后在元素(element)下找到自己想要的数据,之后在去网络(network)下刷新一下页面,一般是第一个包打开看标头(headers)里请求url和和当前的网页的url是不是一样的,要找到一样的。找到之后点击响应(response),在里面找有没有之前元素(element)看到的数据,没有那说明数据是动态加载出来的。 是动态加载的数据那怎么爬取呢? 当然就是用selenium了,selenium是基于浏览器自动化的一个模块,它能便捷的获取网站中动态加载的数据,和实现模拟登录。 安装selenium打开pycharm,下载好selenium,之后就是下载与浏览器版本相对应的驱动程序。 大概流程是(edge浏览器):确定自己浏览器的版本,去官网下载相对应的版本,然后把驱动程序放在python的安装目录中,在看名字是不是这样的,不是就改成这样MicrosoftWebDriver.exe,最后驱动程序需要添加到path中,也就是需要添加到环境变量中。(网上有大量的安装教程这个不行就试试别的) 使用selenium先实例化一个浏览器对象,发起请求。 driver = webdriver.Edge() driver.get('https://www.taobao.com/') 此时在获取网页源码数据时就能拿到整个网页包括动态加载的数据,之后是就是常规用xpath,Beautifulsoup等数据解析。 html = driver.page_source 如果想让浏览器自动的运行,就需要使用selenium里面方法来写代码。 例如,我们想让浏览器搜索霉霉,我们就要用开发者工具先定位到搜索框。 搜索框是input标签,可以看到里面还有许多的属性class、part、type、id等。在selenium中有很多在标签和属性的方法。 ? find_element_by_id就是找标签里属性id的值?,其他的类推。这里就使用找id的方法。 seach_input = driver.find_element_by_id('q') #'q'是之前属性id的值seach_input.send_key('霉霉') ?send_key()就是把想要搜索的内容复制到搜索框内。 ?然后就是找到搜索按钮,也是同样的方法定位到搜索按钮。 ?搜索按钮是button标签,这次我们用class属性。 btn = driver.find_element_by_class_name('control') btn.click() #click的作用就是点击一下搜索按钮 ?之后就是关闭。 driver.quit() 如果要实现模拟登录的话,就要注意定位的标签是不是在iframe标签中,iframe标签是框架的一种形式。如果在就需要使用switch_to.frame()方法后再进行标签的定位。 driver.switch_to.frame('login_frame') #切换浏览器定位的作用域,login_frame是iframe标签属性id的内容。 这是模拟登入QQ空间的代码
? ?最后就是实现无可视化界面和实现规避检测。
好了,selenium模块常用的操作就这些,selenium还有很多其他的操作,大家感兴趣可以去看看文档。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 23:51:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |