| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> playwright 爬虫使用 -> 正文阅读 |
|
[Python知识库]playwright 爬虫使用 |
官方文档:Getting started | Playwright Python 参考链接:强大易用!新一代爬虫利器 Playwright 的介绍 目录 安装Playwrigth 会安装 Chromium, Firefox and WebKit 浏览器并配置一些驱动,我们不必关心中间配置的过程,Playwright 会为我们配置好。
基本使用打开浏览器,跳转到百度网页,打印标题;设置了 headless 参数为 False,代表显示浏览器界面。
代码生成可以录制我们在浏览器中的操作并将代码自动生成出来,在爬虫中对于一些点击,跳转,鼠标移动等自动化操作,可以使用。 方便在一些步骤不知道怎么写时,可以自动生成代码参考。 在指定路径下输入命令,会弹出对应窗口,就可以开始人工操作,会生成代码,但对于有点复杂的操作好像自动生成不成功。
启动一个谷歌浏览器,然后将操作结果输出到 script.py 文件,下面生成一个代码看看。 下面这段代码,打开茶语网,点击【茶评】,会打开一个新窗口跳转过去。
AJAX 动态加载数据获取对于获取动态加载的数据,需要及其注意的一点,需要浏览器把动态加载的页面显示在上面,才能提取,例如:https://chaping.chayu.com/tea/3266,获取评论数据,ajax 加载的,打开页面: ?如果打开页面直接提取评论数据,是提取不到的,需要吧数据滑动到页面上后,再提取(坑死了) 事件监听Page 对象提供了一个 on 方法,它可以用来监听页面中发生的各个事件,比如 close、console、load、request、response 等等。 可以监听 response 事件,response 事件可以在每次网络请求得到响应的时候触发,我们可以设置对应的回调方法。 可以结合 ajax 获取数据使用 ,截获 Ajax 请求,输出对应的 JSON 结果。
不加载图片调用了 route 方法,第一个参数通过正则表达式传入了匹配的 URL 路径,这里代表的是任何包含?
CSS 选择器、文本选择器、click()click 方法里面接选择器表达式,提取后点击,可设置 timeout 超时时间,默认 30秒,设置以毫秒为单位,如等待 5 秒未点击成功,这报错 timeout=5000
xpath 选择器需要在开头指定?
获取网页源代码这里获取的网页源代码,不管网页是 ajax 加载的,都是获取最终的 html。 凡是需要对 html 中的元素进行操作的?page.wait_for_load_state('networkidle') 必写,用于等待 html 加载。
文本输入在 input 标签 name 属性为 wd 的输入 nba
选择提取标签提取所有 div 标签 class 属性为 list 的?
提取 span 标签 class 属性为 score 的,如匹配到多个,则取第一个
提取文本提取文本为【品牌:】的标签,在提取标签下的所有文本
提取标签中的属性提取 h5 标签下的 a 标签,获取 a 标签中的 href 属性取值
鼠标滚动向右滚动 0,向下滚动 7000,可用于下拉滚动条功能
下拉滚动条执行 js 代码,下拉滚动条,15000 可以根据情况设置
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/16 3:14:00- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |