| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 爬虫入门学习笔记 Day 4 -> 正文阅读 |
|
[Python知识库]爬虫入门学习笔记 Day 4 |
目录一、lxml模块中的etree.tostring函数的使用1.etree.tostring ()方法用来将_Element对象转换成字符串。
3.输出结果(etree.HTML()会自动补全html的语法): 二、selenium自动化测试框架能大幅度降低爬🐛难度,但是也会大幅度降低爬取速度。 1.selenium简介(1)工作原理
不同的浏览器使用不同的driver。 (2)安装selenium以及chromedriver安装selenium模块: 在pycharm的terminal输入:
下载符合版本的webdriver: 1.获取浏览器版本:
2.根据浏览器版本下载驱动:(下载完后要解压) 3.配置环境:(windows) (3)账务标签对象click点击以及send_key输入简单使用:
executable参数指定的是下载好的chromedriver文件的路径(如果已经配置好了环境就不要写参数了) 2.selenium提取数据(1)driver对象的常用属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码 (2)示例代码示例代码1:如何使用page_source、current_url、title
运行:会自动打开百度,然后再run窗口可以看到源码和url还要百度的标题。 示例代码2:如何使用forward()、back()
示例代码3:如何截图(截图的作用:有的时候可以用于通过验证码,先将验证码截图下来再提取出来,如果直接下载验证码的图片,图片的内容会变动)
(3)元素定位driver对象定位标签元素获取标签对象的方法: element多了个s就返回列表,没有s就返回匹配到的第一个标签对象。 代码:(根据百度的搜索框的属性来写代码)
使用elements的例子:提取58房产的标题
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/16 3:26:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |