| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 个人爬虫学习小结(BeautifulSoup篇) -> 正文阅读 |
|
[Python知识库]个人爬虫学习小结(BeautifulSoup篇) |
思路: 1.获取要爬取网站的url(复制网址) 2.设置param字典作为requests.get的参数,通过查看在网页打开f12在network里查看User-Agent,并作为参数 3.用requests.get(url,params=param,verify=False)来爬取网页信息,并设置r来接收响应 (verify=False主要用在带有https的网页) r =?requests.get(url,params=param,verify=False) 4.根据网页源代码按住ctrl+f搜索charset查看编码格式,将爬取的页面转码 如 r.encoding = "utf-8" 注意这里是等号而非函数调用的格式 5.若调用requests时出现警告可加上如下代码解决 requests.packages.urllib3.disable_warnings() 6.用一个参数接收函数BeautifulSoup遍历 page = BeautifulSoup(r.text,"html.parser") 7.用page调用函数搜索需要的标签 ul_Find = page.find("ul",参数2)[1] 参数2用来指明标签的属性,可以为字典{"属性1":"属性值1" , "属性2":"属性值2"} 或者可以用函数find_all,参数一样 区别是find只搜索第一条,find_all搜索全部 返回的是列表 8.如果要继续搜索,可以继续用find和find_all函数根据标签搜索 9.可以用.get("属性")获取? ?--->属性值 ? ? ? ? 用.text获取标签里的内容 10.关闭响应 r.close() |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 16:54:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |