[Python知识库] 爬虫的笔记

爬虫的简单分类：

爬虫的流程：

学习的模块：requests

简单案例尝试：

爬取搜狗主页代码

爬取搜狗指定词条对应的搜索结果页面

例如：搜索“美国”时，query后面的字符就是美国，而后面的参数并不影响网页的正常加载，故提取此简化的URL：美国 - 搜狗搜索

处理URL：封装到字典中

关于UA（User-Agent：请求载体的身份标识）检测：

如果服务器检测到请求的载体身份标识不是基于一款浏览器，那么就有可能将其判定为爬虫，进而拒绝服务请求。

UA伪装：

让爬虫对应的请求载体身份伪装成某一款浏览器，方法是将对应的UA封装到一个字典中

解决中文乱码：

?? ?response.text ：str类型

response.content.decode() ：默认编码utf-8，可解决中文乱码

有关超时参数的使用

?? response = requests.get(url? ,? timeout = x) 代表x秒内若没有返回响应，则抛出异常

错误经验：SSL证书错误

解决办法：1.将url中的https改成http

????????? 2. verify=False

Python知识库最新文章

加:2021-10-21 12:08:59 更:2021-10-21 12:10:16

-2026/5/10 0:35:08-

网站联系: qq:121756557 email:121756557@qq.com IT数码