python 抓取网页数据

此文解决如何从不同网页爬取数据的问题及注意事项，重点说明requests库的应用。

在开始之前，要郑重说明一下，不是每一个网页都可以爬取数据哦。有的网页涉及个人隐私或其他敏感信息，是不允许被爬取的，硬爬的话是违法的。

??爬虫协议说明

但是一般的网页都是公开可爬取的啦，要注意网站的爬虫协议，查看爬虫协议的方法也很简单：在所要爬取网站的后面加上/robots.txt字样，如果跳转到一个新的网页，上面会标注本网站的哪个部分不能被爬取，然后自己注意不要碰那些敏感内容就好啦！

#导入request库
import requests

#得到目标网页的response
r = requests.get('目标网页的url')

#确认是否成功获取response,若返回“200”则说明正常获取
r.status_code

#显示抓取的文本内容
r.txt

解释一些关于网页的response的问题：这是建立在TCP协议的著名“三次握手”上面的。
- 一般上网都是你的客户端向服务器发送一些数据包，这可以理解为第一次握手；
- 服务器接收到你的数据包之后，就给你一个response（其实也是一些数据包），服务器在说“嗨呀～我收到你的hi啦～”，这也就是第二次握手；
- 你的客户端收到服务器的“hi”之后，再发一次数据包，说“行行行，我听的见～”，这是第三次握手。
- 所有的联网都是建立在这看似简单的三次握手上的。上文说的网页的response其实就是第二次握手
requests库一般是用于中小型数据的。大型数据用scrapy库

有一些网页有翻爬虫设置，下面是常见的一种——需要用户代理信息才能进行爬取操作的。

实际操作如下：

在目标网址后输入/robots.txt查询爬虫协议，查看所需信息是否禁止爬取。
在浏览器网址栏输入about:version，可以看到有user agent的信息，这个就是你客户端的用户信息，划重点，这个要考！
你的爬虫程序要伪装成一个客户端，“骗”过目标网页，它才会跟你“说话”，不然就给你拒之门外（status_code不等于200）。
设置header，伪装成客户端。
```
header = {'User_Agent':'刚刚划重点的内容'}
```
这里header其实是一个字典，它将会作为参数输入，给你的python程序加上伪装面具。可以理解header是一个伪装面具。
戴上伪装面具：用requests.get('目标网页的url',header = header)方法，这里的header就是第4点的header

这样就可以顺利跟目标网页进行“握手”啦！

加:2022-08-19 19:00:11 更:2022-08-19 19:01:55

-2025/10/14 20:12:38-

网站联系: qq:121756557 email:121756557@qq.com IT数码