异常的访问请求:
当我们爬取网页的时候,网站后台检测出该请求不是通过浏览器发起的,而是通过爬虫程序发起的。 网站后台通过请求中的User-Agent判定 User-Agent:请求载体的身份标识 什么是请求载体?浏览器,爬虫程序 这里的反爬机制:UA检测 反反爬机制:UA伪装
动态数据的捕获
通过requests模块进行数据抓取无法每次都实现可见即可得 有些数据不是通过浏览器地址栏中的url请求到的数据,而是其他请求请求到的数据。这些通过其他请求请求到的数据就是动态加载的数据 检测网页中是否存在动态加载数据:基于抓包工具进行局部搜索 捕获:基于抓包工具进行全局搜索,定位到动态加载数据的数包,从数据包中可以提取出:请求的url,请求方式,请求携带的参数,看到响应数据。
参数动态化
- 将携带的动态参数以键值对的形式封装到一个字典中
- 将字典作用到get方法中的params参数中即可(或post方法中的data)
- 将原始携带参数的url中将携带的参数删除
然鹅,若动态数据无法抓取,可能是通过加密程序加密的
动态加载数据
一般会传参之后会得到一串Json数据,需要requests.get/post(url…).json(),将其变换为列表
简单案例
http://scxk.nmpa.gov.cn:81/xk/ 进行化妆品许可证信息的爬取 本页下方的数据都是动态加载数据,也就是说直接使用requests.get().text是无法捕获的,下面简单看一下
最后直接放代码吧
import requests
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
for i in range(1,6):
page_num = i
print(f"——————第{page_num}页——————")
data = {
'on': 'true',
'page': str(page_num),
'pageSize': '15',
'productName':'' ,
'conditionType': '1',
'applyname': '',
'applysn': ''
}
response = requests.post(url=url, headers = headers, data=data)
page_info = response.json()
for dic in page_info["list"]:
name = dic['EPS_NAME']
num = dic['PRODUCT_SN']
mechanism = dic['QF_MANAGER_NAME']
print(f'公司名:{name},许可证编号:{num},管理结构:{mechanism}')
|