IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 简单使用requests爬取动态数据 -> 正文阅读

[网络协议]简单使用requests爬取动态数据

异常的访问请求:

当我们爬取网页的时候,网站后台检测出该请求不是通过浏览器发起的,而是通过爬虫程序发起的。
网站后台通过请求中的User-Agent判定
User-Agent:请求载体的身份标识
什么是请求载体?浏览器,爬虫程序
这里的反爬机制:UA检测
反反爬机制:UA伪装

动态数据的捕获

通过requests模块进行数据抓取无法每次都实现可见即可得
有些数据不是通过浏览器地址栏中的url请求到的数据,而是其他请求请求到的数据。这些通过其他请求请求到的数据就是动态加载的数据
检测网页中是否存在动态加载数据:基于抓包工具进行局部搜索
捕获:基于抓包工具进行全局搜索,定位到动态加载数据的数包,从数据包中可以提取出:请求的url,请求方式,请求携带的参数,看到响应数据。

参数动态化

  • 将携带的动态参数以键值对的形式封装到一个字典
  • 将字典作用到get方法中的params参数中即可(或post方法中的data)
  • 将原始携带参数的url中将携带的参数删除
    然鹅,若动态数据无法抓取,可能是通过加密程序加密的

动态加载数据

一般会传参之后会得到一串Json数据,需要requests.get/post(url…).json(),将其变换为列表

简单案例

http://scxk.nmpa.gov.cn:81/xk/
进行化妆品许可证信息的爬取
本页下方的数据都是动态加载数据,也就是说直接使用requests.get().text是无法捕获的,下面简单看一下

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后直接放代码吧

import requests

url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
for i in range(1,6):
    page_num = i
    print(f"——————第{page_num}页——————")
    data = {
    'on': 'true',
    'page': str(page_num),
    'pageSize': '15',
    'productName':'' ,
    'conditionType': '1',
    'applyname': '',
    'applysn': ''
    }
    response = requests.post(url=url, headers = headers, data=data)
    page_info = response.json()

    for dic in page_info["list"]:
        name = dic['EPS_NAME']
        num = dic['PRODUCT_SN']
        mechanism = dic['QF_MANAGER_NAME']
        print(f'公司名:{name},许可证编号:{num},管理结构:{mechanism}')
  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-09-19 08:19:50  更:2021-09-19 08:20:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 1:33:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码