IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 网络爬虫基础-模拟登陆 -> 正文阅读

[网络协议]网络爬虫基础-模拟登陆

验证码

验证码识别

验证码和爬虫之间的爱恨情仇?

反爬机制:验证码,识别验证码图片中的数据,用于模拟登陆操作

识别验证码的操作:

  • 人工肉眼识别。

  • 图像识别

  • 第三方自动识别

    • 超级鹰处理验证码

      http://www.chaojiying.com/

第三方法自动识别

超级鹰的使用流程:

  • 开发者用户的登陆
    • 创建一个软件:用户中心——>创建软件——>获取软件id和密钥
    • 下载示例代码:开发文档——> python ——> 下载

使用打码平台识别验证码的编码流程:

  • 将验证码图片进行本地下载
  • 调用平台提供的示例代码进行图片数据识别

模拟登陆

  • 爬取基于某些用户的用户信息

  • 有些内容需要登录才能获取

  • 模拟登陆流程

    • 点击登录按钮之后会发起一个post请求
    • post请求中会携带登录之前录入的相关的登录信息(用户名 ,密码,验证码……)
    • 验证码:每次请求都会发生变化

爬取当前用户相关的用户信息(个人主页中显示的用户信息)

http/https协议特征:无状态

没有请求到对应页面数据的原因:

  • 发起的第二次基于个人主页页面请求的时候,服务器端并不知道该请求是基于登录状态下的请求。

cookies

cookies:由服务器端创建,最终存储在客户端,用来让服务器端记录客户端的相关状态。

  • 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)

  • 自动处理:

    • cookie值的来源:模拟登陆post请求后,由服务器端创建。

    • session会话对象:

      • 作用:
        1. 可以进行请求的发送
        2. 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中
    • 创建一个session对象:session = requests.Session()

    • 使用session对象进行模拟登陆post请求的发送(cookie就会被存储在session中)

      • session.post() 同requests
    • session对象对个人主页对应的get请求进行发送(携带了cookie)

    • 需要注意的地方(在爬取古诗文网遇到的问题)

      1. 动态变化的请求参数:data中的参数可能是动态变化的,通常会隐藏在当前对应的前端页面的代码中。
      2. 可能会产生session的请求都用session发起(包括验证码的获取)

代理

代理:破解封ip这种反爬机制(很少用)

什么是代理:

  • 代理服务器

代理的作用:

  1. 突破自身ip访问的限制
  2. 可以隐藏自身真实的ip免受攻击

代理相关的网站:

  1. 西刺免费代理 IP: http://www.xicida
  2. 快代理: http://www.kuaidaili.com/
  3. www.goubanjia.com

代理ip的类型:

  • http:应用到http协议对应的url中
  • https:应用到https协议对应的url中

代理ip的匿名度:

  • 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip
  • 匿名:服务器知道了代理,不知道真实ip
  • 高匿:服务器不知道使用了代理
  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-10-28 12:40:48  更:2021-10-28 12:41:10 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:22:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码