验证码
验证码识别
验证码和爬虫之间的爱恨情仇?
反爬机制:验证码,识别验证码图片中的数据,用于模拟登陆操作
识别验证码的操作:
第三方法自动识别
超级鹰的使用流程:
- 开发者用户的登陆
- 创建一个软件:用户中心——>创建软件——>获取软件id和密钥
- 下载示例代码:开发文档——> python ——> 下载
使用打码平台识别验证码的编码流程:
- 将验证码图片进行本地下载
- 调用平台提供的示例代码进行图片数据识别
模拟登陆
-
爬取基于某些用户的用户信息 -
有些内容需要登录才能获取 -
模拟登陆流程
- 点击登录按钮之后会发起一个post请求
- post请求中会携带登录之前录入的相关的登录信息(用户名 ,密码,验证码……)
- 验证码:每次请求都会发生变化
爬取当前用户相关的用户信息(个人主页中显示的用户信息)
http/https协议特征:无状态
没有请求到对应页面数据的原因:
- 发起的第二次基于个人主页页面请求的时候,服务器端并不知道该请求是基于登录状态下的请求。
cookies
cookies:由服务器端创建,最终存储在客户端,用来让服务器端记录客户端的相关状态。
代理
代理:破解封ip这种反爬机制(很少用)
什么是代理:
代理的作用:
- 突破自身ip访问的限制
- 可以隐藏自身真实的ip免受攻击
代理相关的网站:
- 西刺免费代理 IP: http://www.xicida
- 快代理: http://www.kuaidaili.com/
- www.goubanjia.com
代理ip的类型:
- http:应用到http协议对应的url中
- https:应用到https协议对应的url中
代理ip的匿名度:
- 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip
- 匿名:服务器知道了代理,不知道真实ip
- 高匿:服务器不知道使用了代理
|