IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> python爬取图片一篇过【超·详细·零基础】(04)blob:https类型图片处理 -> 正文阅读

[网络协议]python爬取图片一篇过【超·详细·零基础】(04)blob:https类型图片处理

前不久博主在爬取图片的过程中,又遇到了一个新问题:

某个加强后的图片网站
图片地址不再是我们熟悉的http(s)://

图片出现了blob:https+地址的格式, 使用requests库访问这个网址,会发现是无法得到图片内容的。

搜索了一番后,这类blob原来全称是二进制大型对象(Binary Large Object),表示一个不可变、原始数据的类文件对象。它的数据可以按文本或二进制的格式进行读取,格式比较灵活,一方面适合实时加载(常常见于视频文件),一方面可以有一定反爬效果。

但破绽也是有的:当浏览器识别了blob对象后,会向服务器请求真实的文件地址。

对于此类图片,我们只需查看其真实请求到的文件网址即可。

?

?步骤:

  1. 把开发者工具从元素切换到网络
  2. 选择筛选XHR
  3. 在下面列表中找到像是图片的文件元素(在这里是后缀有jpg
  4. 点击,找到它的请求url,就是目标网址

得到目标地址后,直接爬取就得到图片了。


前面讲过分享代码,但我又想发到git上,结果不晓得咋整,后来搁置了。Anyway,下一章将会接着前面selenium库加上多进程的内容,喜欢的小伙伴可以点赞关注下!!

CSDNicon-default.png?t=M0H8https://mp.csdn.net/mp_blog/creation/editor/120709680(往期关于selenium翻页以及防反爬)

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2022-02-14 21:34:12  更:2022-02-14 21:36:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年10日历 -2024/10/5 11:16:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码