| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 他说:“只是单纯的想用Python收集一些素颜照,做机器学习使用”,“我信你个鬼!” -> 正文阅读 |
|
[Python知识库]他说:“只是单纯的想用Python收集一些素颜照,做机器学习使用”,“我信你个鬼!” |
阅读本文你将收获
Python 采集 19 楼相亲女生头像从本篇博客开始,你将进入爬虫 120 例的第二个小阶段,
目标数据源分析爬取目标网站 本次抓取目标是 19 楼女生相亲频道,该分类频道截止 7 月 1 日还在持续更新中。 https://www.19lou.com/r/1/19lnsxq.html
使用的 Python 模块
重点学习内容
列表页分析 本次抓取围绕列表页即可完成任务,列表页排序规则如下:
图片所在标签如下所示,提取工作交给
提前通过 导入该库与该库的基本使用。
上述代码注释中提及的 XPath 对象,关于 XPath,是一门在 XML/HTML 文档中查找信息的语言,大意为通过特定语法在 HTML 中提取数据的语言,基础知识的学习,可以参考 https://www.w3school.com.cn/xpath/xpath_intro.asp,最佳的学习技巧是边查边用。 整理需求如下
编码时间在编码时,为了防止直接被反爬识别,所在爬取过程中,增加一个等待时间,限制爬取速度(当然在后续发现没有对 IP 的限制,直接移除即可)。 代码编写过程中,如果出现如下错误,更新
更新脚本如下:
如果依旧失败,建议自己写随机生成 UserAgent 的函数。 一点点反爬 爬取该目标数据时,直接通过 直接请求目标网址,得到的响应代码如下图所示,注意红框位置。 对 获取到目标页面源码之后,就可以通过
完整代码
为了提高效率,你可以取消 5 秒等待,也可以采用多线程,不过尝试几秒钟就好了,不要过度抓取哦,毕竟咱们只为学习。 上述代码还存在一个重要知识点,在获取到的源码中图片的 具体对比如下图所示,上图为直接查看页面源码,下图为服务器直接返回源码。 这部分给我们的爬取提示为,任何数据的解析提取,都要依据服务器直接返回的源码。 抓取结果展示时间爬虫 120 例,第 11 例完成,希望本篇博客能带给你不一样的惊喜与知识。相关资料可以在下面直接获取。 完整代码下载地址:https://codechina.csdn.net/hihell/python120,NO11。 以下是爬取过程中产生的各种学习数据,如果只需要数据,可去下载频道下载~。
抽奖时间上篇博客获奖的朋友 ID 为 评论数过 100,随机抽取一名幸运读者,
相关阅读 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/25 1:48:36- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |