提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
基础部分学完后,学习方向是从基础部分提高,到爬虫框架,到手机 APP 爬虫,再到分布式爬虫,每个领域都需要投入精力去学习与研究。为了不让你迷失到爬虫世界里,这里为你梳理了一条最简单、最直接的技术线。。
一、多线程爬虫与常见反爬手段
本系列课程主要为大家介绍的是爬虫入门相关知识,9 讲过后你已经可以编写常见的爬虫程序,但现在我们学习的爬虫都称之为单线程或单进程爬虫,效率非常低,如果你想让你的爬虫程序效率成倍提升,那首先要学习的就是多线程或多进程爬虫。
多线程与多进程爬虫需要学习的相关技术点如下(包含但不仅限于)。
以上内容学习之后,对爬虫程序运行的效率会有极大的提升。
基础部分除了爬虫效率外,还需要了解常见的反爬手段。之前的课程只提及了最简单的反爬手段,UA 判断,除了它以外,常见的反爬方式如下。
二、反爬方式
- 验证码,需要掌握验证码识别技术;
- IP 限制,需要学习代理相关知识;
- 字体反爬,JS 加密,需要学习前端加密相关知识。
以上内容为爬虫基础部分需要提高的相应技术点,可以作为重点去针对性学习。
三、爬虫框架
在实际编码中 requests 只是最简单与最常用的爬虫库,在工作中还有 2 个常用爬虫框架需要掌握。
以上两款框架也属于爬虫编写者必备的技能栈,在后续的学习过程也需要逐步掌握。
关于它们的相关资料非常多,在搜索引擎输入关键字即可检索。
手机 APP 爬虫 本课程中所有实验都是针对 Web 端 PC 站点进行爬取,但这只是爬虫的一个方向。
随着移动互联网时代的兴起,手机 APP 爬取,也成为了爬虫工程师日常工作之一。
四、爬取手机 APP
如何爬取手机 APP 内容,可以从下述内容开始学习。
- Fiddler 工具的使用;
- Charles 工具的使用;
- mitmproxy 与 mitmdump;
- Appium。
更高阶的 APP 反编译涉及法律问题,学习可以但不建议应用。
五、分布式爬虫
当目标数据量大到一定程序时,单台电脑已经无法满足要求,此时就要针对性的去学习分布式爬虫相关技术了,可以从下述内容入手学习。
Scrape-Redis Celery 学习到分布式爬虫之后,爬虫才真正的领域为你展开,你将面对海量的数据,真正进入大数据时代。
|