很多同学都不知道怎么测试爬虫
通过对爬虫的分析,总结了爬虫的测试方法,其他建议欢迎补充。
——测试阶段
请点击输入图片描述(最多18字)
你可能很熟悉调用第三方平台(比如魔蝎)进行数据采集的流程。第三方页面授权后,第三方会帮助我们完成数据采集的任务。我们只需要等待结果被召回。
但是如果你想自己做爬虫,流程是什么?
其实爬虫和其他业务一样,也有一个过程。一般先触发创建任务,爬虫模块采集数据,采集完成后再对数据进行分析并入库。
对于授权爬虫,有SDK页面的也可以通过页面直接请求,其他的只能通过请求接口实现。还有一种爬虫,定期从网站抓取数据,后台配置任务后更新数据库。
当然还有很多其他的互动逻辑,每一步都需要分析评估。
所以我们可以从创建任务的接口开始,连接整个流程,在接口的响应中加入简单的检查,比如任务创建后的任务号,通过查询接口可以得到这个任务的结果数据,然后检查数据是否存储,存储是否准确,是否会乱码等。
从界面开始的好处是我们可以自动检查爬虫任务,检查数据是否可以创建,爬虫是否可以正常抓取,抓取的结果是否存储在仓库中等。
解析的逻辑和入库的准确性需要注意。爬虫结果数据的入库关系到数据分析和应用。对于数据分析来说,如果源数据是错误的,那么无论分析结果是什么,都是没有意义的。 ?
——总结
请点击输入图片描述(最多18字)
接口测试
调用接口收集数据,测试爬虫进程;基础接口测试、弱网络、接口安全、接口性能等。
针对场景
可以通过接口或SDK进行测试,包括成功抓取场景和失败场景,如无数据和无效数据。
解析入库测试
数据收集后的分析和入库逻辑检查。
异常测试
主要针对系统间交互的处理逻辑,如失败重试机制、服务间的容错机制等。
爬虫质量和效率
主要是基于整体设计和代码实现来分析爬虫的处理模式是否高可用。
——线上阶段
请点击输入图片描述(最多18字)
一旦爬虫上线供其他业务方使用,就需要保证可用性和可靠性。
对于爬行动物来说,在线监测非常重要!既要保证提供的爬虫能够正常运行,又要保证出现异常时能够在最短的时间内解决,所以监控要从以下三个方面入手:
?
接口
在线运行界面脚本监控提供的界面可以正常使用,而不是等待业务端调整基础界面再反馈修复,成本相对较高。
主动调整界面,判断程序是否正常。您只能验证接口是否可以运行。如果条件允许,在线运行真实数据并验证结果。
线上异常
监控线上异常情况,如创建任务、登录、数据采集、数据分析、回调、数据入库等失败。,并实时监控和同步电子邮件。当收到异常情况时,开发商应尽快检查原因,并尽快发现和解决。
目标网站
要监控目标网站的情况,可以监控目标网站是否可用、是否已更改等。通过网络自动化。
稳定性对于爬行动物来说非常重要,但是很多不可控的因素会导致爬行动物的成功率下降。当事故发生时,我们可以做好监控和预防措施,将风险降至最低。
|