什么是爬虫: 爬虫是一种大批量获取数据的方法 通俗的说,爬虫就是一个‘机器/程序’,这台‘机器’根据目标/关键字模拟人的行为去各个网站/网页爬取想要的内容,比如: 批量爬取图片 批量爬取关键文字 批量爬取视频 批量爬取购物网站价格 批量爬取某商品评论 批量爬取某地房价
要合理使用爬虫 爬虫的破坏力: 1,过度使用爬虫轻则导致服务器下载,重则可以导致网站彻底宕机 2,通过爬虫在获取的敏感数据,个人数据,版权数据进行销售属于严重违法,且爬虫工程师连带责任
爬虫的合法性: 1,在法律允许的范围内进行 2,注意使用中的法律风险
爬虫的非正常使用如同黑客行为。 善用爬虫让他成为价值工具,不要让他成为作案工具
爬虫的分类 通用爬虫: 抓取互联网整个页面数据,通常是搜索引擎使用 聚焦爬虫: 聚焦爬虫是通用爬虫的升级版本,抓取特定的内容 增量爬虫: 基于聚焦爬虫的规则,检测是否有新的数据更新,如果有则进行抓取。
爬虫的业务场景 ·为现有应用提供数据 ·数据作为分析基础 ·个人便利目的 个人信息检索系统;特定信息收集系统;自动填写调差问卷;爬虫分析热度排行;爬虫进行股票分析,爬取网站定向数据;视频网站视频批量下载; 购物网站比价系统;文章批量下载;飞机票比价系统;招聘公司爬取招聘信息;爬取房产网站做房产分析;财务报表下载;排行分析;畅销书排行分析; 验证码破解;用户拓展关系分析;模拟登录系统;文件下载助手开发;音乐网站批量下载;城市旅游数据分析;购物网站数据挖掘分析;电商信息数据分析; 论坛发帖,问答推广,效果回访;爬取微信公众号,进行数据分析;头条自动发文章,赚点广告费;新闻数据分析
关于反爬的说明: 爬虫和网站之间一直就在一个对立面上,是一个明的对抗。 爬虫就是网站的一个逆向工程 反爬机制:通过相应的安全机制,策略或者门槛机制限制机器直接获取数据 反反爬机制:爬虫制定相关的策略破解/穿透/绕过去网站的反爬机制,反反爬机制的核心就是让你的爬虫更像人
robots.txt协议: Robots协议是以一个防君子不防小人的协议,规定本网站哪些数据不可以爬取,那些可以爬取,这不是一个技术手段,而是一个声明,但是具有法律效应。
爬虫的基本原理 爬虫其实就是WEB(网站)的逆向工程 静态模式: 浏览器输入 网址 → 回车 → 服务器接到请求 → 返回代码 → 浏览器接收代码 → 浏览器解析代码展示出页面 动态模式: 浏览器输入 网址 → 回车 → 服务器接到请求 → 返回部分前端和Javascript代码 → Javascript再次发起请求 → 加载页面的实际内容
以上为今天的学习笔记!有点迷糊,慢慢学习吧!加油 每天进步一点点
|