IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python爬虫的学习记录 -> 正文阅读

[人工智能]Python爬虫的学习记录

什么是爬虫:
爬虫是一种大批量获取数据的方法
通俗的说,爬虫就是一个‘机器/程序’,这台‘机器’根据目标/关键字模拟人的行为去各个网站/网页爬取想要的内容,比如:
批量爬取图片 批量爬取关键文字 批量爬取视频 批量爬取购物网站价格 批量爬取某商品评论 批量爬取某地房价

要合理使用爬虫
爬虫的破坏力:
1,过度使用爬虫轻则导致服务器下载,重则可以导致网站彻底宕机
2,通过爬虫在获取的敏感数据,个人数据,版权数据进行销售属于严重违法,且爬虫工程师连带责任

爬虫的合法性:
1,在法律允许的范围内进行
2,注意使用中的法律风险

爬虫的非正常使用如同黑客行为。
善用爬虫让他成为价值工具,不要让他成为作案工具

爬虫的分类
通用爬虫:
抓取互联网整个页面数据,通常是搜索引擎使用
聚焦爬虫:
聚焦爬虫是通用爬虫的升级版本,抓取特定的内容
增量爬虫:
基于聚焦爬虫的规则,检测是否有新的数据更新,如果有则进行抓取。

爬虫的业务场景
·为现有应用提供数据
·数据作为分析基础
·个人便利目的
个人信息检索系统;特定信息收集系统;自动填写调差问卷;爬虫分析热度排行;爬虫进行股票分析,爬取网站定向数据;视频网站视频批量下载;
购物网站比价系统;文章批量下载;飞机票比价系统;招聘公司爬取招聘信息;爬取房产网站做房产分析;财务报表下载;排行分析;畅销书排行分析;
验证码破解;用户拓展关系分析;模拟登录系统;文件下载助手开发;音乐网站批量下载;城市旅游数据分析;购物网站数据挖掘分析;电商信息数据分析;
论坛发帖,问答推广,效果回访;爬取微信公众号,进行数据分析;头条自动发文章,赚点广告费;新闻数据分析

关于反爬的说明:
爬虫和网站之间一直就在一个对立面上,是一个明的对抗。
爬虫就是网站的一个逆向工程
反爬机制:通过相应的安全机制,策略或者门槛机制限制机器直接获取数据
反反爬机制:爬虫制定相关的策略破解/穿透/绕过去网站的反爬机制,反反爬机制的核心就是让你的爬虫更像人

robots.txt协议:
Robots协议是以一个防君子不防小人的协议,规定本网站哪些数据不可以爬取,那些可以爬取,这不是一个技术手段,而是一个声明,但是具有法律效应。

爬虫的基本原理
爬虫其实就是WEB(网站)的逆向工程
静态模式:
浏览器输入 网址 → 回车 → 服务器接到请求 → 返回代码 → 浏览器接收代码 → 浏览器解析代码展示出页面
动态模式:
浏览器输入 网址 → 回车 → 服务器接到请求 → 返回部分前端和Javascript代码 → Javascript再次发起请求 → 加载页面的实际内容

以上为今天的学习笔记!有点迷糊,慢慢学习吧!加油
每天进步一点点

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-14 15:56:46  更:2021-12-14 15:57:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 1:36:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码