IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> Python3 01 网络爬虫 -> 正文阅读

[网络协议]Python3 01 网络爬虫

1.1 最简单的爬虫


@ 我的老师:Jack Cui

PS:我是通过 看 Jack Cui 老师的文章 学习的爬虫,也为我之后的 爬虫打开了大门。


1.1.1 URL 是什么?

在学习 爬虫之前,我们必须知道 我们 平常 所说的网址,实际上 叫做 URL。

即:统一资源定位符(Uniform Resource Locator)

它的格式通常都是:

协议://主机名[:端口]/资源路径/参数

但是我们知道的是,一般我们看到的网址,好像都不是这么全。好像是 隐藏了 什么似的。对!没错,就是隐藏了点儿 东西。(可以用 谷歌浏览器的 NetWork 进行抓包,把所有的数据通通抓到。

举个例子:http://www.baidu.com

实际上 它隐藏了一个 很明显的东西,就是 端口!http 协议默认的端口是 80,而 https 协议 默认的端口是 443。

http://www.baidu.com:80
https://www.baidu.com:443

那么 讲到这里,我们要 回归主题了。我们 说了 URL ,但是 URL 和网络 爬虫有啥关系呢?

答:关系非常非常的大!我们的网络爬虫 是为了 爬网络上的数据的!得到 我们可以利用的数据!而 网络上的数据 最直接的途径 就是 网页。也就是 一个一个 反馈给我们的 资源文件。如果 我们 要得到 这些反馈,就必须 在 浏览器里 输入 这个 URL。

这就类似于 你得到了 地址(URL),然后 我们 根据这个地址 去找 资源文件,找到后,我们 才能够 读取数据!甚至进行 相关的网页操作。


1.1.2 数据在哪里?

我们都知道,每次访问一个网页,得到了反馈后,数据就在眼前。但是 总觉得 缺点儿 什么。

学过 前端知识的人 应该知道,网页所呈现给我们的效果,是浏览器 渲染出来!

其实本质上 它们也都是代码。。。

即使是 没有学过 前端的人其实 也能发现这个秘密。那就是 我们右键 网页,然后点击 查看源代码。在这里插入图片描述
在这里插入图片描述
我们就会 看到 一个 以代码的形式。 突然,在我们面前 出现了。

所以 我才说,数据就在眼前,可是总觉得缺点儿什么。这主要的 原因就是 渲染的太好了。让你无法 直接的 通过某种方式 获取。才会觉得 要得到了,却又 很难。。。

那么 这样的 显示代码的 样子 还有点儿丑,而且 不结构化。我们 怎么解决呢?

答:右键 点击检查

在这里插入图片描述
就会出现 这样的 好看的 工具栏,这个工具栏 里 包括了 很多工具。其中 第一个 工具 就是用来 查看 代码的。而且是 结构化的 查询。还能直接 对网页 进行 相关的更改。只要你 懂 前端代码。。


1.1.3 requests 库

在 cmd 中,使用如下指令安装 requests :

pip install requests

在这里插入图片描述
既然我们已经知道了,它的所有数据 其实 都在 源代码里。那么我们就应该 想办法 获取到 这个 源代码。

即 安装 requests 库,利用 get 方式进行 网页的访问,访问后,它 会 自动的把 源代码 装在 text 这个属性里。

import requests

req = requests.get("http://www.baidu.com")

req.encoding = 'utf-8'

print(req.text)


utf-8 是万国码 编码,可以对 几乎 大多数国家的 语言 进行 编码。

如果你不用这个编码,你可能会发现 你读的源代码 很多 地方 都是乱码的。
在这里插入图片描述
这样 我们就把 我们需要的 源代码 爬取下来了。

这个过程其实就是 最简单那的 爬虫。因为 源代码 爬取下来后,我们只要 对 其 进行 re 正则的定位,和 字符串 相关的 处理。得到 准确的 数据。就是 爬虫了。。。

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2022-01-04 13:46:39  更:2022-01-04 13:48:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 12:31:00-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码