IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 简单的学习爬虫--python -> 正文阅读

[网络协议]简单的学习爬虫--python

1.

爬虫在使用场景中的类型:

通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。

聚焦爬虫:在通用爬虫的基础上,抓取页面的局部内容。

增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新的数据。

反爬机制与反反爬策略对立

robots.txt协议:规定了网站中哪些数据可以被爬虫爬取哪些不行。

哔哩哔哩的robots.txt协议

http与https协议

http协议:服务器与客户端进行数据交互的一种形式。

https协议:安全的超文本传输协议。

重要的头信息:

1.请求头

User-Agent:请求载体的身份标识

-Connection:请求完毕后,是断开连接还是保持连接。

2.回应头

Connection-Type:服务器响应会客户端的数据类型

加密方式

-对称密钥加密:对称密钥加密是双方使用相同的密钥,必须以绝对安全的形式传送密钥才能保证安全。若果密钥泄露,加密数据将受到威胁。

-非对称密钥加密:

1、乙方生成一对密钥(公钥和私钥)并将公钥向其它方公开。

2、得到该公钥的甲方使用该密钥对机密信息进行加密后再发送给乙方。

3、乙方再用自己保存的另一把专用密钥(私钥)对加密后的信息进行解密。乙方只能用其专用密钥(私钥)解密由对应的公钥加密后的信息。

在传输过程中,即使攻击者截获了传输的密文,并得到了乙的公钥,也无法破解密文,因为只有乙的私钥才能解密密文。

反之亦然。

-证书密钥加密:多一个中间机构对服务端发的公钥进行认证,认证成功后对公钥进行数字签名(防伪)并封装到证书中发送给客户端。客户端对数字签名进行验证,确认是服务端发出的公钥。

2.

-urllib模块(少用)---不讲

-requests模块

requests模块:python中原生的一款基于网络请求的模块。

作用:模拟浏览器发请求。

如何使用:

- 指定url

- 发起请求(get,post)

- 获取响应数据

- 持久化存储

环境安装:

pip install request

import requests

# 指定url
url='https://www.bilibili.com/'

#发起请求,get方法会返回一个响应对象
response = requests.get(url=url)

# 获取响应数据,text返回发是字符串形式的响应数据
page_text = response.text
print(page_text)

# 持久化存储
with open('./bilibili.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

print('end!')

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2022-04-22 19:15:05  更:2022-04-22 19:17:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 3:41:07-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码