IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 【网络爬虫开发实战】一、HTTP基本原理(上) -> 正文阅读

[网络协议]【网络爬虫开发实战】一、HTTP基本原理(上)

HTTP基本原理(上)

  1. URI 和 URL

    前言——详细的了解HTTP的基本原理,了解在浏览器中敲人URL到获取网页内容之间发生了什么。这些内容,有助于我们进一步了解爬虫的基本原理。

    URI 全称为 Uniform Resource Identifier ,即统一资源标识符;

    URL 全称为 Universal Resource Locator , 即统一资源定位符。

    举例来说,https://img-home.csdnimg.cn/images/20201124032511.png 这是 CSDN 的网站图标链接,它是一个URL,也是一个URI,即用过这个图标我们可以到达 CSDN 首页。这样一个图标资源,用 URL/URI 来唯一制定了它的访问方式,这其中包括了访问协议https、访问路径(/根目录)和资源名称 20201124032511.png。通过这样的一个连接,我们便可以在互联网上找到这个资源,这就是 URL/URI。

    URL 与 URI 之间的关系:URL 是 URI 的子集,也就是说每个 URL 都是 URI ,但是每个 URI 不一定是 URL。

    另:URI 还包含一个子类 URN ,全称为 Universal Resource Name ,即统一资源名称,通俗的说是带有名字的因特网资源,它只是对资源进行了命名,并没有定位资源。例如,urn:isbn:53585036 制定了一本书的 ISBD ,可以唯一标识这本书,但是没有指定到哪里找到这本书,这就是 URN。
    URL、URN 和 URI 的关系图
    但是在目前的互联网中,URN 用得非常少,所以几乎所有的 URI 都是 URL ,一般的网页链接我们既可以称为URL,也可以称为 URL 。

  2. 超文本

    前言——超文本,其英文名称叫做 hypertext ,了解了超文本,才能熟悉网站的组成部分。写爬虫是时有助于分析网站结构。

    在浏览器中,我们做看到的网页,都是由超文本解析而成的,超文本有一系列的标签,图片等。切记,超文本并不是编程语言,当浏览器解析这些标签后,便形成了我们平时看到的网页,而这些网页的源代码 HTML 就是超文本

    举例来说,当我们用浏览器打开一个网页(以CSDN首页为例)

CSDN首页
然后,右击鼠标任何一个地方,选择“检查”或者按快捷键 F12 ,打开浏览器开发者工具,这时,在源代码窗口就可以看到王爷的源代码,这些源代码就是超文本。

CSDN源代码
3. ## HTTP 和 HTTPS

前言——在前面提到过的 URL 中,URL 开头会有 http 或者 https ,这就是访问资源需要的协议类型。处理 http 和 https 以外 我们还会看到 ftp 、sftp 、smb 开头的 URL 这些都是协议类型。在爬虫中,我们抓取的页面通常是 http 或 https 协议。

HTTP 全称为 Hyper Text Transfer Protocol ,即超文本传输协议;

HTTPS 全称为 Hyper Text Transfer Protocol over Secure Socket Layer 、即加入SSL的超文本传输协议。

HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTP 是由万维网协会(World Wide Web Consortium)和 Internet 工作小组 IETF(Internet Engineering Task Force)共同合作制定的规范,目前广泛使用的是 HTTP 1.1 版本。

HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。因此,通过 https 传输的内容都是经过 SSL 加密的,其作用主要分为两种:

建立一个信息安全通道来保证数据传输的安全。
确认网站的真实性,凡是使用了 HTTPS 的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。

如今,很多网站和 App 都开始向 HTTPS 方向发展,例如:

苹果公司强制所有 iOS App 在2017年1月1日前全部改为使用 HTTPS 加密,否则 App 就无法在应用商店上架;
谷歌从2017年1月推出的 Chrome56 开始,对未进行 HTTPS 加密的网址链接亮出风险提示,即在地址栏的显著位置提醒用户 “此网页不安全” ;
腾讯微信小程序的官方需求文档要求后台使用 HTTPS 请求进行网络通信,不满足条件的域名和协议无法请求。

所以在爬取一些站点,就需要设置忽略证书的选项,否则会提示 SSL 链接错误。

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章           查看所有文章
加:2022-04-27 11:39:57  更:2022-04-27 11:41:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 2:47:00-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码