重新理解下概念,HTTP基本原理 2.1.1 URI 的全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符.URL 是 URI 的子集,也就是说每个 URL 都是 URI,但不是每个 URI 都是 URL。那么,怎样的 URI 不是 URL 呢?URI 还包括一个子类叫作 URN,它的全称为 Universal Resource Name,即统一资源名称URL 是 URI 的子集,也就是说每个 URL 都是 URI,但不是每个 URI 都是 URL。那么,怎样的 URI 不是 URL 呢?URI 还包括一个子类叫作 URN,它的全称为 Universal Resource Name,即统一资源名称
2.1.2超文本 英文名称hypertext,打开chrome 启动淘宝,任意地方选择检查项,在elements选项卡看到的网页源代码就是超文本
2.1.3 http全称是 Hyper Text Transfer Protocol,中文名叫做超文本传输协议, HTTPS 的全称是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的 HTTP 通道,简单讲是 HTTP 的安全版,即 HTTP 下加入 SSL 层,简称为 HTTPS。 2.1.4 HTTP请求过程,浏览器向网站服务器发送一个请求,服务器接收请求进行解析和处理,然后返回相应的响应传回给浏览器。 2.1.5请求有客户端发向服务器,可分为4部分:请求方法(如get post put delete options connect)、请求网址、请求头(用来说明服务器使用的附加信息如Cookie、Referer、User-Agent等)、请求体(post请求中的表单内容,get请求体为空) 2.1.6响应由服务端返回给客户端,可分为三部分:响应状态码、响应头(包含了服务器对请求的应答信息如Content-Type、Server、Set-Cookie、Content-Type等)、响应体(就是网页的源代码,响应的正文数据都在此)
2.2HTML相当于骨架、JS相当与肌肉(网页中看到的交互和动画效果如下载进度条、提示框、轮播图等)、CSS类似皮肤(网页页面排版样式标准 页面更美观)
2.3 爬虫基本原理 互联网比作一张大网,爬虫好像网上爬行的蜘蛛,网的节点比作一个个网页,爬虫爬到这等价于访问了页面,获取信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。 2.3.1 爬虫步骤 1.获取网页,向网站服务器发送一个请求,返回的响应体就是网页源代码 2.提取信息 我们可以使用CSS选择器、XPATH、BeautifulSoup、pyquery、lxml库,使用这些库高效快速提取网页信息如节点的属性、文本值等。 3.保存数据—excel或数据库
2.4 会话和cookie 会话在服务端,用来保存用户的会话信息。Cookies在客户端,浏览器在下次访问网页时字典附带上它发送给服务器,服务器通过识别cookies并鉴定出是哪个用户,在判断用户的登录状态,返回相应的响应。
会话Cookie是把Cookie放在浏览器内存里,浏览器关闭后该cookie即失效。持久Cookie则会保存到客户端的硬盘中,下次可以继续使用,用于长久保持用户登录状态
|