爬虫系列文章
本章节介绍爬虫基础知识,包括网络,前端界面HTML,CSS, JS 等。 第一章 爬虫基础-网络传输协议 第一章 爬虫基础-请求与响应头 第一章 爬虫基础-前端HTML 第一章 爬虫基础-前端CSS 第一章 爬虫基础-前端JavaScript
一、常见请求头
- Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。
- Connection:表示客户端与服务连接类型。
- Cache-Control:表示缓存头,可以指定可缓存性,到期时间等。
- Upgrade-Insecure-Requests:升级不安全的请求,意思是会在加载 http 资源时自动替换成 https 请求,让浏览器不再显示https页面中的http请求警报。
- User-Agent:是客户浏览器的名称。
- Accept:指浏览器或其他客户端可以接受的MIME文件类型,服务器可以根据它判断并返回适当的文件格式。
- Referer:表明产生请求的网页来自于哪个URL。
- Accept-Encoding:指出浏览器可以接受的编码方式。
- Accept-Langeuage:指出浏览器可以接受的语言种类,如en或en-us指英语,zh或者zh-cn指中文。
- Cookie:浏览器用这个属性向服务器发送Cookie。
二、常见响应头
- Connection:keep-alive,告诉客户端服务器的TCP连接也是一个长连接,客户端可以继续使用这个tcp连接发送http请求。
- Content-Encoding: gzip,告诉客户端,服务端发送的资源是采用gzip编码
- Date: Wed, 24 Feb 2021 09:50:22 GMT,服务端发送资源时的服务器时间,GMT是格林尼治所在地标准时间。
- Cookie:通过在 客户端 记录的信息确定用户的身份。
- Session:通过在 服务器端 记录的信息确定用户的身份。
三、响应状态码
- 100 ~ 199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。
- 200 ~ 299:表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)。
- 300 ~ 399:为完成请求,客户需进一步细化请求。
例如:请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)。 - 400 ~ 499:客户端的请求有错误,常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问,权限不够)。
- 500 ~ 599:服务器端出现错误,常用500(请求未完成。服务器遇到不可预知的情况)。
|