Python爬虫笔记（一）

文章目录

Python爬虫笔记（一）
一、爬虫的基本流程
二、有关浏览器的基本操作
- 1、查看页面HTML元素
- 2、请求头、响应头
三、Python爬虫常用函数
三、具体实现案例

爬虫即网络爬虫，是指模拟用户使用的浏览器发送网络请求，再接收响应并进行处理，最后得到用户所要的信息。即实现自动抓取互联网上信息的程序。

一、爬虫的基本流程

爬虫的基本流程就是通过网址发送请求，获取响应，然后对获取的响应进行解析提取所需要的信息的过程。

二、有关浏览器的基本操作

1、查看页面HTML元素

在浏览器界面点击右键按检查，可查看该页面的HTML文本元素。

2、请求头、响应头

在这里插入图片描述

在浏览器中如上图所示右键检查，通过刷新页面可查看请求头和响应头。
常见的请求头有：

请求头	功能
host	域名或端口号
connection	长链接
Upgrade-Insecure-Requests	升级为HTTPS请求
user-agent	用户代理
referer	页面跳转处,即点击进入此页面的网址
cookie	登录

响应头：
set-cookie是对方设置的Cookie到用户浏览器的缓存。

三、Python爬虫常用函数

1、Requests模块

Requests模块是一种用于发送请求获取响应的http模块。

（1）安装及官方中文文档链接

安装方法如下（二种方法）：

pip3 install requests
pip install requests

Requests模块官方中文文档链接： Requests: 让 HTTP 服务人类

（2）发送请求获取响应方法

常用的发送请求的方法有两种：
get请求： response = requests.get(url) # url为请求对象网址
post请求： response = requests.post(url,data) #data字典可在浏览器检查中的标头找到
基本的发送请求接收响应的模板如下：

import requests

url = 'https://www.csdn.net'
response = requests.get(url)   # 发送get请求
print(response.text)   # （方法一）获取文本编码
print(response.content.decode())	# (方法二)获取二进制数据，因为传输时都为bytes类型，要进行decode解码
# 一般默认utf-8,也可用gbk,gb2312,ASCII,iso-8859-1

（3）常见response响应对象方法

方法	功能
response.url	响应的url(真实的url)
response.encoding	将使用的response.text的编码方式
response.status_code	查看状态码
response.request.headers	响应对象的请求头
response.headers	响应对象的响应头
response.request._cookies	请求携带的cookies
response.cookies	响应携带的cookies
response.headers[‘content-type’]	返回响应头字典中包含的返回结果类型
response.json()	将json字符串类型的响应内容转换为python对象

代码实现效果如下：

import requests

url = 'https://www.csdn.net'
response = requests.get(url)

print('response.url:',response.url,'\n')
print('response.encoding:',response.encoding,'\n')
print('response.status_code:',response.status_code,'\n')
print('response.request.headers:',response.request.headers,'\n')
print('response.headers:',response.headers,'\n')
print('response.request._cookies:',response.request._cookies,'\n')
print('response.cookies:',response.cookies,'\n')
print('response.headers:',response.headers['content-type'],'\n')

返回结果：
在这里插入图片描述
如果返回类型( response.headers[‘content-type’] )中有json类型，可使用以下方法替换json类型：txt = response.json()

（4）带请求头的请求

为了爬虫能够模拟浏览器模拟得更像，防止被轻易发现为非浏览器，在发送请求时应带上请求头。
在上文浏览器的操作中可查看网页对应的请求头，然后复制到代码中。使用方法如下：

import requests

url = 'xx'
headers = {
'User-Agent':'xxxxxx'
}

response = requests.get(url,headers = headers)

2、Beautiful Soup模块

Beautiful Soup模块可用于对文本进行解析美化，方便后续对数据的提取处理。

（1）安装及官方中文文档链接

安装方法如下（二种方法）：

pip3 install beautifulsoup4
pip install beautifulsoup4

Beautiful Soup模块官方中文文档链接： Beautiful Soup 4.4.0 文档

（2）解析文本提取关键数据方法

soup = BeautifulSoup(text,features="lxml")    #使用BeautifulSoup解析文档text,并得到对象soup
text = soup.find_all('h4','bookname')    #使用find_all找到'h4'、'bookname'标签对应内容