Python爬虫笔记(一)
爬虫即网络爬虫,是指模拟用户使用的浏览器发送网络请求,再接收响应并进行处理,最后得到用户所要的信息。即实现自动抓取互联网上信息的程序。
一、爬虫的基本流程
爬虫的基本流程就是通过网址发送请求,获取响应,然后对获取的响应进行解析提取所需要的信息的过程。
二、有关浏览器的基本操作
1、查看页面HTML元素
在浏览器界面点击右键按检查,可查看该页面的HTML文本元素。
2、请求头、响应头
在浏览器中如上图所示右键检查,通过刷新页面可查看请求头和响应头。 常见的请求头有:
请求头 | 功能 |
---|
host | 域名或端口号 | connection | 长链接 | Upgrade-Insecure-Requests | 升级为HTTPS请求 | user-agent | 用户代理 | referer | 页面跳转处,即点击进入此页面的网址 | cookie | 登录 |
响应头: set-cookie是对方设置的Cookie到用户浏览器的缓存。
三、Python爬虫常用函数
1、Requests模块
Requests模块是一种用于发送请求获取响应的http模块。
(1)安装及官方中文文档链接
安装方法如下(二种方法):
pip3 install requests
pip install requests
Requests模块官方中文文档链接: Requests: 让 HTTP 服务人类
(2)发送请求获取响应方法
常用的发送请求的方法有两种: get请求: response = requests.get(url) # url为请求对象网址 post请求: response = requests.post(url,data) #data字典可在浏览器检查中的标头找到 基本的发送请求接收响应的模板如下:
import requests
url = 'https://www.csdn.net'
response = requests.get(url)
print(response.text)
print(response.content.decode())
(3)常见response响应对象方法
方法 | 功能 |
---|
response.url | 响应的url(真实的url) | response.encoding | 将使用的response.text的编码方式 | response.status_code | 查看状态码 | response.request.headers | 响应对象的请求头 | response.headers | 响应对象的响应头 | response.request._cookies | 请求携带的cookies | response.cookies | 响应携带的cookies | response.headers[‘content-type’] | 返回响应头字典中包含的返回结果类型 | response.json() | 将json字符串类型的响应内容转换为python对象 |
代码实现效果如下:
import requests
url = 'https://www.csdn.net'
response = requests.get(url)
print('response.url:',response.url,'\n')
print('response.encoding:',response.encoding,'\n')
print('response.status_code:',response.status_code,'\n')
print('response.request.headers:',response.request.headers,'\n')
print('response.headers:',response.headers,'\n')
print('response.request._cookies:',response.request._cookies,'\n')
print('response.cookies:',response.cookies,'\n')
print('response.headers:',response.headers['content-type'],'\n')
返回结果: 如果返回类型( response.headers[‘content-type’] )中有json类型,可使用以下方法替换json类型:txt = response.json()
(4)带请求头的请求
为了爬虫能够模拟浏览器模拟得更像,防止被轻易发现为非浏览器,在发送请求时应带上请求头。 在上文浏览器的操作中可查看网页对应的请求头,然后复制到代码中。使用方法如下:
import requests
url = 'xx'
headers = {
'User-Agent':'xxxxxx'
}
response = requests.get(url,headers = headers)
2、Beautiful Soup模块
Beautiful Soup模块可用于对文本进行解析美化,方便后续对数据的提取处理。
(1)安装及官方中文文档链接
安装方法如下(二种方法):
pip3 install beautifulsoup4
pip install beautifulsoup4
Beautiful Soup模块官方中文文档链接: Beautiful Soup 4.4.0 文档
(2)解析文本提取关键数据方法
soup = BeautifulSoup(text,features="lxml")
text = soup.find_all('h4','bookname')
三、具体实现案例
python爬小说 python爬bing图片 我是一名学生,目前正在学习中,本篇文章是我的学习笔记,如有错误的话还请指正。
|