IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> Python爬虫笔记(一):爬虫基本流程及对应的python库基本用法 -> 正文阅读

[网络协议]Python爬虫笔记(一):爬虫基本流程及对应的python库基本用法

Python爬虫笔记(一)


爬虫即网络爬虫,是指模拟用户使用的浏览器发送网络请求,再接收响应并进行处理,最后得到用户所要的信息。即实现自动抓取互联网上信息的程序。

一、爬虫的基本流程

爬虫的基本流程就是通过网址发送请求,获取响应,然后对获取的响应进行解析提取所需要的信息的过程。

二、有关浏览器的基本操作

1、查看页面HTML元素


在浏览器界面点击右键按检查,可查看该页面的HTML文本元素。

2、请求头、响应头

在这里插入图片描述

在浏览器中如上图所示右键检查,通过刷新页面可查看请求头和响应头。
常见的请求头有:

请求头功能
host域名或端口号
connection长链接
Upgrade-Insecure-Requests升级为HTTPS请求
user-agent用户代理
referer页面跳转处,即点击进入此页面的网址
cookie登录

响应头:
set-cookie是对方设置的Cookie到用户浏览器的缓存。

三、Python爬虫常用函数

1、Requests模块

Requests模块是一种用于发送请求获取响应的http模块。

(1)安装及官方中文文档链接

安装方法如下(二种方法):

pip3 install requests
pip install requests

Requests模块官方中文文档链接: Requests: 让 HTTP 服务人类

(2)发送请求获取响应方法

常用的发送请求的方法有两种:
get请求: response = requests.get(url) # url为请求对象网址
post请求: response = requests.post(url,data) #data字典可在浏览器检查中的标头找到
基本的发送请求接收响应的模板如下:

import requests

url = 'https://www.csdn.net'
response = requests.get(url)   # 发送get请求
print(response.text)   # (方法一)获取文本编码
print(response.content.decode())	# (方法二)获取二进制数据,因为传输时都为bytes类型,要进行decode解码
# 一般默认utf-8,也可用gbk,gb2312,ASCII,iso-8859-1

(3)常见response响应对象方法

方法功能
response.url响应的url(真实的url)
response.encoding将使用的response.text的编码方式
response.status_code查看状态码
response.request.headers响应对象的请求头
response.headers响应对象的响应头
response.request._cookies请求携带的cookies
response.cookies响应携带的cookies
response.headers[‘content-type’]返回响应头字典中包含的返回结果类型
response.json()将json字符串类型的响应内容转换为python对象

代码实现效果如下:

import requests

url = 'https://www.csdn.net'
response = requests.get(url)

print('response.url:',response.url,'\n')
print('response.encoding:',response.encoding,'\n')
print('response.status_code:',response.status_code,'\n')
print('response.request.headers:',response.request.headers,'\n')
print('response.headers:',response.headers,'\n')
print('response.request._cookies:',response.request._cookies,'\n')
print('response.cookies:',response.cookies,'\n')
print('response.headers:',response.headers['content-type'],'\n')

返回结果:
在这里插入图片描述
如果返回类型( response.headers[‘content-type’] )中有json类型,可使用以下方法替换json类型:txt = response.json()

(4)带请求头的请求

为了爬虫能够模拟浏览器模拟得更像,防止被轻易发现为非浏览器,在发送请求时应带上请求头。
在上文浏览器的操作中可查看网页对应的请求头,然后复制到代码中。使用方法如下:

import requests

url = 'xx'
headers = {
'User-Agent':'xxxxxx'
}

response = requests.get(url,headers = headers)

2、Beautiful Soup模块

Beautiful Soup模块可用于对文本进行解析美化,方便后续对数据的提取处理。

(1)安装及官方中文文档链接

安装方法如下(二种方法):

pip3 install beautifulsoup4
pip install beautifulsoup4

Beautiful Soup模块官方中文文档链接: Beautiful Soup 4.4.0 文档

(2)解析文本提取关键数据方法

soup = BeautifulSoup(text,features="lxml")    #使用BeautifulSoup解析文档text,并得到对象soup
text = soup.find_all('h4','bookname')    #使用find_all找到'h4'、'bookname'标签对应内容

三、具体实现案例

python爬小说
python爬bing图片
我是一名学生,目前正在学习中,本篇文章是我的学习笔记,如有错误的话还请指正。

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-12-09 12:01:41  更:2021-12-09 12:04:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/8 5:42:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码