python 爬虫学习–DAY1-----requests模块

python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
最主要的作用：模拟浏览器发送请求。

文章目录

python 爬虫学习--DAY1-----requests模块

安装request模块

打开pycharm终端Terminal
输入 pip install requests

requests模块爬取数据使用流程

指定url(可以简单的理解为所要爬取数据的网址)
发起请求
获取响应数据
持久化存储数据

流程实例----爬取搜狗首页的页面数据

"""
实例：爬取搜狗首页的页面数据
"""
#0.导入requests模块
import requests

#1. 指定url
url="https://www.sogou.com/"

#2. 发起请求（一般情况下发送GET请求）
# 调用requests.get()会返回一个响应对象
response=requests.get(url=url)

#3. 获取相应对象
# .text返回的时字符串形式的响应数据
page_text=response.text

#4.持久化存储
#with open(...)as    第一个参数为文件地址，第二个参数指定文件使用方式: 'r'--只读模式
#'w'--写入模式  'a'--任何append进file的数据都被自动加到文件末尾位置  'r+'--读写均可
#通过fp.write()来写入数据，实现持久化存储
with open("./sougou.html",'w',encoding="utf-8") as fp:
	fp.write(page_text)
print("爬取结束")

一些可能出现的问题

爬取某些网页，爬取结果为空

原因：可能网页有反爬机制，最常见的UA机制，比如直接爬取豆瓣网页，爬取结果为空

解决办法：增加UA伪装，在get请求中加入请求头


url="https://www.douban.com//"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.8131'
    }
response=requests.get(url=url,headers=headers)

爬取的页面打开为乱码

原因：可能页面的编码形式不同，比如百度，爬取页面打开为乱码
介绍两种方法：encode()用于解码，decode用于编码
解码形式有：gbk、utf-8
通常解决方法：先将网页源代码解码成Unicode编码,然后用utf-8编码

page_text=response.text.encode('iso-8859-1').decode('utf-8')

不同的网页编码不同，根据网页编码方式来编码,比如电影天堂用gbk编码。

page_text=response.text.encode('iso-8859-1').decode('gbk')

ps:使用F12查看网页源代码的head标签里的meta标签中charset属性可以找到编码方式

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-08-08 11:17:17 更:2021-08-08 11:19:35

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/6 15:34:29-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码

[Python知识库]python 爬虫学习--DAY1-----requests模块