[Python知识库] 爬虫BeautifulSoup的学习（上）

BeautifulSoup是爬虫中应用到模块，可以用于爬取网页中的数据，通常与request一起使用。

爬虫学习的四部曲：获取数据——解析数据——提取数据——保存数据。

第一步：获取数据

获取到需要爬取数据的URL，这里会用到request库中的get()方法，具体使用为：

# 引入requests库
import requests
url = 'https://movie.douban.com/' #豆瓣首页
res = requests.get(url)

也可以写为：res = requests.get('https://movie.douban.com/'

这时res的的类型为：<class 'requests.models.Response'> ，这样的数据类型并不好处理，因此我我们需要把它转换为字符串。直接用res,text就可以得到结果，这时的数据类型为：<class 'str'>

第二步：解析数据

第一步已经获取到了要爬取网站的字符串信息，现在可以开始解析数据了，解析数据一行代码就可搞定：bs = BeautifulSoup(res.text,'html.parser')

?查看bs的类型：<class 'bs4.BeautifulSoup'>，打印bs的数据会发现得到的解析数据与res.text得到的结果一样，是因为在打印的时候调用了BeautifulSoup中的str方法，因此看到的结果是一样的。

第三步：提取数据

BeautifulSoup中常用知识点：find()与find_all()和Tag对象

ps:在使用这两个知识点时，需要了解HTML的基本知识和查看网页数据的基本方法，才能更好的获取到自己想的数据

?通过这两个方法得到的网页数据是一个Tag对象，并不是我们想要的数据，因此我们继续对数据进行处理，

我们先查看这个Tag是什么类型：<class 'bs4.element.ResultSet'> ，通过百度查找之后发现这个类型居然是个列表,列表就可以通过循环得到的想要的数据啦！

?为三部曲放上完整的图

?注：图片引用风变编程里面的课程

加:2021-09-13 09:13:47 更:2021-09-13 09:14:23

-2026/3/30 0:34:59-

网站联系: qq:121756557 email:121756557@qq.com IT数码