IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python学习之路(第九天)---使用BeautifulSoup解析网页 -> 正文阅读

[Python知识库]python学习之路(第九天)---使用BeautifulSoup解析网页

python学习之路(第九天)—使用BeautifulSoup解析网页

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.

库的安装前面有提到过,这里不再赘述。

简单用法

下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

使用 BeautifulSoup解析这段代码,能够得到它的一个对象,并能按照标准的缩进格式进行输出:

image-20210824182647266

可以看到输出正常,但是会出现错误,GuessedAtParserWarning: No parser was explicitly specified,大概意思是这里第16行BeautifulSoup()函数在使用的时候没有添加解释器,修改后不再出现该错误

在这里插入图片描述

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

print(soup.prettify())

这样输出的结构就死类似网页的模式了

在这里插入图片描述

还有其他几个简单的浏览器结构化数据的方法:

1、从文中找到所有 < a > 标签的链接

for link in soup.find_all('a'):
    print(link.get('href'))

在这里插入图片描述

如果是只要输出标签的话就是

soup.find_all(‘a’)

获取文字内容:

soup.get_text()

在这里插入图片描述

找出匹配的字符

soup.find(id='link1')

在这里插入图片描述

还有一些其他的这里推荐一篇文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id13

安装解析器

前文提到,需要解释器才不会报错,

可以用python的标准库,又或是第三方的

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml,前文有写到

另一个可供提供的解析器是纯python实现的html5lib

在这里插入图片描述

这里这个爬虫部分暂时不要太多其他功能,更加详细的用法

参考:Beautiful Soup 4.2.0 文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id13

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-25 12:09:51  更:2021-08-25 12:10:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 11:44:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码