| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> python学习之路(第九天)---使用BeautifulSoup解析网页 -> 正文阅读 |
|
[Python知识库]python学习之路(第九天)---使用BeautifulSoup解析网页 |
python学习之路(第九天)—使用BeautifulSoup解析网页Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库. 库的安装前面有提到过,这里不再赘述。 简单用法下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):
使用 可以看到输出正常,但是会出现错误,GuessedAtParserWarning: No parser was explicitly specified,大概意思是这里第16行BeautifulSoup()函数在使用的时候没有添加解释器,修改后不再出现该错误
这样输出的结构就死类似网页的模式了 还有其他几个简单的浏览器结构化数据的方法: 1、从文中找到所有 < a > 标签的链接
如果是只要输出标签的话就是 soup.find_all(‘a’) 获取文字内容:
找出匹配的字符
还有一些其他的这里推荐一篇文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id13 安装解析器前文提到,需要解释器才不会报错, 可以用python的标准库,又或是第三方的 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml,前文有写到 另一个可供提供的解析器是纯python实现的html5lib 这里这个爬虫部分暂时不要太多其他功能,更加详细的用法 参考:Beautiful Soup 4.2.0 文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id13 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 11:44:15- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |