本节的内容,采用Beautiful Soup来解析HTML页面。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/348a28e857bf42a993152e9374a45da9.png)
Beautiful Soup可对网页页面进行树形解析,使用原理是 ![在这里插入图片描述](https://img-blog.csdnimg.cn/e1e4c5d993b0401e8c952b5bfe54a33c.png) 比如
import requests
r=requests.get("https://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
Beautiful Soup 库是解析,遍历、维护“标签树”的功能库,每一对尖括号内都是一个标签。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2de2d4b4fecb41b5acc1146c452a069c.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/d544c74c7b394c7394f185d42a5c4961.png) 尖括号内的属性是键值对的形式如class和title ![在这里插入图片描述](https://img-blog.csdnimg.cn/a28c40b31912499e8fa7adefd2c36227.png) 从bs4库里引用其中的类,包括BeautifulSoup,也可以直接引用bs4库 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2a139ca24d094eddbdc952a05bd76d82.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/568f5bdb85844f17b62734d2b8406160.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/125ef6469dc7439bb5abdbaf93f845dd.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/00834d71c35a4ed38290e8eab384f9ee.png)
import requests
r=requests.get("https://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
##print(soup.prettify())
##soup.title
##tag=soup.a
soup.p
print(tag)
soup.a.name
soup.a.parent.name
soup.a.parent.parent.name
###标签的属性
tag=soup.a
tag.attrs
###因为标签的属性是字典的形式,因此可以通过字典来获取
tag.attrs['href']
###标签属性类型
type(tag.attrs)
type(tag)
##查看标签内的字符串信息
soup.a.string
soup.p.string
type(soup.p.string)##bs4库的元素类型bs4.element.NavigableString
![在这里插入图片描述](https://img-blog.csdnimg.cn/17a87b6027264b9d82101918dfe41450.png)
BeautifulSoup库的使用总结 ![在这里插入图片描述](https://img-blog.csdnimg.cn/fd0c11545d0146b5b03991581bcb3a88.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/f4ce9ef660444d7a81ca7e8123ab7111.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/1174568bd5d64a5495b9e8a195374d96.png) 标签树的下行遍历 ![在这里插入图片描述](https://img-blog.csdnimg.cn/35a0cad7278742c78e52f978141295ed.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/571f5dbfc1ac472484218b83858bf276.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/2facbabcc1d7482ca23575c3ce307c0c.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/97e04d2d0fdb4b7c83da009808bc2f22.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/bfc958f3e21e400380cc4e4af6b2e565.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/c65bd2b46a3f49439b19800fbfa4923f.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/e93e207b500b40f9bbdc5ae83f30aafd.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/a77670d8ab6a43e7ad09da214d1ce678.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/74085eb665c54df9a6b22cfb20329ad3.png)
信息标记 ![在这里插入图片描述](https://img-blog.csdnimg.cn/624f5ee7bbe44574a3b51b8e95df60a0.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/f64c64130ce844b6a55e6102b4a6c29a.png)
信息标记的种类 包括三种 XML eXtensible Markup Language ![在这里插入图片描述](https://img-blog.csdnimg.cn/6e00146bc50c453899f08c1cf7b7e4ac.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/dddea18cd58a424e95d1e8bb442041e4.png)
JSON JavsScript Object Natatio 有类型的键值对构成的表达方式 ![在这里插入图片描述](https://img-blog.csdnimg.cn/c7af8428dcc54e938b780412ed4a2223.png)
YAML YAML Ain’t Markup Language 为一种递归的定义 采用无类型的键值对类型(键值对中无双引号) ![在这里插入图片描述](https://img-blog.csdnimg.cn/27fda8bb8f8c463aa32fddd5aec95817.png) 通过缩进来表示键值对的所属关系 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2934f99825f645119a3beddd96978f91.png) 用-(减号表示并列) ![在这里插入图片描述](https://img-blog.csdnimg.cn/72615005a83142d6bd0872d7fcc54c20.png)
YAML采用竖线表示整块数据#表示注释 ![在这里插入图片描述](https://img-blog.csdnimg.cn/4d9730eedd9748689f674c12d89b0a30.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/5c9bab8a1b0846939482cd12cd387cb6.png)
三种信息标记形式的比较
标记形式 | 特点 |
---|
XML | 采用尖括号进行标记 | JSON | 采用有类型的键值对进行信息标记 | YAML | 采用无类型键值对的表达形式 |
![在这里插入图片描述](https://img-blog.csdnimg.cn/236432482c1c436c980669d4bfd5367d.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/d5e5f2efa2304bfb8c5dfc6dbe4d2073.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/14e8b2f5fb7b4f4099b602e7826b5174.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/3eb4cae9ed104a04b2d5522d6c6d2d19.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/bde434153b8c46169f25529789195292.png)
信息提取的一般方法: 从标记后的信息中,提取关注的信息
-
方法1.完整的解析信息的标记形式,再提取关键信息。 XML、JSON、YAML 需要标记解释器,如bs4库的标签遍历树 优点:信息解析准确 缺点:提取过程繁琐,速度慢。 -
方法2:无视标记形式,直接搜索关键信息。 对信息的文本查找函数即可。 优点:提取过程简洁,速度较快。 缺点:提取结果准确性与信息内容相关。 -
融合的方法(可采用BeautifulSoup进行实现) 结合形式解析与搜索方法,提取关键信息。 XML、JSON、YAML搜索 需要标记解析器文本查找函数。 实例 ![在这里插入图片描述](https://img-blog.csdnimg.cn/b2d35913506b47fea4a7847da608dc6e.png)
import requests
kv={"user-agent":"Mozilla/5.0"}
r=requests.get("https://python123.io/ws/demo.html",headers=kv)
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
soup.find_all('a')
soup.text
for link in soup.find_all('a'):
print(link.get('href'))
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
![在这里插入图片描述](https://img-blog.csdnimg.cn/445a73f6d57048649f7b0fb89254e3ab.png) soup.find_all(True)表示显示所有的标签 ![在这里插入图片描述](https://img-blog.csdnimg.cn/9501d8986ed54c94a74522c09e571318.png) 基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- attrs:对标签属性值的检索字符串,可标注属性检索。
![在这里插入图片描述](https://img-blog.csdnimg.cn/e318d9773894494fb432dba07943bac1.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/841a96c0821d4ec689196b4faa2c6f43.png)
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- recursive:是否对子孙全部检索,默认True。
![在这里插入图片描述](https://img-blog.csdnimg.cn/bc0da5be4ce64d57b2a617710f2111fe.png)
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- string:<>…</>字符串区域的检索字符串。
![在这里插入图片描述](https://img-blog.csdnimg.cn/74eebfa12b0547a4bb28be0cdfe2305a.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/683b251577da46769be1a1032d9f5ab5.png) BeautifulSoup的7个find方法 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2904733807d7480ebe3bf9caebb53147.png) 实例学习,中国大学排名自动爬取 ![在这里插入图片描述](https://img-blog.csdnimg.cn/5f806eca96654fd4ae49d5033489a5b9.png) 程序的结构设计
- 步骤1:从网络上获取大学排名我网页内容
- 步骤2:提取网页中信息到合适的数据结构
- 步骤3:利用数据结构展示并输出结果
![在这里插入图片描述](https://img-blog.csdnimg.cn/e1ed444bad8949d8b07e207be52694e3.png) 主要的解决方法:
- 步骤1:从网络上获取大学排名网页内容getHTMLText()
- 步骤2:提取网页内容中的信息到合适的数据结构fillUnivList()
- 步骤3:利用数据结构展示并输出结果printUnivList()
![在这里插入图片描述](https://img-blog.csdnimg.cn/e5f59e85b4a64e7899becb167d6a0bf4.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/2df9fb9562fc45718fc23b79d6788702.png)
#CrawUnivRankingB.py
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string,tds[1].div.a.string,tds[4].string])
def printUnivList(ulist, num):
tplt = "{0:{3}^10}\t{1:{3}^10}\t{2:{3}^10}"
print(tplt.format("排名","学校名称","总分",chr(12288)))
for i in range(num):
u=ulist[i]
print(tplt.format(u[0].strip(),u[1].strip(),u[2].strip(),chr(12288)))
def main():
uinfo = []
url = 'https://www.shanghairanking.cn/rankings/bcur/202111'
html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 30) # 20 univs
main()
经过几番修改后,终于打印出了嵩老师教的模样,开心中,可是回头看了一眼,前期学习的内容好像又忘完了。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/0e1d4aeac11f46beaaeca2865726da0f.png)
|