本节的内容,采用Beautiful Soup来解析HTML页面。 data:image/s3,"s3://crabby-images/1e2be/1e2beb2b548ae3f74ff890f8faf10403a07d1dbe" alt="在这里插入图片描述"
Beautiful Soup可对网页页面进行树形解析,使用原理是 data:image/s3,"s3://crabby-images/c0203/c0203cac8d405c03490be3142b3d3750edec447e" alt="在这里插入图片描述" 比如
import requests
r=requests.get("https://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
Beautiful Soup 库是解析,遍历、维护“标签树”的功能库,每一对尖括号内都是一个标签。 data:image/s3,"s3://crabby-images/fc245/fc2456766bdebfaa0945678021db6e2c886fd9e9" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/77337/77337e6578fa7817711184e3503b3c2e84551599" alt="在这里插入图片描述" 尖括号内的属性是键值对的形式如class和title data:image/s3,"s3://crabby-images/da842/da842cd6d65564aecaaf765415ed37a5f04808e1" alt="在这里插入图片描述" 从bs4库里引用其中的类,包括BeautifulSoup,也可以直接引用bs4库 data:image/s3,"s3://crabby-images/1c3b0/1c3b0b27b1f750856d74719843ac3ac5014365fb" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/2f565/2f5651845514a12c35432e1e1de4ea19385d8a9f" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/d966b/d966bebf30d3da52709fde37b4bebe020ba74b4d" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/ecbf2/ecbf2971c667756de23c997864890c43e5766e41" alt="在这里插入图片描述"
import requests
r=requests.get("https://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
##print(soup.prettify())
##soup.title
##tag=soup.a
soup.p
print(tag)
soup.a.name
soup.a.parent.name
soup.a.parent.parent.name
###标签的属性
tag=soup.a
tag.attrs
###因为标签的属性是字典的形式,因此可以通过字典来获取
tag.attrs['href']
###标签属性类型
type(tag.attrs)
type(tag)
##查看标签内的字符串信息
soup.a.string
soup.p.string
type(soup.p.string)##bs4库的元素类型bs4.element.NavigableString
data:image/s3,"s3://crabby-images/957ba/957badb1ff5337096cc41d5bb3279edd5165e92d" alt="在这里插入图片描述"
BeautifulSoup库的使用总结 data:image/s3,"s3://crabby-images/ff573/ff573cac6bcfbefae89caeed3789096839b63f81" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/b891e/b891e61a5c20affe87ff9c5d4f495960ca9d43be" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/fda8e/fda8e4e899bc0a56e45391a9637375ffe3190583" alt="在这里插入图片描述" 标签树的下行遍历 data:image/s3,"s3://crabby-images/c70f7/c70f7b454d297c41fc1af39a73cbf9ad5fc8752c" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/97e71/97e7195644320271f1502b86dbe51e901fca13a4" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/88289/882894dbef66d1024ad3dd5a6bc73a48bc90f9cb" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/7d204/7d204f5a771d93b27bea24fbd02fbc1259c795b9" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/04580/04580482a1b6ed73a2d61ece067b86dcb3f43ffc" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/076c4/076c46474d13afa37119b05b83164594529fa7b1" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/712bb/712bb76f5330cc89f47c1faf96b21d6265f14faf" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/5e424/5e424a15272794462da8f2ee25a2c53c5a97eb00" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/27c0b/27c0bfac49dfeea5f8410284cc932fca9257719a" alt="在这里插入图片描述"
信息标记 data:image/s3,"s3://crabby-images/cf1fe/cf1feff7484b2d1143e7bfb4a79a9970d9537ea7" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/e3e34/e3e346b65e063cc7b82f734852067fc06d917d4a" alt="在这里插入图片描述"
信息标记的种类 包括三种 XML eXtensible Markup Language data:image/s3,"s3://crabby-images/67e4c/67e4c66116a5e2bf50cd6d51bd4dfaa80bae33d7" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/fa988/fa988dbdc1967d522ed0d44203d46b05ec7208b1" alt="在这里插入图片描述"
JSON JavsScript Object Natatio 有类型的键值对构成的表达方式 data:image/s3,"s3://crabby-images/b46a1/b46a1c758ce7e2184a72b42649bcf0a6743797c5" alt="在这里插入图片描述"
YAML YAML Ain’t Markup Language 为一种递归的定义 采用无类型的键值对类型(键值对中无双引号) data:image/s3,"s3://crabby-images/20326/2032654c1fc2f07eb1c0c69be3acd90ef9669be4" alt="在这里插入图片描述" 通过缩进来表示键值对的所属关系 data:image/s3,"s3://crabby-images/9c1cb/9c1cb4e1a06657b16f35fc578687dbd85ec355e4" alt="在这里插入图片描述" 用-(减号表示并列) data:image/s3,"s3://crabby-images/ac95f/ac95f7f255dc1e201d45dc4eead6e0c4d72420b4" alt="在这里插入图片描述"
YAML采用竖线表示整块数据#表示注释 data:image/s3,"s3://crabby-images/67f67/67f67a3563d5094c95cc62414f21cd48bc60aadc" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/0cb0b/0cb0b3d04ccab0c872b22dd42d77d8442cf8a18a" alt="在这里插入图片描述"
三种信息标记形式的比较
标记形式 | 特点 |
---|
XML | 采用尖括号进行标记 | JSON | 采用有类型的键值对进行信息标记 | YAML | 采用无类型键值对的表达形式 |
data:image/s3,"s3://crabby-images/8a53e/8a53e48512a607544e86219de7eee4137fc34594" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/2a38e/2a38eee4df132f9a516ef9b2264a85e1e983346d" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/5912c/5912c1b71e1f2bf08ea253582180b31b9ac0d047" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/a7079/a70798407f971e0aa85baa342a932d79556ddf10" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/0de04/0de04153ac6df59b8d98f392f81e5c6c5464fe4c" alt="在这里插入图片描述"
信息提取的一般方法: 从标记后的信息中,提取关注的信息
-
方法1.完整的解析信息的标记形式,再提取关键信息。 XML、JSON、YAML 需要标记解释器,如bs4库的标签遍历树 优点:信息解析准确 缺点:提取过程繁琐,速度慢。 -
方法2:无视标记形式,直接搜索关键信息。 对信息的文本查找函数即可。 优点:提取过程简洁,速度较快。 缺点:提取结果准确性与信息内容相关。 -
融合的方法(可采用BeautifulSoup进行实现) 结合形式解析与搜索方法,提取关键信息。 XML、JSON、YAML搜索 需要标记解析器文本查找函数。 实例 data:image/s3,"s3://crabby-images/2718a/2718a69b39a32910d1ad0916dc9f09fcc9e1e585" alt="在这里插入图片描述"
import requests
kv={"user-agent":"Mozilla/5.0"}
r=requests.get("https://python123.io/ws/demo.html",headers=kv)
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
soup.find_all('a')
soup.text
for link in soup.find_all('a'):
print(link.get('href'))
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
data:image/s3,"s3://crabby-images/c0890/c0890e7241fd7aa388ffaeac7216a714ebf9894a" alt="在这里插入图片描述" soup.find_all(True)表示显示所有的标签 data:image/s3,"s3://crabby-images/b117b/b117b2b06dd238d4fa6b3abdf5218364064fdd58" alt="在这里插入图片描述" 基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- attrs:对标签属性值的检索字符串,可标注属性检索。
data:image/s3,"s3://crabby-images/36ebc/36ebc0f068e6bb08ffda61af38270c13dcb3f3cc" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/19945/19945ec367ba464546e11b8fd7c6833f56246635" alt="在这里插入图片描述"
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- recursive:是否对子孙全部检索,默认True。
data:image/s3,"s3://crabby-images/52e9b/52e9bd8a28109ea1dca94ecd4a58adfe25f55a2b" alt="在这里插入图片描述"
基于BeautifulSoup库的HTML查找方法 <>find_all(name, attrs,recursive,string,**kwargs)
- string:<>…</>字符串区域的检索字符串。
data:image/s3,"s3://crabby-images/f4aee/f4aee017cb4062321964b318ff486b65588e761f" alt="在这里插入图片描述"
data:image/s3,"s3://crabby-images/ca276/ca2765fbb8297e3b0391157d9098d382262cdf71" alt="在这里插入图片描述" BeautifulSoup的7个find方法 data:image/s3,"s3://crabby-images/96c8d/96c8d7c478d0b4f2ed63e6d30ee72e6e94d038f7" alt="在这里插入图片描述" 实例学习,中国大学排名自动爬取 data:image/s3,"s3://crabby-images/83290/8329073def51a6cfeabea71141c06fbed7de2962" alt="在这里插入图片描述" 程序的结构设计
- 步骤1:从网络上获取大学排名我网页内容
- 步骤2:提取网页中信息到合适的数据结构
- 步骤3:利用数据结构展示并输出结果
data:image/s3,"s3://crabby-images/292ea/292ea61c24f75f36244d534658048a2ba7c8a02f" alt="在这里插入图片描述" 主要的解决方法:
- 步骤1:从网络上获取大学排名网页内容getHTMLText()
- 步骤2:提取网页内容中的信息到合适的数据结构fillUnivList()
- 步骤3:利用数据结构展示并输出结果printUnivList()
data:image/s3,"s3://crabby-images/c1867/c18672c78109096a89ee40c4dc2efe9d9a79f935" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/c7115/c711598664eaf928c298b7c74f222a0716ddb42b" alt="在这里插入图片描述"
#CrawUnivRankingB.py
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string,tds[1].div.a.string,tds[4].string])
def printUnivList(ulist, num):
tplt = "{0:{3}^10}\t{1:{3}^10}\t{2:{3}^10}"
print(tplt.format("排名","学校名称","总分",chr(12288)))
for i in range(num):
u=ulist[i]
print(tplt.format(u[0].strip(),u[1].strip(),u[2].strip(),chr(12288)))
def main():
uinfo = []
url = 'https://www.shanghairanking.cn/rankings/bcur/202111'
html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 30) # 20 univs
main()
经过几番修改后,终于打印出了嵩老师教的模样,开心中,可是回头看了一眼,前期学习的内容好像又忘完了。 data:image/s3,"s3://crabby-images/e2acf/e2acfb149aecc18474fececfefcce7a36249b2f9" alt="在这里插入图片描述"
|