pip install lxml
from lxml import etree
- 解析
XML 字符串或者HTML 等文件: 解析XML 字符串
xml =
'''
<body>
<div>
<ul>
<li class="python">Python</li>
<li class="pachong">爬虫</li>
</ul>
</div>
</body>
'''
tree = etree.XML(xml)
解析HTML 文件
tree = etree.parse('baidu.html', parser = etree.HTMLParser())
- 利用
xpath() 方法获取数据 以上述XML 字符串为例
- 基本用法:
res = tree.xpath('/body/div/ul/li/text()')
res1 = tree.xpath('/body/div')
res2 = res1.xpath('./ul/li')
// 表示将检索左标签的所有子代标签的右标签/*/ 表示该层可以为任意标签/li[1]/ 表示只取第一个该标签,注意,1代表第一个,和我们平时索引有所不同/li/@id 将返回li 的id 属性值/li[@class='python'] 将根据标签属性进行筛选
|