[Python知识库] Python爬虫Xpath检索XML文件

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> Python爬虫Xpath检索XML文件 -> 正文阅读

[Python知识库]Python爬虫Xpath检索XML文件

首先下载lxml模块：

pip install lxml

导入lxml中的etree模块:

from lxml import etree

解析XML字符串或者HTML等文件:
解析XML字符串

xml = 
'''
  <body>
  <div>
    <ul>
      <li class="python">Python</li>
      <li class="pachong">爬虫</li>
    </ul>
  </div>
</body>
'''
tree = etree.XML(xml)
#将XML改成HTML就应该传入HTML的字符串

解析HTML文件

tree = etree.parse('baidu.html', parser = etree.HTMLParser())
#注意需要传入HTML解析器

利用xpath()方法获取数据
以上述XML字符串为例

基本用法:

res = tree.xpath('/body/div/ul/li/text()')
#以路径的形式层层检索标签,最后的text()将返回标签内容
#下文中,斜杠左边称为父标签,右边称为子标签
res1 = tree.xpath('/body/div')#从tree开始必须是根节点
res2 = res1.xpath('./ul/li')#容res1开始为div结点,类似于相对路径