python爬虫—DAY2-1-----数据解析（1）

文章目录

python爬虫---DAY2-1-----数据解析（1）

这里重点介绍用xpath进行数据解析
如有错误，麻烦指正，万分感谢

数据解析原理概述：

解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储。所以数据解析大致分为两步。

进行指定标签的定位
标签或标签对应的属性中存储的数据值进行提取（解析）

xpath解析

xpath解析是最常用且最便捷高效的一种解析方式，通用性强。

环境安装

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple/

xpath解析原理

实例化etree对象，并且需要将被解析的页面源码数据加载到该对象中

tree=etree.HTML(page_text)
#将爬取到的数据加载通过etree.HTML加载到tree中

通过调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获

xpath表达式

/ :表示的是从根节点开始定位，一个/表示的是一个层级
//: 表示的是多个层级，可以表示从任意位置开始定位
属性定位：标签[@属性名称=“属性值”]；例如 //meta[@charset=“UTF-8”]
索引定位：//div[@class=“song”]/p[3]] 索引是从1开始
取文本操作：（1）/text() 获取当前标签中的直系文本内容
（2）//text() 获取的标签中非直系的所有文本内容
取属性操作：/@属性名

补充：一种更简单的方式是从开发者工具中找到需要定位的元素，右键复制其xpath表达式
在这里插入图片描述

如何实例化一个etree对象

from lxml import etree
1.将本地的html文档中的源码数据加载到etree对象中
~~etree.parse(filePath)~~
由于html书写不规范，从本地中导入需采用以下方法
parser = etree.HTMLParser(encoding=‘utf-8’)
tree = etree.parse(‘test.html’,parser=parser)
2、可以将从互联网上获取的源码数据加载到该对象中：
etree.HTML(‘page_text’)
3、xpath(‘xpath表达式’)

案例：解析所有城市名称

需求：从https://www.aqistudy.cn/historydata/中解析出所有城市名称

分析：

在这里插入图片描述
每个城市名字都存在于ul标签中的li下，所有要先定位到ul，拿到每个li元素，解析数据解析

代码

import requests
from lxml import etree

url="https://www.aqistudy.cn/historydata/"
headers={
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67'
}

# 1.爬取到网页数据
page_text=requests.get(url=url,headers=headers).text

# 2.加载数据
tree=etree.HTML(page_text)

#3. 定位到ul，拿到所有ul,因为有很多ul，每个ul下有li标签存储城市名，可以通过复制xpath定位
ul_list=tree.xpath("/html/body/div[3]/div/div[1]/div[2]/div[2]/ul")

#4. 解析每一个li标签，拿到下面的城市名
names=[]
for ul in ul_list:
    li_list=ul.xpath("./div[2]/li")
    for li in li_list:
        # ./表示从当前开始定位，因为现在根为li标签，
        # 解析出的数据以列表形式返回，一般取第一个
        name=li.xpath("./a/text()")[0]
        names.append(name)

#5. 打印所有城市
print(names)