必要了解的一些xml知识点:
- 每个XML文档必须有且只有一个根元素
- 根元素是一个完全包括文档中其他所有元素的元素
- 根元素的起始标记要放在所有其他元素的起始标记之前
- 根元素的结束标记要放在所有其他元素的结束标记之后
- XML元素指的是XML文件中出现的标签,一个标签分为开始标签和结束标签
(和html很想,一个组件一个组件套着的)
接下来开始实现xml的批量读取: 笔者处理的xml文件如下所示: 需要做的是获取每一张图片的<object>数量使用xml.dom.minidom包
import xml.dom.minidom
import os
count = [0 for i in range(4000)
#存放xml文件的地址
xml_file_path = r"D:/python_files/classroom/Annotations/"
lst_dir = os.listdir(xml_file_path)
]
for file_name in lst_dir:
#读入所有的xml文件
file_path = xml_file_path + file_name
tree = xml.dom.minidom.parse(file_path)
#获取根节点
root = tree.documentElement
#接下来就可以对指定的文本元素进行操作
size_node = root.getElementsByTagName("object")
for o in size_node:
count[i] = count[i] + 1
#有一个就数量加1
|