前言
前言
????????问题出现:最开始我是打算用scipy来导入mat文件,结果遇到了版本问题,情况见图,然后就开始了用h5py库导入mat,里面可花了些时间。
一、需要导入的数据
? ? ? ? 需要导入的数据是一个多次嵌套的数据:以下展示均为每一层首个数据。
第一层:
?第二层:
?第三层:
第四层有效数据:
? ? ? ? ?一个mat数据1.5G,有这么多层好像还是比较合理哈,但是给我读取就带来了很大的难度!
??
二、数据读取
? ? ? ? ?直接贴出一层一层读取的代码
import scipy.io as sio
import numpy as np
import h5py
#!cd aistudio/home/data/data105826
matdata = h5py.File('/home/aistudio/data/data105826/cuhk-03.mat')
print('1 ',matdata.keys())
print('2 ',matdata['detected'])
print('3 ',matdata['detected'][0])
print('4 ',matdata['detected'][0][0])
print('5 ',matdata[matdata['detected'][0][0]])
print('6 ',matdata[matdata['detected'][0][0]][0][0])
print('7 ',matdata[matdata[matdata['detected'][0][0]][0][0]])
print('8 ',matdata[matdata[matdata['detected'][0][0]][0][0]].shape)
?????????输出显示
????????对输出做个解释:
- mat文件夹下的group,类似于文件夹的存在,分别是'detected', 'labeled', 'testsets'(对应第一层数据)。
- 索引到“文件夹”? ?'detected',显示shape为1*5。
- 索引“文件夹”? ?'detected'第一维元素,是5个<HDF5 object reference>(对应第二层数据),<HDF5 object reference>类似于文件夹下的文件夹名,没有办法再索引,如果再继续索引下去,就会报错。
- 找到“文件夹”? ?'detected'下第一个文件夹名<HDF5 object reference>(matdata['detected'][0][0])(返回值只有一个类型,这里用hh表示)。
- 打开mat文件夹中的hh文件夹,发现是一个shape(10,843)的数据(对应第三层),说明hh下面还有(10,843)个文件夹。
- 以此类推,按照第4步步骤,找到文件夹名<HDF5 object reference>(matdata[matdata['detected'][0][0]][0][0],这里用pp表示),在mat文件夹中打开pp文件(matdata[matdata[matdata['detected'][0][0]][0][0]]),print一查看,输出的type终于是“u1”(无符号1个字节数据)了,说明我们打开了好多个文件夹总算找到了文件。
- 最后索引文件中第一个数据,得到(3,107,318)的一张照片数据。
注意:从几个输出数据可以看出,type=‘|O’表示为文件夹,type=‘|u1’表示为有效数据。
总结
? ? ? ? 以上详细解释了h5py库在导入mat数据遇到多嵌套时的处理,有用的话三连一下!!!
|