tensorflow数据读入的基础步骤
说实话,每次在跑模型的时候数据集输入网络的形式都让我很头疼,虽然自己会写,但总觉得代码不够简洁漂亮,也经常疑心数据传输的速度问题。所以每次都是去copy别人的数据处理的代码,自己则看的懵懵懂懂的,故在这里记录一下常用的数据输入网络的方式。
1. 输入与标签建立联系–zip 数据集处理的第一步就是建立输入数据与标签间的一一对应关系,下面使用zip()作为示例。 输入:可迭代的对象(列表) 输出:将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。 实例
>>>a = [1,2,3]
>>>b = [4,5,6]
>>>c = [4,5,6,7,8]
>>>zipped = zip(a,b)
[(1, 4), (2, 5), (3, 6)]
>>> zip(a,c)
[(1, 4), (2, 5), (3, 6)]
>>> zip(*zipped)
[(1, 2, 3), (4, 5, 6)]
以图像超分辨率模型为例子,输入为低分辨率影像lr_image,那标签就是真实的高分辨率影像hr_image。
第一步,需要读取lr_image和hr_image的存放地址
def get_sorted_image_path(path, ext):
ext_regex = "*" + ext
data_root = pathlib.Path(path)
image_paths = list(data_root.rglob(ext_regex))
image_paths = sorted([str(path) for path in image_paths])
return image_paths
第二步,用zip()生成lr和hr的绑定列表
lr_path = get_sorted_image_path(lr_image_path , ext=".png")
hr_path = get_sorted_image_path(hr_image_path , ext=".png")
lr_hr_sorted_paths = list(zip(lr_sorted_paths[:], hr_sorted_paths[:]))
random.shuffle(lr_hr_sorted_paths)
2. 使用tensorflow构建Dataset对象
第一步:生成数据迭代器 tf.data.Dataset.from_tensor_slices的作用和zip()相似,也是将两个或者多个对象的相应位置的元素进行捆绑。但区别在于tf.data.Dataset.from_tensor_slices的输入是元组形式,输出是TensorSliceDataset类型。
ds = tf.data.Dataset.from_tensor_slices((lr_path , hr_path))
def load_and_preprocess_lr_hr_images(lr_path, hr_path, ext=ext):
return load_and_preprocess_image(lr_path, ext), load_and_preprocess_image(hr_path, ext)
lr_hr_ds = ds.map(load_and_preprocess_lr_hr_images, num_parallel_calls=4)
在理解ds.map之前,我们先来看看python中的map()函数的语法: map(function, iterable, …),即根据提供的函数对指定序列做映射。 第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。
>>> def square(x):
... return x ** 2
...
>>> map(square, [1,2,3,4,5])
<map object at 0x100d3d550>
>>> list(map(square, [1,2,3,4,5]))
[1, 4, 9, 16, 25]
>>> list(map(lambda x: x ** 2, [1, 2, 3, 4, 5]))
[1, 4, 9, 16, 25]
那么可以发现ds.map()和map()的区别就在于ds.map()中并没有传入数据,而是只传入了先前定义的函数load_and_preprocess_lr_hr_images(可看作对应为map()中的square)。这是因为ds已经是一个TensorSliceDataset了,其自身就包含了数据,因此不需要再额外传入。 tips: 可以看到在ds.map中有一个num_parallel_calls的参数设置,因为我们的电脑一般都是多核的,通过设置调用的核数来加快数据处理的速度,在上文代码中num_parallel_calls=4,即使用4核CPU。
第二步:对得到的Datasset对象进行预处理 在数据读取完成之后,我们还需要对数据进行打乱和分割batch分割。
lr_hr_ds = lr_hr_ds .shuffle(buffer_size=image_count)
lr_hr_ds = lr_hr_ds .repeat()
lr_hr_ds = lr_hr_ds .batch(BATCH_SIZE)
lr_hr_ds = lr_hr_ds .prefetch(buffer_size=AUTOTUNE)
总的来说,使用tf进行数据读取主要按照以下步骤来:
- from_tensor_slices()生成Dataset对象
- map()处理数据
- shuffle()打乱数据
- repeat() 将数据集复制epoch_num次
- batch()获取当此输入网络的数据量
- perfetch()指定缓冲,提高CPU核GPU并行率
第一次写博客,如果有不对的地方,希望各位读者指正。
|