Pytorch导入数据主要依靠torch.utils.data.DataLoader和torch.utils.data.Dataset这两个类来完成。 Dataset获取数据及其标签以及数据数量。 Dataloader:为后面的网络提供不同的数据形式。 加载自己数据过程 1.先重写Dataset。要有三个函数。分别是_ init 、 getitem 、 _ len_ _。 先定义一个类,再重写函数
from torch.utils.data import Dataset
import os
class MyData(Dataset):
def __init__(self,root):
imgs=os.listdir(root)
self.imgs=[os.path.join(root,k) for k in imgs]
def __len__(self):
return len(self.imgs)
def __getitem__(self, index):
img_path = self.imgs[index]
pil_img = Image.open(img_path)
pil_img = np.asarray(pil_img)
data = torch.from_numpy(pil_img)
return data
if __name__ == '__main__':
trian_dataset=MyData('test')
print(dataSet[0])
2.使用DataLoader迭代数据主要实现以下功能:
- 批处理数据(Batching the data)
- 打乱数据(Shuffling the data)
- 使用多线程 multiprocessing 并行加载数据,默认单线程
train_loader = dataloader.DataLoader(
dataset=train_dataset,
batch_size=128,
shuffle=False,
)
|