Dataset and DataLoader学习
test_list = [([1,11],'一','yi'),([2,22],'二','er'),([3,33],'三','san'),([4,44],'四','si')]
import torch
from torch.utils.data import Dataset,DataLoader
这里只是一个理想化数据,用于演示Dataset,DataLoader的功能,你可以想象每个元组中是一条完整数据,分别是数据,标签,和掩码。
如果我们直接使用DataLoader,会出现如下的问题:
test_loader = DataLoader(test_list,batch_size = 2)
for i in test_loader:
print(i)
[[tensor([1, 2]), tensor([11, 22])], ('一', '二'), ('yi', 'er')]
[[tensor([3, 4]), tensor([33, 44])], ('三', '四'), ('san', 'si')]
数据部分[1,11],[2,22]被拆开了。如果希望得到如下的结果,我们需要将数据部分设置为tensor.
我们需要写一个包装类,它必须继承Dataset,必须完成__getitem__和__len__两个方法 ,我们会在这个类里面,完成列表向张量的转换。完整代码如下:
class Data_set(Dataset):
def __init__(self,datalist):
self.x = datalist
def __getitem__(self, item):
return torch.tensor(self.x[item][0]),self.x[item][1],self.x[item][2]
def __len__(self):
return len(self.x)
testset = Data_set(test_list)
test_loader = DataLoader(testset,batch_size = 2,shuffle=True)
for i in test_loader:
print(i)
[tensor([[ 4, 44],
[ 2, 22]]), ('四', '二'), ('si', 'er')]
[tensor([[ 1, 11],
[ 3, 33]]), ('一', '三'), ('yi', 'san')]
总之Dataset就是对数据进行设置而Dataloader是对数据进行加载。
|