对于二维表格,我们要进行预测,首先就是数据预处理,如何把处理好的数据变换成 Pytorch 所使用的数据集是首要步骤。
1.构建自定义数据集
torch.utils.data包括了Dataset和DataLoader两个类。torch.utils.data.**Dataset是一个抽象类,不能够直接调用。如果你想自定义数据集的话,就需要继承该类,并实现__len__和__getitem__方法。**前者提供数据的大小,后者通过给定索引获取数据与标签。因为__getitem__一次只能获取一个数据而我们采用的是MiniBatch的方式训练的,所以需要我们通过torch.utils.data.DataLoader来定义一个新的迭代器,实现batch读取。
首先自定义的数据集要继承 torch.utils.data 类,重写两个方法:
- getitem(self, index) : 根据索引即可返回 训练集 和 测试集数据。
- _len(self) : 返回 数据集的长度。
import torch
from torch.utils.data import Dataset, DataLoader
class ExampleDataset(Dataset):
def __init__(self, path):
df = pd.read_csv(path)
self.data = torch.tensor(df.iloc[:, 1: -1].to_numpy())
self.label = torch.tensor(df.iloc[:, -1].to_numpy(dtype=np.float32))
def __getitem__(self,index):
return self.data[index], self.label[index]
def __len__(self):
return len(self.data)
pass
类中传入一个路径,该路径是自己的 二维表格:
data = ExampleDataset(r'data\distance.csv')
print(len(data))
print(data[0])
2.加载自定义数据集
使用 torch.utils.data.DataLoader 定义新的迭代器,进而实现遍历读取:
注意:batch_size 设置为2,则每次迭代输出 2 条样本数据。
example_loader = DataLoader(
dataset=data,
batch_size=2,
shuffle = False,
num_workers = 0,
drop_last=True
)
print(example_loader)
输出:
<torch.utils.data.dataloader.DataLoader object at 0x0000021AB6162370>
迭代读取:
for i,(X, y) in enumerate(example_loader):
print("i:",i)
Data, Label = X, y
print("data:",Data)
print("Label:",Label)
break
输出:
i: 0
data: tensor([[1016.9312, 4782.8571, 4552.9630, 6298.9947, 50.0000, 50.0000,
88.0000],
[1338.4247, 4920.1370, 4109.1781, 5943.5616, 50.0000, 100.0000,
88.0000]], dtype=torch.float64)
Label: tensor([1., 1.])
参考文章:
Datasets & DataLoaders — PyTorch Tutorials 1.11.0+cu102 文档
参考博客
|