IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Pytorch构建二维表格自定义数据集 -> 正文阅读

[人工智能]Pytorch构建二维表格自定义数据集

对于二维表格,我们要进行预测,首先就是数据预处理,如何把处理好的数据变换成 Pytorch 所使用的数据集是首要步骤。

1.构建自定义数据集

torch.utils.data包括了Dataset和DataLoader两个类。torch.utils.data.**Dataset是一个抽象类,不能够直接调用。如果你想自定义数据集的话,就需要继承该类,并实现__len__和__getitem__方法。**前者提供数据的大小,后者通过给定索引获取数据与标签。因为__getitem__一次只能获取一个数据而我们采用的是MiniBatch的方式训练的,所以需要我们通过torch.utils.data.DataLoader来定义一个新的迭代器,实现batch读取。

首先自定义的数据集要继承 torch.utils.data 类,重写两个方法:

  • getitem(self, index) : 根据索引即可返回 训练集 和 测试集数据。
  • _len(self) : 返回 数据集的长度。
# 自定义数据集
import torch
from torch.utils.data import Dataset, DataLoader

class ExampleDataset(Dataset):
    def __init__(self, path):
        # 一个由二维向量组成的数据集
        df = pd.read_csv(path)
        self.data = torch.tensor(df.iloc[:, 1: -1].to_numpy())  
        self.label = torch.tensor(df.iloc[:, -1].to_numpy(dtype=np.float32))
    
    def __getitem__(self,index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)
    pass

类中传入一个路径,该路径是自己的 二维表格:

data = ExampleDataset(r'data\distance.csv')
print(len(data))
print(data[0])

2.加载自定义数据集

使用 torch.utils.data.DataLoader 定义新的迭代器,进而实现遍历读取:

注意:batch_size 设置为2,则每次迭代输出 2 条样本数据。

example_loader = DataLoader(
    dataset=data,
    batch_size=2,    # 批次大小
    shuffle = False,  # False : 数据不被随机打乱
    num_workers = 0,  # 数据载入器使用的进程数目,默认为0
    drop_last=True    # 是否要把最后的批次丢弃
)

print(example_loader)

输出:

<torch.utils.data.dataloader.DataLoader object at 0x0000021AB6162370>

迭代读取:

for i,(X, y) in enumerate(example_loader):
    print("i:",i)
    Data, Label = X, y
    print("data:",Data)
    print("Label:",Label)
    break

输出:

i: 0
data: tensor([[1016.9312, 4782.8571, 4552.9630, 6298.9947,   50.0000,   50.0000,
           88.0000],
        [1338.4247, 4920.1370, 4109.1781, 5943.5616,   50.0000,  100.0000,
           88.0000]], dtype=torch.float64)
Label: tensor([1., 1.])

参考文章:

Datasets & DataLoaders — PyTorch Tutorials 1.11.0+cu102 文档

参考博客

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-06 11:03:14  更:2022-05-06 11:03:45 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/4 15:49:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码