一 .图像分类数据集 基于Pytorch的工具集都非常好用,比如处理自然语言的torchtext,处理音频的torchaudio,以及处理图像视频的torchvision。 torchvision包含一些常用的数据集、模型、转换函数等等。当前版本0.5.0包括图片分类、语义切分、目标识别、实例分割、关键点检测、视频分类等工具,它将mask-rcnn功能也都包含在内了。mask-rcnn的Pytorch版本最高支持torchvision 0.2.*,0.3.0之后mask-rcnn就包含到tensorvision之中了。
在 torchvision 这个包中还有 个更高级的有关于计算机视觉的数据读取类: ImageFolder ,主要功能是处理图片,且要求图片是下面这种存放形式: root/ dog/ xxx.png 2 root/dog xxy.p 3 root/dog/ xxz.png 关于torch.utils.data.DataLoader,参考借鉴另一位博主的部分内容 如果全部采用默认设置输入数据,数据就是一行一行按顺序输入到神经网络。如果对数据的输入有特殊要求。 比如:想打乱一下数据的排序,可以设置 shuffle(洗牌)为True; 比如:想数据是一捆的输入,可以设置 batch_size 的数目; 比如:想随机抽取的模式输入,可以设置 sampler 或 batch_sampler。如何定义抽样规则,可以看sampler.py脚本。这里不是重点; 比如:像多线程输入,可以设置 num_workers 的数目;
原文链接:参考这位博主的优秀文章「rogerfang」 二.名词记录 仿射变换:affine transformation 激活函数:activation function RELU(rectified linear unit) sigmoid tanh函数双曲正切函数 利用函数值域的特定区间,控制信息的流动。 三.多层感知机 至少含有一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机层数和各隐藏层中的隐藏单元个数都是超参数。
|