华为云ModelArts使用
1. 简介
ModelArts 是面向开发者的一站式 AI 平台,为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。
网址: https://www.huaweicloud.com/product/modelarts.html
下面教程将教你使用使用ModelArts完成一个数据处理的demo
2.数据处理
数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本
数据处理的步骤主要是以下几步:收集,效验,转换,清洗,筛选,增强,挖掘
数据收集
数据收集是指根据系统自身的需求和用户的需要收集相关的数据。
例如我们想要实现基于图像的狗种类的识别,那么我们必要去找狗的图片,对于数据的收集,往往需要做大量的工作其一般过程为:明确调查的目的,确定调查对象。选择合适的的调查方式。展开调查活动,收集数据。
数据效验
采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。
ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范
数据转换
数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用。例如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理。
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据进行去噪,纠错或补全的过程。一般分为离散化(针对连续的场景特征取值),无量纲化(保持特征之间的公平性,提高模型精准度) ,缺失值补全 ,分布变换(对数变换,指数变换等) ,变量解码(文字,字母,频率等)
数据筛选
数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。主要是特征提取,聚类排序,选择最优子集
数据增强
数据集增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的网络,更好的适应应用场景。数据增强可以分为,离线数据增强和在线数据增强,数据增强的常见方法
- 旋转 | 反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向;
- 翻转变换(flip): 沿着水平或者垂直方向翻转图像;
- 缩放变换(zoom): 按照一定的比例放大或者缩小图像;
- 平移变换(shift): 在图像平面上对图像以一定方式进行平移;
- 可以采用随机或人为定义的方式指定平移范围和平移步长, 沿水平或竖直方向进行平移. 改变图像内容的位置;
- 尺度变换(scale): 对图像按照指定的尺度因子, 进行放大或缩小; 或者参照SIFT特征提取思想, 利用指定的尺度因子对图像滤波构造尺度空间. 改变图像内容的大小或模糊程度;
- 对比度变换(contrast): 在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调H不变. 对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间), 增加光照变化;
- 噪声扰动(noise): 对图像的每个像素RGB进行随机扰动, 常用的噪声模式是椒盐噪声和高斯噪声;
- 颜色变化:在图像通道上添加随机扰动。
- 输入图像随机选择一块区域涂黑,参考《Random Erasing Data Augmentation》。
动手
ModelArts为我们提供了很好的数据处理服务,在ModelArts的控制台中找到
3.数据标注
数据标注是通过数据加工人员借助类似于BasicFinder这样的标记工具,对人工智能学习数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。现今大多数人工智能算法依旧是依赖监督学习,所以数据标注非常重要
如上百万张图像大量的图像数据标注,不仅费时而且消耗大量的人力成本及资源,为了减少标注消耗的时间同时降低标注成本,ModelArts在标注中加入了机器学习技术并为标注者提供了智能数据标注服务
动手实现
首先要创建数据集,在obs中新建桶
进入刚才创建的桶里
新建两个就夹input output
进入input 文件夹准备上传图片
这里选择了猪、狗、鸡、猫、蛇的图片进行上传制作数据集
上传完毕后进入ModelArts控制台里创建数据集
选择我们刚才新建的文件夹
创建完成后
所以我们要进行手动标记一部分
点击数据集开始进行数据标注
数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
我们用刚才的数据集进行特征分析,特征分析主要是更快速方便的了解数据集的特点,并制定后续的优化和处理方案,ModelArts特征分析模块主要支持特征,分辨率,图像亮度,图像饱和度,清晰度,图像色彩丰富等常规图像特征,面积标准度,堆叠度等
4.自动学习之图像分类
Model还提供了自动学习,我们测试下图像分类
创建图像分类
上面我们已经建立好了数据集所以我们直接选择已有数据集,确认后下面基本上都是傻瓜式操作,就不举例了
|