第一课笔记
前言
今天是第二课,主要是了解数据集的获取途径以及数据处理的技巧
一、数据集获取途径
数据集可以从AIStudio,kaggle及天池等平台获取,当然,也可以自己做
图像处理流程
- 图片数据获取
- 图片数据清洗
- 图片数据标注
- 图片数据预处理
- 图片数据准备
- 图片数据增强
图像处理应该是出于项目的最终目的,检查数据是否在预定范围内,是否符合预期,如有不好的则剔除,使得数据可以更好使用,可以更好地提取特征,减少在后期可能出现的问题
二、欠拟合和过拟合
欠拟合
欠拟合很好理解,就是模型没有找到数据集的一般规律,或者说不能很好地总结数据集的特征,使得到的模型精确度不高
过拟合
过拟合,网上的解释是说能在训练数据上有很好的表现,但在测试数据上却表现一般。 对此,我的理解是,应该是在训练中,模型总结出来的一般规律偏离的人们的预期。例如,在口罩识别中,如果我输入的图片都是带着口罩的人,这些人都有一头长发,那过拟合的结果可能是模型只记住了长发,而没有记住口罩,这样,在测试的时候就可能出现光头戴口罩却识别不出来。
作业完成过程
之前没学过人工智能,一切都得从零开始 作业是要求上传图片以及对应的标注文件
首先,下载labelImg,点击课件中的超链接https://github.com/tzutalin/labelImg,下载文件,翻到下面,发现有安装方法
下载Anaconda并安装 建立一个新的文件夹,点击安装文件,根据自己的实际情况勾选选项,将anaconda安装到新建的文件夹 然后要添加环境变量 右键 “此电脑”,找到“高级系统设置” 然后点击用户变量中的 “Path”,添加以下环境变量:
- D:\anaconda
- D:\Python\Scripts
- D:\anaconda\Library\bin
完成后保存关闭窗口
接着点击电脑左下角的可以发现 点击上图中的第三个,也就是Prompt 还记得上面提到GitHub上的安装方法吗? 依次输入以下 conda install pyqt=5 conda install -c anaconda lxml pyrcc5 -o libs/resources.py resources.qrc python labelImg.py
完成后就可以进行标注 新建Annotations和JPEGImages 我在TB上找了20张键盘的图片,并把图片放到JPEGImages文件夹 点击labelImg左侧的 Open Dir ,选择到JPEGImages文件夹,再点Change Save Dir,选择到Annotations 按W可以开始标注,框选所需部分后会出现一个窗口,这里输入对应的名字,我用的图片是键盘,则输入keyboard,名字应该是可以随便起的。 标注好一张图片后点击左侧保存,再点Next Image下一张图片
|