IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 校内实训项目经验 -> 正文阅读

[人工智能]校内实训项目经验

三个项目都是在校内实训时进行的,担任核心开发人员。

《基于?标检测的交通标志识别》(采?yolov4模型)

是实现五十五种类别的交通标志识别小程序,并进行语言提示,帮助驾驶人员更安全的驾驶。
1.数据集制作,

基于CCTSDB数据集,原来是三分类的包括:指示、禁止、警告。
基于三分类模型的97%的正确率转为尝试多分类识别。
我学习labelImg,制作所需的VOC格式数据集,修改xml文件形成五十五类别,再生成所需的类别标签以及文件路径,对于xml文件里面找到标签生成标注的交通标志的位置的文件(四个角的位置坐标)。
在后期解决类别不均衡的问题,我们更换了损失函数(二值交叉熵、均方误差等)并采用类别均衡方法,对TT100K数据集做了尝试,对于同类进行类别合并,提高精度。
加权交叉熵:对于样本数目较多的类别,除以一个数字n,按大小排序与之前的序列一样,仍然很大。然后取倒数,作为损失权重系数。所以样本数目多的类别,乘的权重系数小,对损失函数的贡献就小,削弱作用;此时样本数量小的权重系数就大,加强了对损失函数贡献。(中间的那些类别,权重系数就接近1,不受影响。在这里插入图片描述
二分类采用了sigmoid激活函数:多分类采用softmax来输出每一类概率值,在送入交叉熵损失函数。在这里插入图片描述
通过ex 的函数曲线,可以看出将大于0的值扩大(x到y的映射)
多分类概率问题:softmax+交叉熵代价函数
作用:输出二分类或多分类任务中某一类的概率。

2.语音包制作

根据当时的类别标签制作语音包,通过pyttsx3库+百度API+pygame库制作成功。
pyttsx3库的语音比较生硬,然后尝试换百度api,直接调用生成。
先尝试playground库,编码异常,无法解决,更换了pygame库成功。在这里插入图片描述

3.训练模型

基于yolo模型,学习了其中darknet53网络。采用了预训练权重,每次训练采用前几轮训练好的模型参数进行训练,降低了loss值。
总共有 53 个卷积层,输入 image size 为 256(没有 fc 层,显然可以随意修改输入 size),最后得到的 feature map size 为 8x8,stride(步幅) 为 32(值得注意的是 5 次下采样,都不是通过 pooling 做的,而是通过 stride 为 2 的卷积层实现的,上图中蓝色框标出的位置,darknet-19 中是通过 max pooling)。
在这里插入图片描述
在检测任务中,将图中C0后面的平均池化、全连接层和Softmax去掉,保留从输入到C0部分的网络结构,作为检测模型的基础网络结构,也称为骨干网络。

4.图片识别转视频识别

基于opencv模块,增加对于视频进行交通标志识别的功能,对于录制的视频按帧截取识别,确定出候选框,筛选保留置信度最高的框,采用ffmpeg库在拼接成一个视频。
非极大值抑制
1)、假设有ABCDEF这么多个得分框(已经按照得分从小到大排序)。从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;

2)、假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。

3)、从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。

4)、一直重复这个过程,找到所有曾经被保留下来的矩形框。

5.实时识别并调用语音包功能

调取摄像头,每3秒抓取一张图片,传入我们训练好的模型,返回候选框的坐标,在视频流上进行标注,同时返回类别,调用我们生成好的语音包提示。
在这里插入图片描述

cap = cv2.VideoCapture(0)
cap.release()  

0代表打开电脑内置摄像头,1代表打开usb插口摄像头。
当使用完之后,还需要一个关闭摄像头的函数。

ret, frame = cap.read()

read() 函数返回的ret是一个bool量,成功读取是true,否则返回false
frame返回的是读取到的图片,以数组的形式贮存
展示图片

cv2.imshow("capture", frame)
cv2.destroyAllWindows()

imshow() :是一个将数组形式的数据转化为图片并展示的函数。它会建立一个窗口,用于展示图片。
destroyAllWindows() :同样的,使用完成之后我们还需要一个关闭窗口的函数

想每隔10秒截取一帧,那么就相当于你要每隔( FPS * 10 )帧截取一帧图像!
因此,首先你需要知道你的视频的帧率(FPS)是多少:通过 openCV 获取一下即可:

cap = cv2.VideoCapture("./query_video/test_video_0.mp4")
FPS = cap.get(5)  # 这个是获取视频帧率 参数为0-18

比如cap.get(0)是获取当前位置以毫秒为单位。
最后将两段代码结合起来就可以根据时间间隔来截取视频帧了:

import cv2
cap = cv2.VideoCapture("./query_video/test_video_0.mp4") #读一个视频
c = 1
timeRate = 10  # 截取视频帧的时间间隔(这里是每隔10秒截取一帧)
 
while(True):
	ret, frame = cap.read()
	FPS = cap.get(5)
	if ret:
		frameRate = int(FPS) * timeRate  # 因为cap.get(5)获取的帧数不是整数,所以需要取整一下(向下取整用int,四舍五入用round,向上取整需要用math模块的ceil()方法)
		if(c % frameRate == 0):
			print("开始截取视频第:" + str(c) + " 帧")
			# 这里就可以做一些操作了:显示截取的帧图片、保存截取帧到本地
			cv2.imwrite("./capture_image/" + str(c) + '.jpg', frame)  # 这里是将截取的图像保存在本地
		c += 1
		cv2.waitKey(0)
	else:
		print("所有帧都已经保存完成")
		break
cap.release()

《AI图?篡改检测》(基于faster-rcnn模型)

该项目是基于智能图片篡改检测及还原技术的网站,包括图片篡改检测(支持jpg、png各种格式,不限制尺寸)、图片去除水印、视频篡改检测三个功能。
1.重构voc2007、voc2012数据集

将二分类细分成三分类,篡改分为copymove、splicing类别
生成所需的复制数据集,学习了canny边缘提取算法中的非极大值抑制和双阈值法筛选,对数据集进行处理。

2.更换网络,服务器运行

熟练的在服务器上搭建环境执行代码,同时基于faster-rcnn模型更换里面的vgg16网络换成reset50网络模型,模型速度由9s/iter提升到0.5s/iter

3.flask框架了解

学习flask,实现网页上传图片功能,搭建人机交互界面。

4.语义分割

学习了语义分割,但是数据集文字类别训练较少,不能较好的框出文字修改区域。
图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割,例如让计算机在输入下面左图的情况下,能够输出右图。

深度学习–Pytorch构建栈式自编码器实现以图搜图任务(以cifar10数据集为例)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-17 22:08:21  更:2022-03-17 22:11:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 1:37:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码