[人工智能] 校内实训项目经验

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 校内实训项目经验 -> 正文阅读

[人工智能]校内实训项目经验

校内实训项目经验

三个项目都是在校内实训时进行的，担任核心开发人员。

《基于?标检测的交通标志识别》（采?yolov4模型）

是实现五十五种类别的交通标志识别小程序，并进行语言提示，帮助驾驶人员更安全的驾驶。

1.数据集制作，

基于CCTSDB数据集，原来是三分类的包括：指示、禁止、警告。
基于三分类模型的97%的正确率转为尝试多分类识别。
我学习labelImg，制作所需的VOC格式数据集，修改xml文件形成五十五类别，再生成所需的类别标签以及文件路径，对于xml文件里面找到标签生成标注的交通标志的位置的文件(四个角的位置坐标)。
在后期解决类别不均衡的问题，我们更换了损失函数（二值交叉熵、均方误差等）并采用类别均衡方法，对TT100K数据集做了尝试，对于同类进行类别合并，提高精度。
加权交叉熵：对于样本数目较多的类别，除以一个数字n，按大小排序与之前的序列一样，仍然很大。然后取倒数，作为损失权重系数。所以样本数目多的类别，乘的权重系数小，对损失函数的贡献就小，削弱作用；此时样本数量小的权重系数就大，加强了对损失函数贡献。（中间的那些类别，权重系数就接近1，不受影响。在这里插入图片描述
二分类采用了sigmoid激活函数：多分类采用softmax来输出每一类概率值，在送入交叉熵损失函数。
通过ex 的函数曲线，可以看出将大于0的值扩大（x到y的映射）
多分类概率问题：softmax+交叉熵代价函数
作用：输出二分类或多分类任务中某一类的概率。

2.语音包制作

根据当时的类别标签制作语音包，通过pyttsx3库+百度API+pygame库制作成功。
pyttsx3库的语音比较生硬，然后尝试换百度api，直接调用生成。
先尝试playground库，编码异常，无法解决，更换了pygame库成功。在这里插入图片描述

3.训练模型

基于yolo模型，学习了其中darknet53网络。采用了预训练权重，每次训练采用前几轮训练好的模型参数进行训练，降低了loss值。
总共有 53 个卷积层，输入 image size 为 256（没有 fc 层，显然可以随意修改输入 size），最后得到的 feature map size 为 8x8，stride（步幅）为 32（值得注意的是 5 次下采样，都不是通过 pooling 做的，而是通过 stride 为 2 的卷积层实现的，上图中蓝色框标出的位置，darknet-19 中是通过 max pooling）。
在这里插入图片描述
在检测任务中，将图中C0后面的平均池化、全连接层和Softmax去掉，保留从输入到C0部分的网络结构，作为检测模型的基础网络结构，也称为骨干网络。

4.图片识别转视频识别

基于opencv模块，增加对于视频进行交通标志识别的功能，对于录制的视频按帧截取识别，确定出候选框，筛选保留置信度最高的框，采用ffmpeg库在拼接成一个视频。
非极大值抑制
1）、假设有ABCDEF这么多个得分框（已经按照得分从小到大排序）。从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;

2）、假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。

3）、从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。

4）、一直重复这个过程，找到所有曾经被保留下来的矩形框。

5.实时识别并调用语音包功能

调取摄像头，每3秒抓取一张图片，传入我们训练好的模型，返回候选框的坐标，在视频流上进行标注，同时返回类别，调用我们生成好的语音包提示。
在这里插入图片描述

cap = cv2.VideoCapture(0)
cap.release()

0代表打开电脑内置摄像头，1代表打开usb插口摄像头。
当使用完之后，还需要一个关闭摄像头的函数。

ret, frame = cap.read()

read() 函数返回的ret是一个bool量，成功读取是true，否则返回false
frame返回的是读取到的图片，以数组的形式贮存
展示图片

cv2.imshow("capture", frame)
cv2.destroyAllWindows()

imshow() ：是一个将数组形式的数据转化为图片并展示的函数。它会建立一个窗口，用于展示图片。
destroyAllWindows() ：同样的，使用完成之后我们还需要一个关闭窗口的函数

想每隔10秒截取一帧，那么就相当于你要每隔（ FPS * 10 ）帧截取一帧图像！
因此，首先你需要知道你的视频的帧率（FPS）是多少：通过 openCV 获取一下即可：

cap = cv2.VideoCapture("./query_video/test_video_0.mp4")
FPS = cap.get(5)  # 这个是获取视频帧率 参数为0-18

比如cap.get(0)是获取当前位置以毫秒为单位。
最后将两段代码结合起来就可以根据时间间隔来截取视频帧了：

import cv2
cap = cv2.VideoCapture("./query_video/test_video_0.mp4") #读一个视频
c = 1
timeRate = 10  # 截取视频帧的时间间隔（这里是每隔10秒截取一帧）
 
while(True):
	ret, frame = cap.read()
	FPS = cap.get(5)
	if ret:
		frameRate = int(FPS) * timeRate  # 因为cap.get(5)获取的帧数不是整数，所以需要取整一下（向下取整用int，四舍五入用round，向上取整需要用math模块的ceil()方法）
		if(c % frameRate == 0):
			print("开始截取视频第：" + str(c) + " 帧")
			# 这里就可以做一些操作了：显示截取的帧图片、保存截取帧到本地
			cv2.imwrite("./capture_image/" + str(c) + '.jpg', frame)  # 这里是将截取的图像保存在本地
		c += 1
		cv2.waitKey(0)
	else:
		print("所有帧都已经保存完成")
		break
cap.release()

《AI图?篡改检测》（基于faster-rcnn模型）

该项目是基于智能图片篡改检测及还原技术的网站，包括图片篡改检测（支持jpg、png各种格式，不限制尺寸）、图片去除水印、视频篡改检测三个功能。

1.重构voc2007、voc2012数据集

将二分类细分成三分类，篡改分为copymove、splicing类别
生成所需的复制数据集，学习了canny边缘提取算法中的非极大值抑制和双阈值法筛选，对数据集进行处理。

2.更换网络，服务器运行

熟练的在服务器上搭建环境执行代码，同时基于faster-rcnn模型更换里面的vgg16网络换成reset50网络模型，模型速度由9s/iter提升到0.5s/iter

3.flask框架了解

学习flask，实现网页上传图片功能，搭建人机交互界面。

4.语义分割

~~学习了语义分割，但是数据集文字类别训练较少，不能较好的框出文字修改区域。~~
图像语义分割（semantic segmentation），从字面意思上理解就是让计算机根据图像的语义来进行分割，例如让计算机在输入下面左图的情况下，能够输出右图。

深度学习–Pytorch构建栈式自编码器实现以图搜图任务（以cifar10数据集为例）

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-17 22:08:21 更:2022-03-17 22:11:48

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/2 23:22:36-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码