说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。该技术蓬勃发展,应用广泛,如人脸识别门禁系统、刷脸支付软件等。
人脸识别在本质上是根据每张人脸图像中不同像素点的颜色进行数据建模与判断。人脸图像的每个像素点的颜色都有不同的值,这些值可以组成人脸的特征向量,不过因为人脸图像的像素点很多,所以特征变量也很多,需要利用PCA进行数据降维。
本项目先对人脸数据进行读取和处理,再通过PCA进行数据降维,最后用K近邻算法搭建模型进行人脸识别。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),,数据项统计如下:
数据集中图片的文件名由4部分组成:
- 第1部分是该张图片对应的人脸编号;
- 第2部分是固定分隔符“_”;
- 第3部分是该张图片在该人脸10张图片中的顺序编号;
- 第4部分是文件扩展名“.jpg”。
以“10_0.jpg”为例,10代表编号为10的人的图片,“_”是第1部分和第3部分的分隔符,0代表这个人的10张图片中编号为0的那一张,“.jpg”为文件扩展名。
数据详情如下(部分展示):
3.数据预处理
3.1 图片数据读取
使用os模块列出前5个图片的名称:
从上图可以看到,总共有9个字段。
关键代码:
3.2 特征变量提取
使用Image. convert('L')方法进行特征变量提取:
关键代码:
3.3 图片灰度值数据框显示
使用Pandas工具的DataFrame()方法进行转换:
?
3.4 批量处理图片
通过for循环批量处理图片:
3.5 目标变量提取
通过Image模块的open()方法读取目标变量:
关键代码:
4.探索性数据分析
4.1 显示第一张图片
用Image工具的open()方法进行进行图片的显示:
?
5.特征工程
5.1 数据集拆分
数据集集拆分,分为训练集和测试集,80%训练集和20%测试集。关键代码如下:
5.2 PCA数据降维
使用PCA算法进行数据的降维,输出如下:
?
关键代码如下:
6.构建人脸识别模型
主要使用KNeighborsClassifier算法,用于目标分类。
6.1 模型构建
?
7.模型评估
7.1评估指标及结果
评估指标主要包括准确率、查准率、召回率、F1分值等等。
?
从上表可以看出,人脸识别模型效果良好。
关键代码如下:
7.2 查看是否过拟合
查看训练集和测试集的分数:
?
通过结果可以看到,训练集分数和测试集分数基本相当,所以没有出现过拟合现象。
关键代码:
?
7.3 分类报告
人脸识别模型分类报告:
从上图可以看出,分类为1的F1分值为0.67;分类为2的F1分值为1.00,其它类型的以此类推。
8.结论与展望
综上所述,本项目采用了PCA数据降维和KNN分类模型,最终证明了我们提出的模型效果良好。