[人工智能] 机器视觉与图像处理知识点总结

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器视觉与图像处理知识点总结 -> 正文阅读

[人工智能]机器视觉与图像处理知识点总结

图像灰度均值是对平均灰度的一种度量，反映了图像的亮度，均值越大说明图像亮度越大，反之越小。图像灰度方差反映了图像像素值与均值的离散程度，标准差越大说明图像的质量越好。方差是对平均对比度的度量，每个像素点颜色相差越大，方差越大，观感上整幅图的对比度越大。如果图片看起来灰蒙蒙的，那方差就小；如果看起来很鲜艳，对比度很大，那方差就大。把电视机的亮度调高了，那均值就变大，但方差没变；把对比度调高了，那均值没变，但方差变大。
采样间隔值越小，空间分辨率（图像中可分辨的最小细节）越高，图像质量越好，图像数据量越大。（图像质量指人们对一幅图像视觉感受的主观评价）
检测图像边缘的数学方法：图像梯度、差分和卷积。有限差分滤波器、高斯滤波器、Canny边缘检测器。
高通、低通滤波器：频率低的地方是较平滑的，因为平滑的地方灰度值变化比较小；频率高处通常是边缘或者噪声，因为这些地方往往是灰度值突变的。
（1）高通（锐化）滤波器保留远离频谱图中心的高频部分，舍弃掉靠近频谱图中心的低频部分。通常会保留图像的边界，即突出边缘。
（2）低通（平滑）滤波器保留靠近频谱图中心的低频部分，去除掉远离频谱图中心的高频部分。用于模糊处理、平滑图像、弱化边缘、减少噪声，降低了图像的“尖锐”变化，但是这会影响图像的清晰度，即图像边缘模糊化。
灰度变换函数：反转变换、对数变换、幂次变换、分段线性变换函数。
图像量化：数字化坐标值称为取样，数字化幅度值称为量化。分为：均匀采样和量化、非均匀采样和量化。灰度级（强度）量化，黑白、灰度、彩色图像的数字化。量化越细致，灰度级数（浓淡层次）表现越丰富。
梯度下降法：梯度下降法的计算过程就是沿梯度下降的方向求解极小值，它易陷入局部最优，不能保证全局最优解，主要是由目标函数的非凸性造成的。
SLAM：同步定位与建图（Simultaneous localization and mapping）。主要用于解决机器人在未知环境运动时的定位与地图构建问题。根据传感器不同分为：视觉SLAM、激光SLAM。
ORB特征：ORB算法分为特征点提取和特征点描述两部分。提取是由FAST算法发展来的，描述是根据BRIEF特征描述算法改进的。ORB特征包括特征点和描述子。特征点用于筛选比较“特殊”的点，而描述子用来描述某个点周围的特征。关键点：Oriented FAST；描述：BRIEF。ORB：旋转之后的BRIEF描述；BRIEF是一种二进制描述，需要用汉明距离度量。FAST：连续N个点的灰度有明显差异。Oriented FAST：在FAST基础上计算旋转。
外参：相机外参：相对于世界坐标系的旋转和平移，3×3旋转矩阵，3×1平移向量。相机内参：主点坐标、焦距、像素放大系数、倾斜（非矩形像素）、径向畸变。（相机矩阵、本质矩阵、基础矩阵）
VO算法通常可分为两类：视觉里程计Visual Odometry是SLAM的前端。特征点法、直接法和光流。（基于特征点、基于光度）
SLAM后端优化：以扩展卡尔曼滤波（EKF）为代表的滤波方法，以光束平差法BA和图优化为代表的非线性优化方法。
相机畸变：包括径向畸变和切向畸变，薄棱镜畸变。所谓畸变，就是指在世界坐标系中的直线转化到其他坐标系不在是直线。
神经网络前向传播、反向传播：利用误差反向传播算法进行反向计算的过程叫反向传播；前向传播比较简单，就是向量点乘（加权求和），然后经过一个激活函数，即由输入层逐渐向后计算，计算到输出层的方式，称为前向传播。
池化、汇聚：重叠池化（Overlapping Pooling）、最大池化（Max）、平均池化（Avy）、一般池化（General）、空金字塔池化（Spatial Pyramid）。池化：使图像变小，卷积核大小要能被图像size整除，每次移动步长为卷积核大小。
正则化：通过限制网络参数的稀疏性，可以来约束网络的实际容量。这种约束一般通过在损失函数上添加额外的参数稀疏性惩罚项实现。
Dropout：是防止过拟合的一种方法。假设网络间连接越少越好，在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征。训练时，减少每次实际参与计算的模型的参数量；测试时，Dropout会恢复所有的连接，保证模型测试时获得最好的性能。Dropout步骤：
（1）随机断掉网络部分隐藏神经元。
（2）修改后的网络前向传播，损失结果通过修改的网络反向传播(w,b)。
（3）恢复被删掉的神经元，重复这一过程。
图像锐化与图像平滑：（区别、关系）
（1）锐化就是通过增强高频分量来减少图象中的模糊，因此又称为高通滤波。锐化处理在增强图象边缘的同时增加了图象的噪声。常用的锐化处理方法：拉普拉斯模板。
（2）平滑与锐化相反，能减弱或消除图像中的高频率分量而不影响低频分量，会减少图象噪声，使图片变得有些模糊。常用的平滑处理方法：Box模板去噪平滑处理，也就是均一化处理，高斯模板去噪平滑处理，中值滤波去噪平滑处理。
电磁波谱成像：电磁波谱可以用波长、频率或能量来描述。光是可以被人眼感知的电磁波。电磁波是能量的一种，任何有能量的物体，都会释放电磁波。
（1）伽马射线成像：主要用于核医学和天文观测。在核医学中，这种方法将放射性同位素注射到人体内，当这种物质衰变时，就会放射出伽马射线，然后用伽马射线检测仪收集到的放射线来产生图像。
（2）X射线成像：主要用于医学诊断、天文学、工业和其他领域。
（3）紫外波段成像：主要用于平板印刷术、工业检测、显微镜方法、激光、生物成像和天文观测等方面。
（4）可见光及红外波段成像：红外波段常与可见光相结合成像。主要用于光显微镜方法、遥感、天文学、工业和法律实施等方面。
（5）微波波段成像：主要用于雷达。成像雷达的工作原理就像一台闪光照相机，它自己提供照明（微波脉冲）去照亮地面上的一个区域，并得到一幅快照图像。与照相机镜头不同，雷达使用天线和数字计算机记录图像。在雷达图像中，能看到的只是反射到雷达天线的微波能量。
（6）无线电波段成像：主要用于医学和天文学。在医学中，无线电波用于核磁共振成像（MRI）。
统计排序滤波器：一种非线性滤波器，它的响应基于图像滤波器包围的图像区域中像素的排序，然后由统计排序结果决定的值代替中心像素的值。
（1）中值滤波器：算法：先将掩模内欲求的像素及其领域的像素值排序（升序或降序），确定出中值，并将中值赋予该像素点。原理：用模板区域内像素的中值作为结果值，强迫突出的亮点（暗点）更像他周围的值，以消除孤立的亮点（暗点）。主要功能：使拥有不同灰度的点看起来更接近于它的邻近值。特点：在去除噪音的同时，可以比较好的保留边的锐度和图像细节。主要用途：去除“椒盐”噪声。
（2）此外还有：最大值、最小值、中点滤波器，修正阿尔法均值滤波器。
立体视觉三角化：
迭代最近点ICP：该算法一般多用于三维空间内点云配准，不仅适用于平面场景，还适用于曲线和曲面等场景。当点云配准的结果未满足理想精度的要求，通过 ICP 算法，在不断地迭代中降低误差，从而实现理想的精度值。初始的粗略匹配为之后的精准匹配提供了较好的初始位置，而 ICP 算法的作用是把误差进一步的缩小，以无限接近理想精度值。ICP 算法的核心在于不断地迭代，通过点与点之间的配准来进行旋转和平移，它的衡量标准基于最小二乘法，且点与点的距离要满足在一定的阈值范围内。总结：
（1）ICP算法对初始值的依赖比较大，具体的配准过程中，如何选择初始值是一个问题，可以使用轮式里程计、imu预积分或其它先验的配准结果。
（2）ICP迭代次数过多，实际工程中需要考虑到其实时性的优化问题。
（3）迭代终止的阀值设置也是需要考虑的点，可考虑自适应阀值的方法。
（4）关于寻找最近点可以使用kdtree进行临近搜索。
立体视觉中大基线和小基线：小基线: 深度误差大。大基线: 搜索难题。
基线本意是指立体视觉系统中两摄像机光心之间的距离。依据拍摄两幅图像的视点位置关系可将对应点匹配问题分为宽基线（Wide Baseline）和窄基线（Short Baseline）。宽基线一词用于匹配时，泛指两幅图像有明显不同的情况下的匹配。产生这种情况的原因有可能为摄像机之间的位置相差很大，也有可能由于摄像机旋转或焦距的变化等因素产生的。宽基线匹配和窄基线匹配的分界不是很严格，但是在窄基线匹配中存在如下假设：摄像机焦距及其它内参数变化不大，摄像机位置不会相差很远，不会有大的转动，对应点的邻域是相似的。
??窄基线匹配中典型方法是利用邻域的互相关（Neighborhood Cross-Correlation）方法。宽基线的情况下，图像之间拍摄距离较远，成像条件存在较大差异，即使是空间同一特征，在图像中所表示出来的光学特性（灰度值，颜色值等）、几何特性（外形，大小等）及空间位置（图像中的位置，方向等）都有很大的不同，再加上噪声、遮挡等因素的存在，此时基于邻域互相关的匹配方法就失效了。在宽基线匹配中，仅仅使用特征本身的信息(比如边缘、角点的位置信息)是难以正确匹配的，研究学者将多个特征尤其是结构性特征予以组合，以形成稳定的特征向量（称为特征描述符）。这种对于图像的几何变形、光照变化等因素保持一定稳定性的特征向量称为不变量。不变量技术是宽基线匹配应用中的重要技术。
SLAM方程：
神经网络过拟合或欠拟合：
（1）欠拟合：当模型的容量过小时，模型不能够很好的学习到训练集数据的模态，导致训练集上表现不佳，同时在未见的样本上表现也不佳。具体表现：学习到的模型在训练集上的误差（如均方差）较大，同时在测试集上面的误差也较大。解决办法：增加神经网络的层数、增大中间维度。
（2）过拟合：当模型的容量过大时，网络模型除了学习到训练集数据的模态之外，还把额外的观测误差也学习进来，导致学习的模型在训练集上面表现较好，但是在未见的样本上表现不佳，也就是泛化能力偏弱。防止过拟合方法：正则化、添加动量、学习率衰减、早停、DropOut、数据增强；划分验证集集、交叉验证、K-Flod、留一验证。
（3）通过验证集可以判断网络模型是否过拟合或者欠拟合。发现过拟合，通过减少网络的层数，减少每层中网络参数量的规模可以有效降低网络的容量。如果发现模型欠拟合，需要增大网络的容量，可以通过增加层数，增大每层的参数量等方式实现。
激活函数：帮助网络去理解、学习复杂的非线性函数输入会产生怎样的响应。

（1）优点：sigmoid函数把𝑥∈𝑅的输入“压缩”到𝑥∈[0,1]区间。概率分布[0,1]区间的输出和概率的分布范围契合，可以通过Sigmoid函数将输出转译为概率输出。Sigmoid函数连续可导，相对于阶跃函数，可以直接利用梯度下降算法优化网络参数，应用的非常广泛。缺点：Sigmoid 函数在输入值较大或较小时容易出现梯度值接近于0的现象，称为梯度弥散现象，网络参数长时间得不到更新，很难训练较深层次的网络模型。
（2）优点：Tanh函数能够将𝑥∈𝑅的输入“压缩”到[?1,1]区间。可以看到 tanh激活函数可通过Sigmoid函数缩放平移后实现。缺点：Tanh激活函数易出现梯度弥散的现象。
推导对极约束方程：对极几何描述两个视图之间的射影几何关系，计算相机不同位置的变换关系。对极约束刻画了共面的关系。

??以上两式都叫做对极约束。其中E称为本质矩阵，F称为基础矩阵。
SLAM流程图：

（1）传感器数据读取：在视觉SLAM中主要为相机信息的读取和预处理，获取图片或视频序列。
（2）视觉里程计VO：相邻图像估计相机运动；基本形式是通过两张图像计算运动和结构；不可避免地有累积漂移。方法：特征点法、直接法。
（3）后端优化：从带有噪声的数据中优化轨迹和地图状态估计问题；最大后验概率估计（ MAP）；早期以EKF为代表，现在以图优化为代表。
（4）回环检测：检测机器人是否回到早先位置；识别到达过的场景；计算图像间的相似性；减小累积误差。方法：词袋模型。
（5）建图：用于导航、规划、通讯、可视化、交互等；度量地图（稀疏地图、稠密地图） vs 拓扑地图。
SLAM非线性优化的图优化模型：

??用三角形表示相机位姿节点，用圆形表示路标点，它们构成了图优化的顶点；同时，蓝色线表示相机的运动模型，红色虚线表示观测模型，它们构成了图优化的边，可直观地看到问题的结构了。也可以做去掉孤立顶点或优先优化边数较多的顶点这样的改进。但最基本的图优化是用图模型来表达一个非线性最小二乘的优化问题。我们可利用图模型某些性质，做更好的优化。
简单全连接神经网络结构和参数量：全连接神经网络存在的问题：参数量大、计算量大、输入大小固定。
LeNet-5：这是一个非常成功的神经网络模型，共有7层。基于LeNet-5的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。

（1）输入层：输入图像大小为 32 × 32 = 1024。
（2）C1 层：这一层是卷积层。滤波器的大小是 5×5 = 25，共有 6 个滤波器。得到 6 组大小为 28 × 28 = 784 的特征映射。因此，C1 层的神经元个数为 6 × 784 = 4704。可训练参数个数为6 × 25 + 6 = 156。连接数为156 × 784 = 122304（包括偏置在内，下同）。
（3）S2 层：这一层为子采样层。由 C1 层每组特征映射中的 2 × 2 邻域点次采样为1个点，也就是4个数的平均。
相机的投影方程：

??主轴：从相机中心垂直于图像平面的线。
??归一化（相机）坐标系：相机中心位于原点，主轴为z轴。
??主点（p）：主轴与图像平面相交的点（归一化坐标系的原点）。
卷积尺寸计算：先定义几个参数：输入图片大小 W×W；卷积核Filter大小 F×F；stride步长 S； padding填充值P。则输出为N*N，其中N = (W ? F + 2P )/S+1。具体计算如下：
（1）如果计算方式采用“VALID”，则：其中为输出特征图的大小，为输入特征图的大小，F为卷积核大小，stride为卷积步长。
（2）如果计算方式采用“SAME”，输出特征图的大小与输入特征图的大小保持不变，其中padding为特征图填充的圈数。若采用“SAME”方式，kernel_size=1时，padding=0；kernel_size=3时，padding=1；kernel_size=5时，padding=3，以此类推。
例：F=12，S=4，P=2，假如图像的输入size是256×256的，由计算公式知
N=(256?12+2×2)/4+1=63,也就是输出size为63×63的。
简单卷积计算：