适合如我这般完全忘记数学知识的小白，大佬可绕行

在这里插入图片描述

应用背景举例：
我们有一个常见动物的分类问题，所有动物都有一些特征，比如该动物有几条腿、有没有耳朵、或者鼻子长不长等等。每个特征都有很多取值，那么我们的输入就是一个n维的特征向量，使每个特征的取值不同，特征向量也各不相同。输出就为动物类别值：1、2、3…

贝叶斯定理

其实，就是一个概率公式，长这个样子。
在这里插入图片描述

先验概率

那么先验概率就是从这组数据集当中计算得出每个类别的概率，易得各个类别个数除以样本总数即可。

条件概率

条件概率是一个概率值集合，总结如下：
分别求，确定某一类别的条件下，各个特征及其各个特征可取值的概率集合。也就说说如果特征向量为n维，每个特征可取值个数为m，有k个类别，那么需要计算nmk次概率值。

极大似然估计

极大似然估计，大概率说的就是计算条件概率的方法。实际上就是从数据的当中查个数，求一个个数的比值作为概率，就是极大似然估计。

贝叶斯估计

贝叶斯估计是极大似然估计方法的改进，加上一个大于0的数。下面对极大似然估计进行解读之后，贝叶斯估计的内容也是如此，不再拗述。

公式解读：贝叶斯公式、极大似然估计、贝叶斯公式变形

给出公式，继续解读公式的意思：

这个就是贝叶斯定理求后验概率，所谓后验概率就是给出输入求类别输出，而先验概率就是给出某个确切类别值前提下，其各个特征及其特征取值的概率，然后所有类别分别求出。举个例子，类别值为🐍，求耳朵颜色如红、橙、黄等的概率。那肯定为0啊，因为🐍没有耳朵，就算你不知道🐍有没有耳朵也能从数据集当中检索出来这条信息。

上面公式的左边意思是，当确定输入随机变量X为个特征向量的情况下，其各个类别的概率为多少，这是一个和类别相关的概率分布。求概率分布的最大值也就是convex问题，得出类别值。

右边公式的意思，分子为先验概率和条件概率的乘积。先验概率即，当输入为某个确切类别值得概率，可知为一个标量。条件概率，在确切某个类别的前提下，其各个特征及其特征取值的概率集合，他是一个概率分布。分母，则是对分子不同类别操作的一个求和。

两边都是类别概率分布，这就是朴素贝叶斯。

这里面，先验概率好求、好理解，条件概率（极大似然估计）可以再展开分析，如下。
在这里插入图片描述
I为指示函数，也就是说当A=B的时候判断为1，否则为0。左边的意思就是，确定某个类别之后，第j个特征取值为该特征可取值集合当中的某一个值的概率，再求所有特征及其所有特征可取值得概率组成一个概率值集合。这就是条件概率的一个集合。等式右边的意思就是从所有样本当中挑选，确认为🐍并且🐍没有耳朵的样本个数，概率为个数的一个比值。

到此，朴素贝叶斯法大概的内容就是如此。如果给出新的数据，那么套用贝叶斯定理变心公式即可求出各个类别概率分布。如下图。
在这里插入图片描述
分别求所有类别的概率值，取最大值所对应的Ck。当取某一个类别时，第j个特征等于输入向量第j个特征所取值的概率求乘积，即可。

正则化（regularizer、penalty term）和over-complete

在这里插入图片描述
输入通过一个函数f得出一个结果，和真实标签求平方损失。若，模型复杂度较高，则模型非线性能力越强，其值越容易接近真实值，那么loss接近0。之所以出现如此问题，是因为我们学习到的参数为非0值个数太多，即模型复杂度和阶次过高拟合能力变强。如何解决这个问题，那么对参数w求二范数，参数tensor w非0值越多二范数越大，那么loss整体会提高，最后optimizer会继续学习。既然提到了非0值个数少，那么就引出了稀疏表示。

K-SVD一般用于字典学习、稀疏编码方面。目标为构造一个over-complete矩阵，然后选择稀疏的系数解使得矩阵对其训练集相似的目标进行稀疏表示。他的前提要求行数远远小于列数。

这里不难理解，行向量、列向量线性相关，可有无数多个解，有的解复杂非0参数过多，有的解简单非0参数很少，但是他们的作用都是一样的，那么对于一个维度很好的输入向量，他的解假设为A，但是有一个维度很低的解，他的输出也为A，那么over-complete就可为输入向量进行sparse表示。当输入向量维度降低之后，更有益于机器学习。比如我们上面说的朴素贝叶斯法分类问题，nmk次运算。
在这里插入图片描述