降维的目的

特征选择的目的是筛选出最为重要，最为关键的特征。很多移动互联网App可以通过埋点获取各种用户信息，然而这些信息并不能够在所有的任务中都发挥出很大的作用——有些作用微小，有些则是毫不相关的噪声。对于模型训练而言，将大量冗余的无用特征加入训练数据会导致模型的训练时间增加，同时模型表现也会被噪声影响。

因此，在训练之前选出最为重要的有效特征，可以帮助模型又快又好的完成训练。

降维需求与维度控制

TODO: 数据降维也不是必须的，如何判断是否需要降维以及维度需要控制在什么范围？

线性判别分析(LDA)

线性判别分析(Linear Discriminant Analysis)是一种机器学习和模式识别中常用的降维技术。LDA的使用依赖数据集中的类别标签，也就是说LDA属于监督学习的一种，可以看作是一种线性分类器。LDA的核心思想是将当前数据在低维度上进行投影，投影结果需要让同一类样本的间距尽可能小，不同类的样本中心间距尽可能大。

LDA的原理

使用LDA处理二分类问题

假设目前要对数据集 $D=\{(x_i, y_i)\}_{i=1}^m$ 进行二分类，其中的标签为 $y_i\in \{0,1\}$ 。对于第 $i$ 类样本，其总个数为 $N_i$ ，该类的所有样本的集合记为 $X_i$ ，所有样本的均值向量为 $\mu_i$ ，协方差矩阵为 $\Sigma_i$ 。比如： $D={\{\\([-1, 3.5, 2], 1),\\([0, 2.5, 1], 1),\\([1, 3, 1.5], 1),\\([4, 2, 0], 0),\\([2, 0, 2], 0)\\\}}$
那么此时的第 $0$ 类样本个数 $N_0=2$ ，样本集合 $X_0=\{[4, 2, 0], [2, 0, 2]\}$ ，均值向量 $\mu_0=\frac{1}{N_0}\sum_{x\in X_0}x=[3, 1, 1]$ ，协方差矩阵 $\Sigma_i$ 的计算在LDA中是没有 $\frac{1}{N-1}$ 或 $\frac{1}{N}$ 的，直接计算可得： $\Sigma_0=\sum_{x\in X_0}(x-\mu _0)^T(x-\mu_0)= \begin{pmatrix} 1 & -1\\ 1 & -1\\ -1 & 1 \end{pmatrix} \begin{pmatrix} 1 & 1 & -1\\ -1 & -1 & 1 \end{pmatrix}= \begin{pmatrix} 2 & 2 & -2\\ 2 & 2 & -2\\ -2 & -2 & 2 \end{pmatrix}$

对于第 $1$ 类样本做同样的运算后，可以得到相应的值：
$N_1=3,$ $X_1 = \{[-1, 3.5, 2], [0, 2.5, 1], [1, 3, 1.5]\},$ $\mu_1 = [0, 3, 1.5],$ $\Sigma_1 = \begin{pmatrix} 2 & -0.5 & -0.5\\ -0.5 & 0 & 0.5\\ -0.5 & 0.5 & 0.5 \end{pmatrix}$
将数据集 $D$ 投影到一条直线 $w$ 上，则对于样本 $x_i$ ，它在 $w$ 上的投影为 $w^Tx_i$ 。因此对于两个类的数据中心 $\mu_0$ 和 $\mu_1$ ，其在 $w$ 上的投影分别为 $w^T\mu_0$ 及 $w^T\mu_1$ 。我们要寻找的目标 $w$ 需要使不同类间的样本中心间距尽可能的大，因此也就是要最大化 $\| w^T\mu_0-w^T\mu_1\|$ ，整理后变为最大化 $w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ 。同时保证同一类的样本点在投影后尽可能接近，因此对于第 $i$ 类样本，需要最小化 $\sum_{x\in X_i}(w^Tx-\mu_i)^2$ ，整理后得 $w^T\Sigma_i w$ 。即对于二分类问题，最小化 $w^T\Sigma_0w+w^T\Sigma_1w$ 。因此，LDA的目标函数可以被设计为： $J(w)=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}$
设 $S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ ， $S_w=\Sigma_0+\Sigma_1$ ，则优化目标可表示为：
$\underset{w}{\mathrm{argmax}} \ J(w)=\frac{w^TS_bw}{w^TS_ww}$
即目标函数 $J (w)$ 是 $S_b$ 与 $S_w$ 的广义瑞利商(generalized Rayleigh quotient)。根据瑞利商的性质