Detecting Beneficial Feature Interactions for Recommender Systems (AAAI’21)

这篇的motivation和method都更自然一些，就是有的地方写的不太清楚。

Motivation

DeepFM等一系列模型注重于挖掘高阶特征，但是这些模型只管挖不管筛。对于一个样本有 $J$ 个特征，二阶组合特征就有 $J (J ? 1) / 2$ 个，大量的特征组合自然也有大量无用特征，会降低模型质量和速度，所以怎么合理对特征组合进行剪枝，是本文所研究的问题。这篇文章只考虑二阶特征组合。

同样地，这篇文章以特征作为节点建立Graph，把识别重要特征交互任务看作图上的 Link Prediction 任务，然后把 CTR 任务看作图分类任务。

所以从大的角度上看，这篇可以看作在Fi-GNN的基础上剪枝邻接矩阵。

Method： $L_0$ -SIGN

每个节点有两套embedding $v_{i}^{e}$ 和 ${u}_{i}$ ，分别用于L0模块和SIGN模块。SIGN模块的作用类似于DCN、DeepFM中的特征交互模块，L0模块的作用则是为SIGN模块剪枝。

$L_0$ Edge Prediction Model

最简单的Edge Prediction方案就是MF，这里用一个MLP的模型 $f_{e p}$ 来识别节点 $i$ 和节点 $ j$ 之间是否存在边：
$f_{e p}\left(v_{i}^{e}, v_{j}^{e}\right) = W_{2}^{e} \operatorname{Re} L U\left(W_{1}^{e}\left(v_{i}^{e} \odot v_{j}^{e}\right)+b_{1}^{e}\right)+b_{2}^{e}: \mathbb{R}^{2 \times b} \rightarrow \mathbb{Z}_{2}$
$v_{i}^{e}$ 和 $v_{j}^{e}$ 是节点 i, j 的 $b$ 维的embedding， $f_{ep}(v_{i}^{e}, v_{j}^{e})$ 的输出 $e_{i j}^{\prime} \in \{0,1\}$ 。训练中再对 $f_{ep}$ 加上 $L_0$ 正则化，促使更加稀疏。

SIGN(Statistical Interaction Graph neural Network)

在 $e_{i j}^{\prime}=1$ 时，计算特征节点 $i$ 和特征节点 $j$ 的边权重（建模特征交互）
$\boldsymbol{z}_{i j} = h\left(\boldsymbol{u}_{i}, \boldsymbol{u}_{j}\right): \mathbb{R}^{2 \times d} \rightarrow \mathbb{R}^{d}$
， $\boldsymbol{u}_{i}, \boldsymbol{u}_{j}$ 就是节点 i, j 的 $d$ 维的embedding 。那 $e_{i j}^{\prime}=0$ 的就表示被剪枝掉了，不用建模特征 i 和特征 j 的交互，所以任意两个特征的交互表征可以表示为：
$\boldsymbol{s}_{i j}=e_{i j}^{\prime} \boldsymbol{z}_{i j}$

这样看是不是很像在Fi-GNN剪枝。

然后用一个线性聚合函数 $\psi: \boldsymbol{v}_{i}^{\prime}=\psi\left(\varsigma_{i}\right)$ 聚合邻居节点，更新节点表征。

然后用一个线性加权函数 $\mathbb{R}^{d} \rightarrow \mathbb{R}$ 将节点的表征向量转换成数值。

然后用一个线性聚合函数 $\phi$ 聚合图上所有节点的数值，得到最终输出：
$f_{L S}(G ; w, \theta)=\phi\left(\left\{g\left(\varphi\left(\left\{f_{e p}\left(v_{i}^{e}, v_{j}^{e}\right) h\left(u_{i}, u_{j}\right)\right\}_{j \in X}\right)\right)\right\}_{i \in X}\right)$
loss由三部分组成：
$\begin{aligned} \mathcal{R}(\boldsymbol{\theta}, \boldsymbol{\omega})=& \frac{1}{N} \sum_{n=1}^{N}\left(\mathcal{L}\left(F_{L S}\left(G_{n} ; \boldsymbol{\omega}, \boldsymbol{\theta}\right), y_{n}\right)\right.\\ &\left.+\lambda_{1} \sum_{i, j \in X_{n}}\left(\pi_{n}\right)_{i j}+\lambda_{2}\left\|\boldsymbol{z}_{n}\right\|_{2}\right) \\ \boldsymbol{\theta}^{*}, \boldsymbol{\omega}^{*} &=\underset{\boldsymbol{\theta}, \boldsymbol{\omega}}{\arg \min } \mathcal{R}(\boldsymbol{\theta}, \boldsymbol{\omega}), \end{aligned}$