Towards Long-term Fairness in Recommendation [2021-WSDM]

本文是投在顶会WSDM上的2021年的新文章，旨在采用强化学习方法解决常规推荐环境中的曝光不公平问题。个人进行了泛读，摘要和评论如下（由于未进行精读可能会存在谬误）：

论文解决的具体问题和主要假设

该篇论文站在item的角度，认为解决推荐系统的公平性问题，不应该在静态的或者在“使用一次性策略就能使之公平”的假设中进行，即公平性约束条件（或策略）应该是随着时间而动态变化的。例如，曾经t时刻流行的产品可能在t+n时刻不再流行，但如果依然按照早期t时刻的公平性约束来对t+n时刻的商品进行曝光，这其实是只关注到了t时刻的公平性，而忽略掉了长期的公平性动态变化过程，本质上也是是不公平的。
论文关注的对象是items在不同group中的曝光公平性，而group的划分是基于item受欢迎程度，并且假设在推荐过程中item受欢迎程度会随时间动态变化。

论文使用的方法

文章提出了一种公平性约束的推荐强化学习算法，该算法将推荐问题建模为约束马尔科夫决策过程CMDP，从而使模型能够动态调整推荐策略，以保证在环境变化时始终满足公平性要求。CMDP在MDP的基础上添加了一些约束，这些约束限制了MDP的策略（这些约束是以策略代价函数的形式给出的，我阅读到后面发现其实可以看成一种特殊的reward，因为它是对状态转移过程增加了一个代价，而这个代价作用是类似于reward的，也用于反馈）。
备注：模型的输入是预训练过的user-item representation。强化学习模块训练采用的是Actor-Critic模式，奖励使用的是即时奖励而非延迟奖励（作者也指出正因为奖励反馈是及时的，所以才能够捕获动态公平性）。评价指标包括常用的Recall；F1-score；同时，这篇文章介绍了两种可以用于度量曝光公平性的评价指标：基尼系数（对用户）；流行比率（对群组）。

本文的主要贡献

该方法第一个创新点是：提供了考虑推荐公平性问题的一个新角度，关注到了公平性长短期的区别，即公平性策略应该是动态改变的，而不该是一次性、静态的。因为在推荐过程中，由于推荐策略和用户参与，物品受欢迎程度等属性可能会随着时间的推移而改变。而过去的推荐系统公平性解决方案没有考虑到推荐系统的动态性。
该方法的第二个创新点是：提出了一种公平性约束的推荐强化学习算法，该算法将推荐问题建模为受限马尔科夫决策过程，从而使模型能够动态调整推荐策略，以保证在环境变化时始终满足公平性要求。

简单读后感

本文作者指出该CMDP方法依然是在表示学习过程为黑盒的基础上采用预训练得到的user-item表示来探讨提升推荐公平性的方案，目前看到的大多数推荐系统去偏方法都是基于黑盒模型来去偏，或者以最优化算法约束条件的形式对模型参数进行限制，极少讨论在数据本身或是数据到表示的过程中如何提高公平性，这样可能会导致无法总根本上去偏。我初步认为如果能够即采用一种去偏的表示学习模型，同时又辅助以合理的公平性约束，也许会得到优于目前这种两阶段主流方案的结果。