[人工智能] 论文粗读0807

热编码（One-hot encoding）：创建二进制子特征，如word_deep，word_learning，word_is。属于该数据点的类别值为1，其他值为0。所以，对于“deep”这个词，特征word_deep为1，word_learning，word_is则为0。

标签编码（Label encoding）：像之前的例子那样分配整数，因此“deep”为1，“learning”为2等等。这种方法比较适用于基于树的方法，但不适用于线性模型，因为它意味着赋值的顺序。

实体嵌入解决了独热编码的缺点。具有许多类别的独热编码变量会导致非常稀疏的向量，这在计算上是无效的，并且难以优化。标签编码解决了这一问题，但只能用于基于树的模型。

嵌入提供有关不同类别之间距离的信息。使用嵌入的优点在于，在神经网络的训练期间，也要训练分配给每个类别的向量。因此，在训练过程结束时，我们最终会得到一个代表每个类别的向量。这些训练过的嵌入被可视化，为每个类别提供可视化。

分类数据和连续数据是两类数据，需要先把离散的分类数据经过实体嵌入转变成离散向量再与连续数据进行连接，作为输入。m是一个分类变量的唯一级别的数量(例如，如果我们想将月份分类变量Jan-dec映射到嵌入向量，m被设置为12)，D是一个超参数，可以在1和m?1之间。首先将m×D矩阵随机初始化并设置为EntityDenseNet模型。然后，在训练过程中通过反向传播逐渐调整m×D矩阵值。

气溶胶光学厚度,英文名称为AOD（Aerosol Optical Depth）或AOT（Aerosol Optical Thickness），定义为介质的消光系数在垂直方向上的积分，是描述气溶胶对光的削减作用的。

它是气溶胶最重要的参数之一，表征大气浑浊程度的关键的物理量，也是确定气溶胶气候效应的重要因素。

通常高的AOD值预示着气溶胶纵向积累的增长，因此导致了大气能见度的降低。

UMAP是基于python的流形数据降维工具，是一种降维技术，类似于t-SNE，可用于可视化，但也可用于一般的非线性降维。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。相对于t-SNE，其主要特点：降维快准狠。

reducer?=?umap.UMAP(random_state=42)
embedding?=?reducer.fit_transform(digits.data)
print(embedding.shape)
plt.scatter(embedding[:,?0],?embedding[:,?1],?c=digits.target,?cmap='Spectral',?s=5)
plt.gca().set_aspect('equal',?'datalim')
plt.colorbar(boundaries=np.arange(11)-0.5).set_ticks(np.arange(10))
plt.title('UMAP?projection?of?the?Digits?dataset')
plt.show()

在本文中的应用是计算余弦距离，算出京津冀地区之间PM2.5的贡献比。

4. LightGBM

LigthGBM是boosting集合模型中的新进成员，由微软提供，它和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。

概括来说，LightGBM主要有以下特点：

基于Histogram的决策树算法

带深度限制的Leaf-wise的叶子生长策略

直方图做差加速

直接支持类别特征(Categorical Feature)

Cache命中率优化

基于直方图的稀疏特征优化

多线程优化

LightGBM使用的是histogram算法，占用的内存更低，数据分隔的复杂度更低。其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。

在本文的隐藏层中就使用了BN层。

总体该论文的复现思路就是：通过嵌入层转换分类数据，与连续数据做连接成为输入的编码，通过BN层进行归一化处理后，放入两层隐藏层训练参数，隐藏层中包含FC（全连接层）、ReLU层（这两个上课都学过如何实现）、BN层、dropout层，最终经过单个FC层+sigmoid运算输出结果。结合京津冀地图和UMAP层解析出结论：来自河北的PM2.5对天津的PM2.5的贡献大于北京的。

论文二：A Spatial-Temporal Interpretable Deep Learning Model

这篇论文的主旨是增加上述模型的可解释性。本文所提出的神经网络SIDLM由两个关键框架组成：一个广泛的深度学习框架；还有一个时空分析框架。该模型是由Cheng等人最初提出的用于谷歌Play的推荐系统的广域和深度学习神经网络。

其复现思路就是在嵌入层之前对信息做随机森林回归，选择最有用的特征放入嵌入层，在训练网络的线性回归模型中确定的权值（或系数）可以从SIDLM宽分量中提取。线性回归模型计算预测作为变量输入的加权和，与这种学习关系的线性允许一个直接的解释。

论文三：Understanding global changes in fine-mode aerosols

这篇论文主要是基于以上给定模型的结果进行结果分析和可视化，没有深度学习的理论和解释。

转存失败重新上传取消

精细模式气溶胶光学深度（fAOD）和气溶胶精细模式分数（FMF）的可解释深度学习模型的特征重要性提取，对于y轴的18个变量，叉号表示该变量与深度学习模型中的fAOD或FMF没有显著关联，而条和点表示了该变量与fAOD或FMF的显著相关以及其特征重要性的值。

同时这篇论文发现FMF和fAOD都与O3显著相关，表明近地表03在最近十年显著增加，因此其研究结果强调了对O3和细颗粒的监管协同作用的重要性。

部分地方有转载。

[人工智能]论文粗读0807