融合标签层级结构的文本分类
1、背景
1、作者(第一作者和通讯作者) ???刘翰错,黄贤英 2、单位 ???重庆理工大学 3、年份 ???2021 4、来源 ???山西大学学报(自然科学版)
2、四个问题
1、要解决什么问题? ???解决标签之间的语义、标签之间的相关性,文本特征对标签特征的影响。
2、用了什么方法解决? ???提出了融合标签结构的层级标签文本分类模型(Label Hierarchical and Semantic Structure Learning, LHSSL)
3、效果如何?
4、还存在什么问题?
论文笔记
0、引言
???在本小节中,作者总结了目前现有的层级文本分类主要有两种:
???关注局部:关注局部 ,倾向于构造多个层次分类模型,然后以自顶向下的方式遍历层次结构。每个分类器预测对应的类别或类别层次。
???关注全局:关注全局,将所有类别集合在一起,用单个分类器进行预测。
???作者指出这些方法忽略了标签的语义结构特征、层级结构特征以及它们与输入文本特征之间的关系。还指出当标签数量较大、标签相似度较高时,人工分类很困难。接着作者针对以上问题提出了层级标签文本分类模型(LHSSL): ???(1)通过传统编码器提取输入文本特征,连接激活函数得到预测概率分布 ???(2)引入使用外部语料预训练好的语言模型得到标签嵌入向量,计算标签 嵌入向量间的相似度得到标签的语义相关结构图 ???(3)根据数据集给出的多层级类别标签,构建标签的层级结构矩阵(同时由于标签数量较少,使用单层图卷积就可以提取整个图结构的特征。因此使用共享参数的单层图卷积学习语义结构图与层级结构图的共享特征得到了两种标签嵌人) ???(4)利用自注意力机制学习标签之间的关系得到新的标签嵌入向量 ???(5)计算文本嵌人与标签嵌人的相似度,并且动态融合输人文本的特征 ???(6)经过激活后构造标签模拟分布,将两个分布加和平均并激活后得到最终的分类结果。
1、相关工作
1.1、图卷积神经网络
???相较于卷积神经网络和循环神经网络,图卷积神经网络更适用于处理非欧几里得结构性的图数据。图卷积的目的是通过聚合节点自身以及邻居节点的信息提取拓扑图的空间特征。
1.2、标签嵌入
???标签嵌入学习是通过学习标签的向量表示来增强模型的分类效果。本文也构建了模型学习标签之间的关系从而生成含有丰富信息的嵌入向量。
1.3、标签平滑
???标签平滑用于解决由使用one-hot向量表示标签带来的模型过拟合的问题,以及全概率和零概率导致样本所属类别和其他类别预测概率相差尽可能大致使模型过于自信的问题。
1.4、标签增强
???标签分布反映了数据集中每个标签与样本匹配的程度。大多数数据集的标签都是单一标签的集合,要获取数据真实的标签分布,需要对每条样本进行大量的标注,当标签数目较多时,会花费大量的时间与精力,标注的准确性也得不到保障。
2、模型设计
???LHSSL 模型主要分为三个部分:预测概率分布计算、标签模拟分布构造以及损失计算。
2.1、预测概率分布计算
???使用CNN、RNN、LSTM、BERT等用于提取文本特征。连接softmax激活函数进行非线性转换得到预测的标签的概率分布。
2.2、标签模拟分布构造
2.2.1、标签信息提取模块
???标签信息提取模块分为两个子模块:
???标签语义结构特征提取:标签语义结构特征提取模块首先初始化标签嵌入向量,将包含层级结构的标签集L中的每个标签按照层级结构拆分为多个单词。通过引入使用外部语料库预训练好的语言模型,如word2vec、glove等,得到每个单词的嵌入向量。将单词嵌人向量累加后除以单词的个数得到每个层级标签的嵌入表示。
???标签层级结构特征提取:标签层级结构特征提取模块通过数据集中标签本身的层级结构构造结构关系图。
2.2.2、标签混淆模块
2.3、损失计算
3、实验设置
3.1、数据集
???本文采用四个数据集:20NG、8NG_H、8NG_E和WOS11967。
3.2、实验参数设置
3.3、实验参数设置
??? 从表6-8中数据可以得到结论:无论数据集的标签中是否含有噪声,利用标签的语义关系以及层级结构关系特征,从一定程度上都能提高模型的分类性能。
|