| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 游戏开发 -> NLP论文解读《Learning Text Similarity with Siamese Recurrent Networks》 -> 正文阅读 |
|
[游戏开发]NLP论文解读《Learning Text Similarity with Siamese Recurrent Networks》 |
目录 3.1? Bidirectional RNNs 以及 LSTM模型: 3.3?Contrastive loss function 相对损失函数 4.2.1、Typo and spelling invariance?增加拼写错误
1、摘要论文提出一种模型用于解决职位归一化问题,将输入字符串映射到外部预定义的类别中去,可视为高度多类别的的分类任务。例如,字符串“software architectural technician Java/J2EE”可能映射为“Java developer”。 本文采用的方法着重于学习字符串的表示形式,使得具有相同含义的职位的表达能够紧密地联系在一起。优点:灵活性比较高,即字符串的表示可以作为后续分类器的输入,也可以用于查找密切相关的职位或者将职位进行聚类,模型的架构可以让我们在有限的监督学习下学习到有用的表示。
2.相关工作神经网络以及词表示在NLP任务中的发展,以及孪生网络的发展和应用。 ?? 3.Siamese RNN
3.1? Bidirectional RNNs 以及 LSTM模型:? 3.2?Siamese network 孪生网络孪生网络是共享权重的双分支网络,它包括两部分相同的网络,然后最后通过一个energy function合并在一起。图1是本文研究的网络的结构。孪生网络的数据集由三元组??组成,其中 是字符序列,?表示?? 是否相似 ( y=1)或不相似( y=0 )【y只是个标志量,相似为1,不相似为0】)。训练的目标是最小化嵌入空间中相似度之间的距离,最大化不同对之间的距离。 3.3?Contrastive loss function 相对损失函数该网络包含四层双向LSTM节点,最后一个BiLSTM层的每个时间步的激活值被平均化,从而产生一个固定维度的输出。这个输出再通过一个densely connected前馈层进行投影。 设?和是由网络函数计算出的嵌入空间中 ?和??的投影。我们将模型的energy functionE ?定义为嵌入向量 ?和?的余弦相似度: 损失函数的自变量为全体数据集,是数据集中每一个数据损失的累加。? 简洁起见,我们将用表示? 。数据集? 的总的损失函数由下式给出(上标中的 i 表示数据集中的第 i 个元素): 每一个实例的损失函数 是一个Contrastive loss function,由相似度? 情况下的损失函数和相似度??情况下的损失函数?组成: 相似和不相似情况下的损失函数如下:
下图是损失函数的几何图,分别显示了正和负分量。需要注意的是按比例缩小,以补偿正负样本的采样比例。 ?上图中的图像蓝色表示标签为正的增长损失,红色表示标签为负的增长损失。
4.实验部分主要首先讲解了baseline模型n-gram matcher,然后介绍了文本数据增强的方法,主要有随机替换字符和一定比例的拼写错误、同义词替换、添加多余信息可以增加鲁棒性、以及人工反馈情况。 4.1.n-gram matcher将模型与基准n-gram匹配器的性能进行比较。给定输入字符串,此匹配器通过最大化相似性评分功能从基本分类法中查找最接近的邻居。匹配器随后使用该邻居的组标签来标记输入字符串。相似度评分函数定义如下。令Q =?q1,...,qM?是作为字符序列的查询,而C =?c1,。 。 。 ,cN?是分类法中的候选匹配。 其中,Q和C为文本,M、N分别为Q、C的文本长度。
4.2 数据增强工作职称分类法。该分类法将一组19,927个作业标题划分为4,431个组Group内包含job。 title数量与group数量之间的分布:含有上百条title的group是很少的,通常一个group只含几个title. 数据集采样:按照4:1的采样方式,其中4为between-class (negative) pairs,1为within-class (positive) pairs。 分类数据集的建设:分为四个stage,每个stage又分为两步:
4.2.1、Typo and spelling invariance?增加拼写错误针对正类样本,随机替换20%字符并删除5%字符,操作之后额外生成大量训练数据。 4.2.2、Synonyms?同义词替换1、人工构建的同义词词库 2、归纳:在同一个group内,如果两个job title都有某一个或两个词,如“C++ developer”和“C++ programmer”都有“C++”,那么就推断developer和programmer就被认为是同义词(candidate),只要满足:1 两者不出现在isolation(可能是指其他group或者人为设置的排除域),2 不包含特殊字符如“&”,3 包含最多两个词,那么两者就会被认为是同义词(组) 同时构建了N=7909的Composition测试集,构建方法为同义词替换。 4.2.3、Extra words?增加多余信息实际文本看上去往往不是那么精简,有一些无用信息,加入后不影响语义。 实验共构造了1949条测试数据。 4.2.4、Feedback??人工反馈(工业应用)实际生产中,数据样本并非每一条都是人工录入,程序自动导入的数据可能出现标签错误,这个时候要求人工可以接入修改标签,测试模型是否能改正之前的错误。 实验设置了1000个测试样例。 实验结果: 5. 总结创新点
启发点
6、实现代码? (待实现) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 21:10:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |