IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Enriching Word Embeddings for Patent Retrieval with Global Context -> 正文阅读

[人工智能]Enriching Word Embeddings for Patent Retrieval with Global Context

Enriching Word Embeddings for Patent Retrieval with Global Context

利用全局上下文丰富专利检索词嵌入

Abstract.

在本研究中,我们探讨词汇嵌入在专利检索中的应用,是基于分布式语义的方法。

什么是分布式语义https://blog.csdn.net/flying_1314/article/details/117930877

word2vec skip-gram的局限性:上下文窗口的内在约束。对于模型来说窗口太窄→无法捕捉到专利领域的全部复杂性。

解决方法:当地和全局的上下文中共同提取嵌入式学习。

(1)使用全局改进来适应Skip-gram 的向量;

(2)使用全局上下文来过滤词的相似性。

专利检索的困难:在其他领域表现好的模型在专利文本方面来源困难???

语义、分布式语义的有效性存疑

局部+全局组合→单词嵌入

通过从这些复杂的信息源中提取信息,我们可以显著提高在这个领域中基于recall的测量方法的性能。

以word2vec Skip-gram检测检索有效性,在专利领域使用来自word2vec Skip-gram的相似单词可以得到轻微改善。

使用潜在语义索引LSI)来处理文档范围内的单词上下文

为了结合LSI和Skip-gram的词汇相似性,有两种方法:

(1)基于使用Retrofitting的LSI诱导词相似性回顾性地适应 Skip-gram 模型产生的向量表示

(2)受Post-Filtering方法的启发,我们根据 lsi 模型的相似性对Skip-gram模型的结果进行过滤

Retrofitting方法学会了一种通用词嵌入(没有每个查询的开销) ,并且不需要行业规模的相关性判断或样本查询。

2 Background

2.1 Retrofitting

核心:根据辅助资源提供的词-词相似性来适应现有词嵌入的向量表示。

目标函数:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cl3VqNcN-1638621758902)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20211204190857199.png)]

实质是来自嵌入和外部词源的原词汇向量与改进词汇向量差的加权和

更新使vt更加靠近vt’

2.2 扩展翻译模型

为一些概率检索模型引入扩展翻译模型,作为翻译语言模型的变种,提供了一种用词嵌入做文档检索的稳健方法。

关于术语的定义,每个术语的 基本概念是从嵌入模型中提取的,基于基本概念形成术语-术语关系。扩展翻译模型不计算术语出现的次数,而是计算术语的概念在文档中出现的次数。

词频tf定义为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mMuZEFKm-1638621758905)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20211204193613356.png)]

相当于某种修正,以翻译概率和相似术语集合修正tf

3 Methodology

重点在于检索所使用的全局上下文的来源和度量,而不是检索模型本身。so提出不同的模型来衡量必要的词语相似性。

SkipGram , LSI:

分别从 word2vec Skip-gram和LSI获得一组相关词,对于每个模型,通过评估参数超过阈值参数来确定词间相似度的阈值。

Retro(*) :

适用于 Skip-gram嵌入的改进。输入可以是任意定义为词汇间相似关系的外部资源。来自

PostFilter(*):滤 skipgram (r (t))的相关词集,剔除外部资源 r * (t)的相关词集中没有出现的词。只考虑两个相关的词汇,只有当 skipgram 和外部模型都包含时才考虑。

ExtRetro(,):和原来的扩展策略相比,使用了两个外部资源。

PFRetro(,) :融合两个外部资源的信息作为最终的相关术语集。它使用Retro(*) 模型结果的第一个输入来应用后过滤器,以优化来自第二个输入资源的结果。

4 Evaluation and Results

与 bm25相比,lm 的总体性能更好;

与无相比,skipgram 和 lsi 方法只有轻微的改进。

语义词汇+词汇相似性无明显改进

PostFilter均显著改善了所有baseline,

我们假设 postfilter (lsi)方法在 map 上的更好性能是由于它的保守性,因为该方法只保留了在 skipgram 和 lsi 单词嵌入中常见的相关单词。然而,retro (lsi)方法在向量表示空间中加入了 lsi 相似性,为单词提供了更广泛的语义相似性范围(有利于recall) ,同时仍然保持映射结果在与基线相同或更高的范围内。

两种方法(ext-retro 和 pf-retro)的性能都不如 retro (lsi)和 postfilter (lsi) ,这表明明确的语义词典不会有助于提高这个领域的有效性

通过与none比检验结果,检测鲁棒性,retro (lsi)和 postfilter (lsi) 鲁棒性好

skip-gram不行,生僻词会造成性能损失。

领域的有效性

通过与none比检验结果,检测鲁棒性,retro (lsi)和 postfilter (lsi) 鲁棒性好

skip-gram不行,生僻词会造成性能损失。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-05 12:02:52  更:2021-12-05 12:04:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 0:33:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码