IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Pre-training is a Hot Topic: Contextualized Document Embeddings -> 正文阅读

[人工智能]Pre-training is a Hot Topic: Contextualized Document Embeddings

Pre-training is a Hot Topic: Contextualized Document Embeddings

Improve Topic Coherence

基本信息


  • 题目: Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence

  • 作者: Federico Bianchi Bocconi University

  • 期刊: ACL

  • 时间: 2021

  • 链接: https://arxiv.org/pdf/2004.03974.pdf

摘要


主题模型从文档中提取单词组,将其解释为主题有望更好地理解数据。然而,由此产生的词组往往不连贯,使它们更难解释。最近,神经主题模型在整体一致性方面有了改善。与此同时,上下文嵌入也在总体上推进了神经模型的发展。在本文中,我们将情境化表示与神经主题模型相结合。我们发现,我们的方法比传统的袋词产生了更有意义和连贯的主题词语。我们的研究结果表明,未来语言模型的改进将转化为更好的主题模型。

研究动机&解决的问题

主题模型往往是基于词袋模型表示为文章的输入,词袋模型往往会忽略词句之间的语法以及语义。而且Bow模型本事就不是一种连贯的输入,本文提出将NLP中的预训练模型引入主题模型可以显著的提高主题的连贯性。

方法


主要有两部分组成:

  1. Neural Topic Model使用ProdLDA

  2. 使用SBERT的embed表示

模型的架构如上图表示,其中从Context Vector从Embedding映射到 ∣ V ∣ |V| V维的向量,最后和Bow向量进行拼接。

实验结果

1、 主题定性衡量:

三个指标:NMPI ( τ \tau τ)、External word embeddings topic coherence( α \alpha α考察在Word Embedding上主题词之间的相似性 计算词向量的余弦相似度)和Inversed Rank-Biased Overlap(不同主题的相似性)

在这里插入图片描述

  1. 使用不同的预训练模型:Ours-R : SBERT Ours-B:Bert 用SBERT比较好

在这里插入图片描述

创新点在哪里

用预训练模型解决了神经主题模型文档使用词袋向量的不足。实验结果表明加入预训练的文档表示确实对提升主题模型的连贯程度有很大的帮助。

结论


文章讲了什么?有哪些不足?有什么创新?…

重要的文献


文章引用的文献可为今后科研写作提供参考的、有价值的参考文献。

  1. Auto encoding variational inference for topic models

  2. Sentence-BERT: Sentence embeddings using Siamese BERT-networks

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-04 11:12:44  更:2021-08-04 11:15:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 15:21:11-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码