IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Pre-training is a Hot Topic: Contextualized Document Embeddings -> 正文阅读

[人工智能]Pre-training is a Hot Topic: Contextualized Document Embeddings

Pre-training is a Hot Topic: Contextualized Document Embeddings

Improve Topic Coherence

基本信息

题目： Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence
作者： Federico Bianchi Bocconi University
期刊： ACL
时间： 2021
链接： https://arxiv.org/pdf/2004.03974.pdf

摘要

主题模型从文档中提取单词组，将其解释为主题有望更好地理解数据。然而，由此产生的词组往往不连贯，使它们更难解释。最近，神经主题模型在整体一致性方面有了改善。与此同时，上下文嵌入也在总体上推进了神经模型的发展。在本文中，我们将情境化表示与神经主题模型相结合。我们发现，我们的方法比传统的袋词产生了更有意义和连贯的主题词语。我们的研究结果表明，未来语言模型的改进将转化为更好的主题模型。

研究动机&解决的问题

主题模型往往是基于词袋模型表示为文章的输入，词袋模型往往会忽略词句之间的语法以及语义。而且Bow模型本事就不是一种连贯的输入，本文提出将NLP中的预训练模型引入主题模型可以显著的提高主题的连贯性。

方法

主要有两部分组成：

Neural Topic Model使用ProdLDA
使用SBERT的embed表示

模型的架构如上图表示，其中从Context Vector从Embedding映射到 $∣ V ∣$ 维的向量，最后和Bow向量进行拼接。

实验结果

1、主题定性衡量：

三个指标：NMPI （ $\tau$ ）、External word embeddings topic coherence( $\alpha$ 考察在Word Embedding上主题词之间的相似性计算词向量的余弦相似度)和Inversed Rank-Biased Overlap(不同主题的相似性)

在这里插入图片描述

使用不同的预训练模型：Ours-R : SBERT Ours-B:Bert 用SBERT比较好

在这里插入图片描述

创新点在哪里

用预训练模型解决了神经主题模型文档使用词袋向量的不足。实验结果表明加入预训练的文档表示确实对提升主题模型的连贯程度有很大的帮助。

结论

文章讲了什么？有哪些不足？有什么创新？…

重要的文献

文章引用的文献可为今后科研写作提供参考的、有价值的参考文献。

Auto encoding variational inference for topic models
Sentence-BERT: Sentence embeddings using Siamese BERT-networks

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-08-04 11:12:44 更:2021-08-04 11:15:02

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 9:53:54-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码