IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【AI周报】腾讯AI Lab等提出免训练跨模态文本生成框架;DeepMind「通才」AI智能体Gato来了 -> 正文阅读

[人工智能]【AI周报】腾讯AI Lab等提出免训练跨模态文本生成框架;DeepMind「通才」AI智能体Gato来了

01?行业大事件

即插即用、无需训练:剑桥大学、腾讯AI Lab等提出免训练跨模态文本生成框架

来自剑桥大学、腾讯?AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP),MAGIC 通过直接插入可控图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。

本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP)框架。该框架可以使用图片模态的信息指导预训练语言模型完成一系列跨模态生成任务,例如 image captioning 和 visually grounded story generation。与其他方法不同的是,MAGIC 框架无需多模态训练数据,只需利用现成的语言模型(例如?GPT-2)和图文匹配模型(例如 CLIP)就能够以 zero-shot 的方式高质量地完成多模态生成任务。此外,不同于使用梯度更新生成模型?cache 的传统方法,MAGIC 框架无需梯度更新,因而具备更高效的推理效率。

论文:https://arxiv.org/abs/2205.02655

代码:https://github.com/yxuansu/MAGIC

借助日益强大的预训练语言模型,我们已经可以根据文本前缀生成一段流利文本。当前,绝大多数工作的主要研究方向集中于利用文本模态的前缀来生成后续文本的方法。然而,如何有效利用其他模态的信息(例如图片)来指导预训练语言模型生成高质量的文本,仍然是一个待解决的难题。

目前,针对此类问题最常见的解决思路是在收集好的高质量多模态平行数据的基础上,训练多模态的模型来完成特定的跨模态任务。例如,我们可以在图文匹配的标注数据集上,通过监督学习的方法训练 image captioning 模型,从而根据输入图片生成对应的文本描述。

但是,该方法存在标注数据获取困难的弊端,并不适合所有应用场景。为了解决这一难题,许多研究者提出了一系列弱监督的方法。而这类方法也有其弊端,它们会受到不同多模态任务的特定限制。例如,在 image captioning 任务中,弱监督的方法需要使用特定的目标检测器,来收集图片内可识别目标的标签信息。然而,当图片中包含目标检测器无法识别的物体 (out-of-domain object) 时,弱监督方法的有效性就会大打折扣。

为了摆脱对目标检测器的依赖从而真正实现 zero-shot 跨模态文本生成,ZeroCap[1]提出在推理阶段通过梯度更新的方式修正生成语言模型内部的隐状态,从而使生成的文本描述和图片内容尽可能接近。但是,这一方法也有其弊端,通过多次迭代梯度更新来调整模型的内部隐状态,在当前预训练语言模型参数量越来越大的趋势下,其运行效率会变得越来越低,严重限制了该方法在实际场景中的应用。

本文提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。

DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发

在写文章、画图之后,AI 大模型现在又同时有了打游戏的能力。不禁在想,DeepMind 的智能体 Gato 未来还能玩出哪些花活?

假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。

今日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

论文地址:

https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。

Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。

为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。

UCL 计算机系教授汪军告诉机器之心,DeepMind 的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起,虽然技术思路上沿用了前人的方法,但能将 CV、NLP 和 RL 这三个不同模态映射到同一个空间,用一套参数表达,是非常不容易的。

其积极意义在于,证明了 CV、NLP 和 RL 的结合是切实可行的,通过序列预测能够解决一些决策智能的问题。考虑到 Gato 模型目前的参数量只能算中等,接下来继续往这个方向探索,构建更大的模型,将会有非常大的意义。

不过,Gato 大模型的 RL 部分只采用了监督学习方法,并未触及强化学习真正的核心——reward 设计机制,目前的任务中也没有多智能体决策的问题。汪军教授表示,他的团队近期在决策大模型上做了很多探索,包括证明多智能体决策也可以是序列模型,相关成果将于近期公布,欢迎大家关注。

02?程序员专区

PHP 8.1.6 发布

PHP最新版本已更新至8.1.6,这是错误修复版本,修复了大量的Bug,例如修复了不再识别的注册表设置、修复资源ID分配时潜在的race condition.

.NET 7 的第四个预览版发布

5月10日,.NET官方博客发布.NET 7第四个预览版,该版本增强了OpenTelemetry在.NET实现中的可观察性,增加了跟踪日期和时间结构中的微秒和纳秒的属性,用于缓存扩展的新指标,提高性能的 "on stack replacement",与.tar档案一起工作的API,以及提高.NET 7的正则表达式性能等功能.

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-15 11:35:23  更:2022-05-15 11:36:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:19:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码