IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Midge 论文阅读笔记 -> 正文阅读

[人工智能]Midge 论文阅读笔记

在这里插入图片描述

这是2013年一篇研究根据目标检测的输出产生图片的描述的算法的文章。我觉得这个想法放到现在都是新颖可用的,以前的NLP和CV模型没有现在这么强大的拟合能力,提出的方法可解释性都比较高,并不会像现在许多跨模态仅仅是把多个模态的信息想办法送到一个网络里面融合起来这么简单而往往不具备可解释性的方法。

  • 一张图片可以用目标检测类的图像识别算法处理生成三个集合:
    • A集合包含被检测出来的目标,包括目标的检测框和属性
    • B集合包含被检测出来的动作(action or pose)
    • C集合包含上述A集合和B集合中目标之间的关系
  • 一份语言描述同样可以被处理成三个集合
    • A集合为名词集合
    • B集合为动词集合
    • C集合为介词集合
  • 因此可以把图像的ABC集合映射到语言的ABC集合中去。这时候问题变成了如下四点:
    • 如何筛掉错误的检测结果
    • 如何排序目标
    • 如何将这些元素组合成语法树
    • 如何将这些形成一个表述
  • 本文以检测结果对应的名词为基础来生成表述,表述中的形容词、介词等都基于这些名词的最大后验概率进行生成,目的是生成一个最有可能出现这些名词的表述。
  • 训练集Flickr的70w张有description的图片,测试集是PASCAL的840张图片。
  • 首先对数据集中的语句进行预处理,去掉符号,用Berkeley parser 进行句法分解。
  • 然后计算每个名词在句法分解中对应(parsing会将一些冠词和形容词定义为修饰某个名词)的各个冠词和形容词的概率,还有给定名词/动词,每个名词同时出现的条件概率。换句话说,算的条件概率的条件都是名词和动词,也就是某名词/动词出现的条件下,某名词/动词/形容词/冠词出现的概率。
  • 本文同时还做了一些实验对数据集中description进行探究,从而有助于为模型添加先验。首先文章统计了description中每个句子出现实体名词的数量,发现92%的句子不超过3个实体名词。因此当检测器检测到超过3个目标时,模型就把句子拆成多句;然后另一个发现是description中不都是句子,还有一些是短语,因此模型也同时具备预测短语和句子的能力。
  • 两个单词之间的句法分析可以产生5类关系:
    • 介词的主宾关系:a boy on the table
    • 动词的主宾关系:a boy cleans the table
    • 动词+介词 短语的主宾关系:a boy sits on the table
    • 动词+副词 短语的主宾关系:a boy cleans up the table
    • 宾语从句或补语从句的主语与主句的主语之间的关系:a boy sees that the table is clean
  • 文章关注前三种,这三种涵盖了大多数的情况,而且比较简单。
  • 总的来说,模型的大体流程就是前面的CV加后续的NLP,CV部分用行为识别模型和目标检测模型分别在图像上预测出了名词和动词,NLP部分再根据这些名词和动词,利用现有的语法分析依存分析工具,生成一个完整的句子。但测试集上现有的行为识别模型识别效果并不好,没关系,NLP部分也可以利用动词生成把没检测出来的动词给补充上。具体来说,系统分为三个组分:
    • 内容决定模块:聚类并为名词排序,创建局部子树,筛掉误检
    • 构建模块:构建完整语法树
    • 输出模块:从语法树产生有序的句子输出,并在多个输出中挑选最优输出。
  • 未完待续(后续NLP处理部分并不关心了,框架大概是弄明白了)
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-20 18:51:12  更:2022-07-20 18:53:46 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:31:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码