[人工智能] [LiteratureReview]A survey of image semantics-based visual simultaneous localization and mapping....

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> [LiteratureReview]A survey of image semantics-based visual simultaneous localization and mapping.... -> 正文阅读

[人工智能][LiteratureReview]A survey of image semantics-based visual simultaneous localization and mapping....

[LiteratureReview]A survey of image semantics-based visual simultaneous localization and mapping: Application-oriented solutions to autonomous navigation of mobile robots
出处：International Journal of Advanced Robotic Systems 2020（ IF = 1.714/Q4，算是和 Robotica一个等级的），Citations：24；作者主要来自东北电力大学，挂了一个澳大利亚伍伦贡大学的老师（材料领域），作者均不是SLAM领域研究者。

Paper：https://journals.sagepub.com/doi/pdf/10.1177/1729881420919185

简述：语义VSLAM综述性论文，正文13面，参考文献117篇；（首先简述这个领域的优点）VSLAM本身受限于对于图像几何特征的理解，相比之下，语义VSLAM针对higt-level的环境感知可以有效应用位姿估计、闭环检测、构建3D地图等等；（再谈谈自己的工作）论文对语义VSLAM最新的工作进行了论述，主要包括：感知、鲁棒性和准确性等方面的处理方法，并初步提出：“semantic extractor" 的概念和“modern visual simultaneous localization and mapping”的框架；作者认为 多尺度地图表示（multiscaled map representation，是指更高high-level的map）、ObjectSLAM、和深度学习的SLAM是解决图像语义融合的有效方法。

Note：文章还注明了，2019年10月5号接收到论文，2020年2月23号接收发表的；比RAL的三个月时间稍微长一些。

1. Introduction

该部分就正常介绍SLAM在一些应用场景下的作用、SLAM的历史、VSLAM和CV融合的趋势；其次引用了16年的那篇TRO"Past, present, and future of simultaneous localization and mapping: toward the robust-perception age"谈谈VSLAM在第三个阶段的重点方向，如图2；然后给了表1列举了SLAM的主要综述；最后谈到自己文章的outline。

请添加图片描述

2. The components of a semantic SLAM system

作者将语义SLAM系统分为两块：语义提取器和现代V-SLAM框架，并将语义信息的提取分为：目标检测和语义分割。

2.1 Semantic extractor

Object detection和Semantic segmentation相比，Object detection轻量级；Semantic segmentation获取的是像素级的分类，精度更高。

Object detection：这里谈到2D 的Object detection的发展，Yolo系列的速度可以适配到SLAM系统。

请添加图片描述

Semantic segmentation：同上。

请添加图片描述

2.2 Modern V-SLAM system

作者认为“Modern V-SLAM system”分为以下几个部分：

传感器数据采集：这里特指图像；
VO：通过图像序列中的相邻帧初步估计机器人的姿态和路标位置；
状态估计：利用VO和闭环检测提供的融合结果对状态进行全局估计；
重定位：当跟踪失败或地图重新加载时重新定位；
回环检测：确定机器人是否回到之前的位置。
建图：根据任务的要求进行映射。

请添加图片描述

数学上，前端任务和后端任务可以分别抽象为“数据关联”问题和“状态估计”问题。

前端数据关联：这是介绍了概率模型描述匹配的不确定性。

请添加图片描述

后端状态估计：这里介绍了滤波法和现在的优化法（BA）。

Open-source V-SLAM system ：常用的VSLAM系统：

请添加图片描述

3. Human–robot–environment interaction: Perception

作者认为语义SLAM的感知应该包括两个部分：理解环境和理解人类；一下是语义SLAM地图的部分工作

请添加图片描述

3.1 Semantic map

语义地图可以分为：object level 和pixel level。这一点挺有意思的，并且我认为以后的趋势的object level和pixel level的融合。

3.2 Open problems

Time-varying semantic map：语义地图对长期鲁邦定位适应性较差，一个理想的解决方案是建立一个时变语义映射，建立场景中物体的时空关系模型。
Panoptic semantic map：对视野内所有物体进行描述”including everything visible in one view”；全景分割 - 图片内的每个像素都必须分配 semantic label 和 instance id。