美国麻省理工学院(MIT)以Kimera数据库为基础,结合了3D几何建模与3D语义网面模型,打造了一套全新的3D动态场景图模型(3D Dynamic Scene Graphs)。机器人可透过这套模型模拟人类观察环境的方式,提升对周遭空间的感知能力。
MIT研究团队认为,要使机器人听从较高端的指令,首先得让机器人以人类的方式观察周遭环境,于是研究团队利用开放源码的Kimera数据库,打造出一套名为3D动态场景图的模型,协助机器人迅速生成周遭环境的3D地图,并将环境中的物件与语义标签都包含在内。如此机器人在收到指令后,便能更快下决定并规划路径。
以往机器人的视觉与导航能力主要依赖3D制图与语义分割两种途径。MIT团队先前开发的Kimera数据库,能够同时建构环境的3D几何模型,并将物件依概似(likelihood)编码,研究团队便以此为基础,打造第一个能实时生成3D地图,同时为3D地图中动态的人物、架构注记标签的系统。
Kimera模型可借由摄影机影像及传感器的测量数据,实时重建3D场景。在建立3D语义网面时,Kimera利用了既有的神经网络,预测每个像素的标签,再将标签以光线投射(ray-casting)的方式建立3D网面。
然而如果机器人只依靠Kimera模型执行导航任务,需耗费大量的运算资源与时间,因此研究团队开发出了新的算法,将原本高度密集的Kimera 3D语义网面,拆解成一个个语义阶层,如此机器人就能透过特定的层次,例如物件人物、房间,乃至整栋建筑物,观看周围的场景,不必再经由繁复的3D网面。此外,算法也能实时追踪物件人物层的人物移动与形状。
研究人员指出,机器人学会以人类的方式感知环境后,不论对自驾车、搜救、协作生产、居家机器人,或是AR发展,都能产生相当大的影响。