Facebook 实现人工智能“三维理解” 增强现实能更进一步?
算法可以从照片中提取二维物体,并在三维中忠实地呈现它们。这种技术可以适用于增强现实的应用程序、
Facebook 在一篇博客文章中强调了其在智能内容理解方面的最新进展。据透露,它的系统甚至可以用来检测复杂的前景和背景对象,如椅子腿或重叠的家具。
“我们研究的最新进展是建立在利用深度学习来预测和定位图像中的物体,以及用新的工具和架构来理解三维形状,如体素、点云和网格,”Facebook 的研究人员 Georgia Gkioxari、Shubham Tulsiani 和 David Novotny 在一篇博客中写道。“三维理解将在提高人工智能系统,更贴近地理解、解释和操作现实世界的能力方面发挥核心作用。”
其中一个亮点是 Mesh R-CNN,这是一种能够从杂乱和遮挡物体的图像中预测三维形状的方法。
Facebook 的研究人员表示,他们在开源的 Mask R-CNN 的二维目标分割系统上增加了一个网格预测分支,并使用一个包含高度优化的三维操作符的库(Torch3d),来进一步支持该系统。Mesh R-CNN 有效地利用了 Mask R-CNN 对图像中不同的物体进行检测和分类,然后利用上述的预测器对三维形状进行推断。
Facebook 表示,在公共可用的 Pix3D 语料库上进行评估后,Mesh R-CNN 成功地检测到所有类别的物体,并在家具场景中估计它们的完整三维形状。在一个单独的数据集上(ShapeNet),Mesh R-CNN 比之前的研究有 7%的相对优势。
Facebook 开发的另一个系统是 Canonical 3D Pose Networks,简称为 C3,解决了网格和相应图像无法用于训练的情况。建立三维关键点模型重建,利用二维关键点监控实现最先进的重建结果。(这里的关键点指的是被跟踪的物体部分,它们提供了一组关于几何图形及其视角变化的线DPO 利用重建模型预测相应摄像机视点参数和三维关键点位置。辅助组件与模型一起学习,以解决在分解三维视点和形状时引入的模糊性。
Facebook 指出,这种重建在以前是可以实现的,部分原因是内存限制。C3DPO 体系结构可以在硬件无法捕获的情况下进行三维重建,比如对大型的对象。
视觉有许多开放的研究问题,我们正在试验多种问题陈述、技术和监督方法,以探索推动该领域向前发展的最佳方式,就像我们在二维理解领域所做的那样,”Gkioxari、Tulsiani 和 Novotny 表示。“随着数字世界适应并转向使用 3D 照片、沉浸式 AR 和 VR 体验等产品,我们需要不断推动复杂的系统更准确地理解视觉场景中的对象并与之互动。”(责任编辑:DF515)