谷歌训练了一款可在2D图像中识别3D的AI框架，利用移动AR数据

作者：hosmba发布时间：2020-03-12 16:29:56来源：青亭网

谷歌AI团队公布了一种全新的移动端3D识别方案：Objectron，其特点是可通过AI模型，在2D图像中预测物体在场景中的位置、尺寸和方向，可用于机器人、自动驾驶汽车、图像检索、AR等场景。

此外，Objectron的研发团队开发了一种图片标记工具，可以通过分屏视角显示2D视频帧，快速实现对3D边界框的手动标记。这些3D边界框将叠加在点云数据、摄像头画面和识别到的平面上面。

标记者在分屏视角（3D视角）中标记3D边界框后，可以在2D视频帧中进行验证，而对于静态图像，标记者只需在单个帧中进行标记。为了更精准定位目标物体，标记工具还会使用AR session数据中的实际摄像头信息来确定该物体在所有帧中的位置。

接下来为了训练AI模型，谷歌团队使用了移动端AR session数据（包括摄像头图像、稀疏3D点云、预测光线、平面区域等），弥补了移动设备不具备高端3D传感器的难题（市面上大多数3D数据依赖激光雷达等3D传感器，对日常物体的3D标记数据却很少）。

除了真实环境的数据外，还使用了合成的AR数据来提高AI预测准确性。为提高合成数据的质量（提升了10%准确性），谷歌研发了一个AR合成数据生成方案（AR Synthetic Data Generation），特点是可通过调整摄像头角度、识别平面、预测的光线数据，来生成符合物理规则的3D位置信息，以及符合场景的光线，让融入在具有AR session数据的场景中的虚拟物体看起来更自然。

同时，谷歌表示：由于SoC等硬件设备局限，用手机等移动设备识别3D目标是一个棘手的问题，而在2D视频、图片中识别物体的3D信息更是难上加难（由于缺乏深度数据，以及画面复杂性等因素），通常只能识别和标记2D信息。

因此利用开源跨平台框架MediaPipe，Objectron可实现在旗舰级移动设备中实时标记3D边界框的任务，比如在搭载Adreno 650移动图形芯片的LG V60 ThinQ、三星Galaxy S20+、索尼Xperia 1 II等手机上，刷新率约可达26fps。

　　环视天下声明：HOSSKY网站登载或转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

行业资讯热点

成功案例
VR直播 VR视频 VR漫游 VR虚拟建模
服务体系
VR直播 VR视频拍摄 VR漫游拍摄 VR虚拟建模 VR直播平台开发 VR交互开发
平台体系
HOSVR平台 VR直播SaaS
产品设备
Nibiru HosCtrl
HOS学院
行业资讯 技术前沿 搜索
关于我们
环视天下 企业资质 公司动态 城市合伙人 联系我们
010-86468725

微信公众号

新浪微博

国内专业VR直播技术服务提供商

京ICP备17026059号 | 京公网安备 11010502034123号 | 京网文[2017]9833-1129号 | 增值电信业务经营许可证京B2-20180301