谷歌发布Objectron数据集，推进三维物体几何理解的极限

2020-11-12 09:31:16 google 94130631

谷歌人工智能实验室近日发布 Objectron 数据集，这是一个以3D目标为中心的视频剪辑的集合，这些视频剪辑从不同角度捕获了较大的一组公共对象。数据集包括 15K 带注释的视频剪辑，并补充了从地理多样的样本中收集的超过 4M 带注释的图像（覆盖五大洲的 10 个国家）。

机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果，但仅仅是通过在2D照片上训练模型而已。

在这些成功的基础上，提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景，如增强现实、机器人、自动化和图像检索。

今年早些时候，谷歌发布了 MediaPipe Objectron，一套为移动设备设计的实时 3D 目标检测模型，这个模型是基于一个已标注的、真实世界的 3D 数据集，可以预测物体的 3D 边界。

然而，理解3D 中的对象仍然是一项具有挑战性的任务，因为与2D 任务(例如，ImageNet、 COCO 和 Open Images)相比，缺乏大型的真实世界数据集。

为了使研究团体能够继续推进3D 对象理解，迫切需要发布以对象为中心的视频数据集，这些数据集能够捕获更多的对象的3D 结构，同时匹配用于许多视觉任务(例如，视频或摄像机流)的数据格式，以帮助机器学习模型的训练和基准测试。

近期谷歌发布了 Objectron 数据集，这是一个以对象为中心的短视频剪辑数据集，从不同的角度捕捉了一组更大的普通对象。

新资源网络