微信
邮箱

contact@speechocean.com

留资
TOP
3D数据将为深度学习带来更广阔的想象空间
2021.04.27

随着大规模标注数据的发展,近年来深度学习技术在语音、语言、图像等领域都取得了长足的进步,尤其是在计算机视觉领域,海量的2D图像数据极大地提高了深度学习模型的性能,使其在多个场景成功落地。


然而,在自动驾驶、机器人、AR、医疗等应用中,仅仅依靠2D图像数据无法实现对距离、姿态等空间信息的需求,因此需要利用3D数据来提供位置、形状和几何信息。通过3D传感器获取3D数据也成为这些领域取得关键性突破的首选。


自动驾驶中,准确识别和精确定位人、车、物等交通对象是车辆在复杂动态环境中能够进行可靠导航、信息决策以及安全驾驶的关键。为确保上述两个任务的顺利开展,无人驾驶车辆通常需要配备多种传感器,例如相机、LiDAR。


基于相机捕获的图像数据,能够低成本高效率的识别出交通对象的信息,是感知任务中的常用手段;利用LiDAR提供的密集、准确的3D点云数据,能精确的估计自车以及其他交通对象的位置和距离信息,这是实现安全驾驶的关键所在。此外,由于LiDAR对光线变化不敏感,因此,将2D和3D数据相结合,可有效避免诸如夜晚、雨雪天气等恶劣光线环境造成的错误决策。


1.jpg

3D雷达点云数据标注示例


在人体姿态预测方面,3D数据可有效解决密集人群、运动、遮挡等一系列具有挑战性的任务;即使在已经相对成熟的人脸识别领域,利用3D点云辅助2D图像对活体检测及识别准确率都将带来一定程度的提升,进一步挖掘了人脸识别的发展潜力。


从上面的示例中可以看出,在自动驾驶、运动追踪等诸多应用中,3D数据不仅能促进计算机视觉领域中一些关键技术的突破,还因为多维度信息的存在而意味着更多的可能性。目前,虽然3D采集技术已经逐步趋于常规化,然而数据资源的匮乏仍然是3D数据在深度学习中进一步发展的阻碍之一。海天瑞声作为在人工智能数据领域深耕16年的服务商,业务覆盖智能语音、自然语言理解、计算机视觉等AI全核心领域,对业务场景需求的理解能力一直走在行业前沿,在3D数据服务方面也具备显著优势:


首先,3D数据的采集需要有专业的设备支持。海天瑞声早在5年前,就开始引入用于人体扫描、动作捕捉、空间扫描等诸多场景的3D数据采集设备,为用户的3D物体检测及追踪、3D形状分类等项目提供数据支持,也积累了丰富的项目经验;


其次,即使通过项目经验丰富的人员和专业的设备采集到了符合要求的3D数据,在数据处理阶段,3D也远比2D的标注复杂的多。不仅要求标注人员熟悉项目背景、应用场景、拥有极佳的空间感知能力,还需要基于大量3D数据处理经验进行空间上的判断,以将误差降至最低。海天瑞声通过专业的理论知识培训、一对一指导以及大量过往真实案例练习测试,培养出一批专业能力强、效率高的标注人员;


2.jpg

3D人体数据标注示例


最后,海天瑞声还拥有自主知识产权的3D数据集,可供客户直接用于机器学习。其中内部编号为King-IM-072的数据集,包含1000人3D人脸和1000人3D人体姿态数据,性别、年龄比例均衡,包含被采集人多种姿态及表情,采集设备的测量精度在亚毫米级别,人体模型的三角面片数量大于40万,人脸模型的三角面片数量大于12万,每个人脸模型配备一段ARKit视频,提供每一帧对应的3D Mesh, blendshape系数,相机参数,人脸pose信息(yaw, roll, pitch, scale, translation)等,可满足3D人脸识别、活体检测、3D人体姿态检测追踪等多个商业场景需求。


关于我们

 

海天瑞声作为人工智能数据资源及数据服务供应商,致力于为用户提供工程化数据资源,以及数据采集与数据处理等服务。业务覆盖语音识别、语音合成、计算机视觉、自然语言处理、发音词典等技术领域。

 

联系我们


电话咨询:010-62660053

邮件咨询:contact@speechocean.com

 


电话
留资
会员