美国机械工程硕士助理教授Ram Vasudevan说:“这方面的先前工作通常只关注静止图像。它并不关心人们如何在三维空间中移动。”“但如果这些车辆要在现实世界中运行和互动,我们需要确保我们对行人所在位置的预测与车辆下一步的位置不一致。”
为车辆配备必要的预测能力需要网络潜入人类运动的细节:人类步态的速度(周期性),肢体的镜像对称性以及脚部放置在行走过程中影响稳定性的方式。
用于将自动技术引入当前水平的大部分机器学习都处理了二维图像 - 静态照片。一台计算机显示了数百万张停车标志的照片,最终会在现实世界中实时识别停车标志。
但是,通过使用运行几秒钟的视频片段,UM系统可以研究片段的前半部分进行预测,然后通过后半部分验证准确性。
“现在,我们正在训练系统以识别运动并预测不仅仅是一件事 - 无论是否是停车标志 - 而是行人的身体将在下一步和下一步以及下一步和下一步的情况下, “美国密歇根大学海军建筑与海洋工程系副教授Matthew Johnson-Roberson说。
为了解释神经网络可以做出的推断,Vasudevan描述了一个常见的景象。
“如果一个行人正在玩他们的手机,你知道他们会分心,”瓦苏德万说。“他们的姿势和他们正在寻找的地方告诉你很多他们的注意力。它也告诉你很多关于他们下一步能做什么的事情。”
结果表明,这种新系统改进了无人驾驶车辆识别下一次最有可能发生的事情的能力。
“我们预测的中位平移误差在一秒钟后大约为10厘米,在六秒钟后小于80厘米。所有其他比较方法最多可达7米,”约翰逊 - 罗伯森说。“我们更擅长弄清楚一个人的目标。”
为了控制预测下一次运动的选项数量,研究人员应用了人体的物理限制 - 我们无法飞行或步行速度最快。
为了创建用于训练UM神经网络的数据集,研究人员在Ann Arbor的几个十字路口停放了一辆具有4级自主功能的车辆。由于汽车的摄像头和LiDAR面向交叉路口,车辆可以一次记录多天的数据。
研究人员在实验室中捕获了传统姿势数据集中的真实世界“野外”数据。结果是一个系统将提高无人驾驶车辆的能力。
“我们对各种应用和令人兴奋的跨学科合作机会持开放态度,我们希望创造并为更安全,更健康,更高效的生活环境做出贡献,”密歇根大学研究工程师杜晓晓说。