大多数机器人必须经过编程才能执行特定的重复性任务 - 从制作咖啡和披萨到提供高五。但是,如果机器人可以随着时间的推移而改善,就像幼儿将不稳定的步骤变成自信的冲刺一样。
这是两名南加州大学研究人员的目标,他们建造了一个3腱,2关节机器人肢体,可以教会自己如何通过反复试验。“我们希望对大脑和身体进行逆向工程,并创造出令人敬畏的机器人,”生物医学工程教授兼生物运动与物理治疗教授Francisco Valero-Cuevas博士说。
他和USC Viterbi工程学院的博士生Ali Marjaninejad刚刚发表了一篇关于他们工作的论文,该论文封面于3月号的Nature Machine Intelligence。我们在出版之前与他们交谈过; 这里是我们对话的编辑和简要摘录。
你能解释一下你的新机器人肢体是如何“学会”走路的吗?
[Ali Marjaninejad]我们将此算法称为General-to Specific或G2P,因为我们首先让系统随机播放以内化腿的一般属性,如儿童[学走路]。然后,每当它接近给定任务的良好表现时,我们就给予奖励。在这种情况下,向前移动跑步机。这被称为强化学习,因为它类似于动物对积极强化的反应方式。
请告诉我们这个实验,它使用一种叫做电动潺潺声的东西,就像新生小马一样“弄清楚”如何尽快跑去避开掠食者?
[上午]这个过程分为两步:首先是唠叨,然后是表演。但更详细地说,这会产生有趣的后果。首先,它可以快速学习足够好的解决方案 - 就像需要尽快走路的小马一样。在另一个层面上,电动机唠叨类似于动物如何训练神经系统的下部部分,例如脊髓,这直接控制肌肉。因此,bab呀学语可以创建一个预调谐系统,然后“高级”控制器就可以使用 - 就像你的大脑使用脊髓来控制你的身体一样。如果将这两者结合起来,那么即使不是很好,机器人也会学会快速行走。随后,该算法将继续改进如何利用系统的复杂动态。每次执行任务时,它都会继续学习如何提高性能,就像你和我一样。
这与现有的机器人控制器有很大不同吗?
[AM]是的。这与今天机器人的控制方式形成鲜明对比,主要依靠精确的方程式,复杂的计算机模拟或数千次重复来完善任务。大自然没有这种奢侈的时间; 动物需要快速学习,做好事情才能再活一天。
肢体如何创建一个“神经网络”,以便知道如何移动?
[AM]算法的内部部分是将学习编码为简单的3层神经网络的连续训练。在bab呀声阶段,系统会向电机发送随机指令并检测关节角度。然后,它将训练3层神经网络以猜测哪些命令将产生给定的运动。然后我们开始执行任务并强化良好行为。即使这样,每次执行任务时的电机命令和关节角度 - 即其“经验” - 将用于细化该神经网络的权重。
这个肢体也有肌腱,对吧?就像人类一样?
[博士 Francisco Valero-Cuevas]的确如此。大多数机器人系统使用直接旋转它们的马达来控制腿和臂的关节。大自然没有那种奢侈,因为它必须通过肌腱在远处作用。因此,生物肢体的物理,力学和数学与传统机器人的基本不同。因此,我们想要探索这些“复杂”解剖学的内容,这些解剖学允许动物的多功能性和敏捷性,我们希望我们的机器人能够拥有它。我们选择控制这种生物启发的腿,因为只有这样我们才能面对大脑所面临的实际问题才能产生运动。