该团队正在研究现代计算机视觉技术是否能够与人类在现实世界,无约束情境中识别身体表情的认知能力相匹配。如果是这样,研究人员表示,这些功能可能会在信息管理和检索,公共安全,病人护理和社交媒体等领域实现大量创新应用。
“未来的计算机和机器人将与更多人进行互动,”信息科学与技术学院(IST)教授,研究团队成员James Wang说。“今天的计算机在很大程度上只是遵循命令。未来,机器人和计算机将更像人类的合作伙伴并一起工作。为此,他们需要了解自己的情绪。”
IST博士候选人Yu Luo与王和其他教师一起工作,处理了大量的电影剪辑,并建立了超过13,000个人物角色的数据集,近10,000个身体动作。根据研究人员的研究,研究表明,在识别人类情感时,人体可能比面部更具诊断性。
“心理学这个词被称为'社会编辑',”罗说。“人们可以用它来操纵他们的面部表情,但是控制他们的身体要困难得多。身体语言投射出不同的情感。”
接下来,研究人员使用计算机视觉方法在场景中的不同帧中定位和跟踪每个人,最终在具有唯一ID号的剪辑中标记每个人。最后,研究人员利用众包的人类注释器来审查电影剪辑,并确定26个分类情绪中的每个人的情感,即和平,感情,自尊,期待,参与,信心,快乐,快乐,兴奋,惊喜,同情,困惑,断绝,疲劳,尴尬,向往,不赞成,厌恶,烦恼,愤怒,敏感,悲伤,不安,恐惧,痛苦和痛苦,以及情感的三个维度,即效价,唤醒和支配。
“我们发现根据肢体语言解释情绪很复杂,”王说。“我们正在努力理解许多细微之处。即使是人类也存在许多不一致之处。
“在解释情绪方面,人们并不认同对方,”他补充道。“你可能认为一个人很开心,我可能认为他们很兴奋,也许我们两个都是正确的。通常没有基本事实,这使得数据驱动建模极具挑战性。”
一旦研究人员构建了数据集并为每个人应用了人类感知的情感注释,他们就会使用最先进的统计技术来验证其质量控制机制,并彻底分析其验证数据标签的共识水平。此外,他们从人类骨骼和图像序列构建了自动情绪识别系统。具体而言,深度学习技术和手工制作的基于拉班运动分析的功能证明了该任务的有效性。
他们发现计算机模型能够以高精度识别唤醒,或者体验感觉如何充满活力。然而,研究人员还发现人类在识别效价方面比计算机更好 - 经验感觉是消极的还是积极的。
目前的结果是通过IST学院的种子资助实现的,并且正在进行的研究得到亚马逊研究奖计划的最新奖项的支持。该团队最近还获得了国家科学基金会的一项规划项目,旨在建立一个社区,以开发将用于本研究的数据基础设施。
王和罗与其他宾夕法尼亚州立大学的研究人员一起参与了这个项目,其中包括叶剑波,IST学院的前博士生和实验室同伴; Reginald Adams和Michelle Newman,心理学教授; 和统计学教授贾莉。最近提交了临时专利申请,该工作将在即将出版的“ 国际计算机视觉期刊”上发表。
“这一研究领域的进入壁垒相当高,”王说。“你必须使用心理学方面的知识,你必须开发和整合数据科学方法,你必须使用统计建模来正确收集情感数据。这表明我们在这个重要的信息子领域处于科学和技术的最前沿。 “