AI 系统仍然难以理解动态的社交互动,由于这些模型处理复杂现实世界场景的方式受到限制,远远落后于人类的能力。
约翰霍普金斯大学研究人员最近领导的一项研究表明,人类在准确描述和解释动态场景中的社交互动方面优于当前的 AI 模型。这种能力对于自动驾驶汽车和辅助机器人等技术至关重要,这些技术严重依赖 AI 来安全地导航现实世界环境。
该研究强调,现有的 AI 系统难以掌握与人有效互动所必需的细微社会动态和背景线索。此外,研究结果表明,这种限制可能从根本上源于当前 AI 模型的底层架构和基础设施。
“例如,自动驾驶汽车的 AI 需要识别人类驾驶员和行人的意图、目标和行为。你会希望它知道行人即将开始走哪个方向,或者两个人是正在交谈还是即将过马路,“约翰霍普金斯大学认知科学助理教授、主要作者 Leyla Isik 说。“任何时候你都希望 AI 与人类交互,你希望它能够识别人们在做什么。我认为这揭示了这些系统现在不能的事实。
Kathy Garcia 是研究时在 Isik 实验室工作的博士生,也是共同第一作者,她最近在 4 月 24 日的学习表征国际会议上介绍了研究结果。
为了确定 AI 模型与人类感知相比如何,研究人员要求人类参与者观看 3 秒的视频剪辑,并以 1 到 5 的等级对理解社交互动很重要的特征进行评分。这些剪辑包括人们相互互动、进行并排活动或自己进行独立活动。
然后,研究人员询问了 350 多个 AI 语言、视频和图像模型,以预测人类将如何判断视频以及他们的大脑对观看的反应。对于大型语言模型,研究人员让 AI 评估简短的人工编写字幕。
参与者在很大程度上对所有问题都达成了一致;AI 模型,无论大小或训练数据如何,都没有。视频模型无法准确描述人们在视频中做什么。即使是被赋予一系列静止帧进行分析的图像模型也无法可靠地预测人们是否在交流。语言模型更擅长预测人类行为,而视频模型更擅长预测大脑中的神经活动。
研究人员表示,这些结果与 AI 在读取静止图像方面的成功形成了鲜明对比。
“仅仅看到图像并识别物体和面孔是不够的。这是第一步,让我们在 AI 领域取得了长足的进步。但现实生活并不是一成不变的。我们需要 AI 来理解场景中正在展开的故事。了解社交互动的关系、背景和动态是下一步,这项研究表明 AI 模型开发可能存在盲点,“Garcia 说。
研究人员认为,这是因为 AI 神经网络的灵感来自大脑中处理静态图像的部分的基础设施,这与大脑中处理动态社交场景的区域不同。
“有很多细微差别,但最大的收获是,没有一个 AI 模型可以像静态场景那样全面匹配人脑和行为对场景的反应,”Isik 说。“我认为人类处理场景的方式有一些基本的东西是这些模型所缺少的。”
会议:学习表征国际会议
资金: 美国国家科学基金会、美国国家科学基金会、NIH/美国国家心理健康研究所