一种名为 Lp-Convolution 的新型受大脑启发的 AI 方法通过动态重塑 CNN 过滤器来增强图像识别,将生物真实感与改进的性能和效率相结合。
IBS-延世大学研究团队在 ICLR 2025 上推出了一种新颖的 Lp 卷积方法。
来自延世大学基础科学研究所 (IBS) 和马克斯普朗克研究所的研究团队开发了一种新的人工智能 (AI) 技术,使机器视觉更接近人脑处理视觉信息的方式。这种方法被称为 Lp-Convolution,它提高了图像识别系统的准确性和效率,同时也降低了传统 AI 模型的计算需求。
人脑擅长在复杂的视觉场景中快速识别重要特征,这是传统 AI 系统难以达到的效率水平。卷积神经网络 (CNN) 是最常用的图像识别模型,它使用小型固定的方形过滤器分析图像。虽然这种设计在一定程度上有效,但限制了它们在碎片化或可变数据中检测更广泛模式的能力。
Vision Transformers (ViTs) 最近通过同时评估整个图像而优于 CNN。然而,他们的成功是有代价的,他们需要巨大的计算能力和庞大的数据集,这使得它们不太适合实际的大规模部署。
在实际大脑的视觉皮层中,神经元围绕一个中心点广泛而平滑地连接,连接强度随着距离 (a, b) 而逐渐变化。这种空间连接遵循被称为“高斯分布”的钟形曲线,使大脑不仅能够整合来自中心的视觉信息,还能够整合来自周围区域的视觉信息。相比之下,传统的卷积神经网络 (CNN) 通过让神经元聚焦在固定的矩形区域(例如 3×3、5×5 等)来处理信息。(c, d) 的CNN 过滤器以规则的间隔在图像上移动,以统一的方式提取信息,这限制了它们捕捉远处视觉元素之间关系或根据重要性选择性响应的能力。学分:基础科学研究所
受到大脑视觉皮层如何通过循环、稀疏连接选择性地处理信息的启发,研究小组寻求了一个中间立场:类似大脑的方法能否使 CNN 既高效又强大?
为了回答这个问题,该团队开发了 Lp-Convolution,这是一种使用多元 p 广义正态分布 (MPND) 动态重塑 CNN 过滤器的新方法。与使用固定方形过滤器的传统 CNN 不同,Lp-Convolution 允许 AI 模型调整其过滤器形状,根据任务水平或垂直拉伸,就像人脑选择性地关注相关细节一样。
这一突破解决了 AI 研究中一个长期存在的挑战,即大内核问题。尽管添加了更多参数,但简单地增加 CNN 中的过滤器大小(例如,使用 7×7 或更大的内核)通常不会提高性能。Lp-Convolution 通过引入灵活的、受生物启发的连接模式来克服这一限制。
在标准图像分类数据集(CIFAR-100、TinyImageNet)上的测试中,Lp-Convolution 显著提高了 AlexNet 等经典模型和 RepLKNet 等现代架构的准确性。事实证明,该方法对损坏的数据具有高度的鲁棒性,这是实际 AI 应用中的一个主要挑战。
此外,研究人员发现,当他们方法中使用的 Lp 掩码类似于高斯分布时,AI 的内部处理模式与生物神经活动密切相关,这与小鼠大脑数据的比较证实了这一点。
大脑使用高斯形连接结构处理视觉信息,该结构从中心逐渐向外传播,灵活地整合广泛的信息。相比之下,传统 CNN 面临扩大过滤器大小会稀释信息或降低准确性 (d, e) 的问题。为了克服这些结构限制,研究小组开发了 Lp-Convolution,其灵感来自大脑的连接性 (a-c)。这种设计在空间上分配权重,即使在大的感受野中也能保留关键信息,有效地解决了传统 CNN 的缺点。图片来源:基础科学研究所
“我们人类很快就会在拥挤的场景中发现重要的东西,”基础科学研究所认知与社会中心主任 C. Justin LEE 博士说。“我们的 LP-Convolution 模仿了这种能力,使 AI 能够灵活地专注于图像中最相关的部分,就像大脑一样。”
与以前依赖小型刚性滤波器或需要大量资源的变压器不同,Lp-Convolution 提供了一种实用、高效的替代方案。这项创新可能会彻底改变以下领域:
自动驾驶,AI 必须实时快速检测障碍物
医学成像,通过突出细微细节来改进基于 AI 的诊断
机器人技术,在不断变化的条件下实现更智能、适应性更强的机器视觉
“这项工作对人工智能和神经科学都做出了巨大贡献,”主任 C. Justin Lee 说。“通过将 AI 与大脑更紧密地结合在一起,我们释放了 CNN 的新潜力,使它们更智能、适应性更强、生物学更真实。”
展望未来,该团队计划进一步完善这项技术,探索其在复杂推理任务中的应用,例如解谜(例如数独)和实时图像处理。