这一转折足以愚弄 ChatGPT——而且可能会夺走生命

2025-09-27
来源:

       当谜题稍有变化时,人工智能可能会误判医学伦理——这表明它仍然缺乏安全驾驭高风险决策的细微差别。图片来源:Shutterstock

像 ChatGPT 这样的人工智能系统可能看起来非常聪明,但西奈山领导的一项新研究表明,它们可能会以令人惊讶的人类方式失败——尤其是在道德推理岌岌可危的情况下。

通过巧妙地调整经典的医学困境,研究人员发现,大型语言模型通常默认使用熟悉或直观的答案,即使它们与事实相矛盾。这些“快速思考”的失败暴露了令人不安的盲点,这些盲点可能会对临床决策产生真正的影响。

人工智能模型可能会在复杂的医学伦理中绊倒

西奈山伊坎医学院的研究人员最近与以色列拉宾医学中心和其他机构的同事合作领导的一项研究发现,即使是当今最先进的人工智能 (AI) 模型在处理复杂的医学伦理问题时也会犯令人惊讶的基本错误。

该结果于 7 月 22 日在线发表在 NPJ Digital Medicine 上,引发了人们对 ChatGPT 等大型语言模型 (LLM) 在医疗保健环境中使用时应该给予多少信任的重要担忧。

受 Kahneman 的启发:快速与慢速思维

该研究以丹尼尔·卡尼曼 (Daniel Kahneman) 的《思考,快与慢》一书中的概念为指导,该书探讨了本能、快速的决策与较慢、更深思熟虑的推理之间的对比。之前的观察表明,当众所周知的横向思维谜题稍加修改时,法学硕士可能会陷入困境。基于这一想法,该研究评估了这些人工智能系统在响应有意改变的医学伦理场景时在快速和慢速推理之间切换的效率。

“人工智能可以非常强大和高效,但我们的研究表明,它可能会默认使用最熟悉或最直观的答案,即使该响应忽略了关键细节,”共同资深作者、西奈山伊坎医学院人工智能与人类健康温德赖希系生成式人工智能主任 Eyal Klang 医学博士说。“在日常情况下,这种想法可能会被忽视。但在医疗保健领域,决策往往会带来严重的伦理和临床影响,错过这些细微差别可能会给患者带来真正的后果。

性别偏见之谜暴露了人工智能的局限性

为了探索这种趋势,研究小组使用创造性的横向思维谜题和稍微修改的著名医学伦理案例相结合的方式测试了几种市售的法学硕士。在一个例子中,他们改编了经典的“外科医生的困境”,这是一个被广泛引用的 1970 年代谜题,突出了隐性的性别偏见。在原版中,一个男孩与父亲在车祸中受伤,被送往医院,外科医生惊呼:“我不能给这个男孩做手术——他是我的儿子!不同的是,外科医生是他的母亲,尽管由于性别偏见,许多人不考虑这种可能性。在研究人员的修改版本中,他们明确指出男孩的父亲是外科医生,消除了歧义。即便如此,一些AI模型仍然回应说,外科医生一定是男孩的母亲。该错误揭示了法学硕士如何坚持熟悉的模式,即使与新信息相矛盾。

道德场景引发熟悉的模式错误

在另一个测试法学硕士是否依赖熟悉模式的例子中,研究人员借鉴了一个经典的道德困境,即宗教父母拒绝为他们的孩子输血挽救生命。即使研究人员改变了场景,声明父母已经同意,许多模型仍然建议推翻不再存在的拒绝。

“我们的研究结果并不表明人工智能在医疗实践中没有立足之地,但它们确实强调了深思熟虑的人类监督的必要性,特别是在需要道德敏感性、细致入微的判断或情商的情况下,”共同资深通讯作者 Girish N. Nadkarni 说,医学博士、公共卫生硕士,温德赖希人工智能与人类健康系主任,哈索普拉特纳数字健康研究所所长Irene 和 Arthur M. Fishberg 博士是西奈山伊坎医学院医学教授,也是西奈山卫生系统的首席人工智能官。“当然,这些工具可能非常有帮助,但它们并非万无一失。医生和患者都应该明白,人工智能最好用作增强临床专业知识的补充,而不是替代它,特别是在做出复杂或高风险的决策时。最终,目标是建立更可靠、更合乎道德的方法,将人工智能整合到患者护理中。

人工智能盲点需要警惕

“对熟悉病例的简单调整暴露了临床医生无法承受的盲点,”主要作者、拉宾医学中心大卫杜夫癌症中心血液学研究所研究员 Shelly Soffer 医学博士说。“这强调了为什么当我们在患者护理中部署人工智能时,人类监督必须保持核心。”

接下来,研究团队计划通过测试更广泛的临床实例来扩展他们的工作。他们还在开发一个“人工智能保证实验室”,以系统地评估不同模型处理现实世界医疗复杂性的能力。

该论文的标题是“医学伦理推理中大型语言模型的陷阱”。

该研究的作者是医学博士雪莉·索弗 (Shelly Soffer);维拉·索林,医学博士;Girish N. Nadkarni,医学博士,公共卫生硕士;和医学博士 Eyal Klang。



分享
下一篇:这是最后一篇
上一篇:这是第一篇