这个人工智能不是医生，但它的医学诊断非常准确

AI资讯 2026-01-28 12:10:42 寇璐爽

在过去十年的大部分时间里，各种研究小组一直在取笑人工智能医生的想法。去年12月底，谷歌和DeepMind的计算机科学家推出了他们的人工智能临床医生版本，该版本可以使用一种名为PaLM的大型语言模型，根据患者的症状诊断他们的医疗状况。

根据该组织发表的预印本论文，他们的模型在包含美国医疗执照考试问题的基准测试中得分为67.6%，他们声称该测试比以前最先进的软件高出17%。它的一个版本的性能与人类临床医生相似。但是，这个算法和其他类似算法有很多警告。

以下是关于该模型的一些简单事实：它在一个包含3000多个常见搜索医学问题的数据集上进行了训练，以及其他六个现有的医学问题和答案开放数据集，包括医学检查和医学研究文献。在测试阶段，研究人员将两个版本的人工智能的答案与人类临床医生进行了比较，并评估了这些回答的准确性、真实性、相关性、帮助性、与当前科学共识的一致性、安全性和偏见。

谷歌Chrome的软件工程师阿德里安娜·波特·费尔特在推特上指出，他没有参与论文回答医学问题类似于人类临床医生的模型版本解释了“指令提示调整”的附加功能，这是一个费力且无法扩展的人类过程这包括以特定的方式仔细调整问题的措辞，使人工智能能够检索正确的信息。

[相关：谷歌正在对其提供健康信息的方式进行重大更新]

研究人员甚至在论文中写道，他们的模型“表现令人鼓舞，但仍不如临床医生”，该模型的“[对医学背景的理解”、知识回忆和医学推理随着模型规模和指令提示的调整而提高例如，与人类相比，人工智能的每个版本都错过了重要信息，并在答案中包含了不正确或不适当的内容。

语言模型在解析更加复杂和大量的信息方面变得越来越好。他们似乎可以胜任需要科学知识和推理的任务。包括SciBERT和PubMedBERT在内的几个小型模型已经突破了语言模型的界限，以理解充满行话和专业术语的文本。

但是在生物医学和科学领域，有复杂的因素在起作用，还有许多未知因素。如果人工智能是错误的，那么谁对渎职行为负责？当大部分算法像黑匣子一样工作时，错误的来源可以追溯到源头吗？此外，这些算法（程序员给计算机的数学指令）不完美，需要完整和正确的训练数据，这并不总是适用于不同人口统计的各种条件。此外，购买和组织健康数据可能很昂贵。

在多项选择题标准化测试中正确回答问题并不能传达智能。如果计算机以真实的临床案例呈现，它的分析能力可能会有所欠缺。因此，尽管这些测试在纸面上看起来令人印象深刻，但大多数人工智能还没有准备好部署。以IBM的沃森人工智能健康项目为例。即使投资了数百万美元，它仍然存在许多问题，在规模上不够实用或灵活（它最终崩溃并被出售零件）。

谷歌和DeepMind确实认识到这项技术的局限性。他们在论文中写道，要使该模型真正有用，仍有几个领域需要开发和改进，例如权威、最新医学来源的反应基础，以及检测不确定性并将其有效地传达给人类临床医生或患者的能力。