数百种医疗AI获批，如何测试其安全有效性仍是问题

·“正确地测试用于医疗环境的人工智能系统是一个复杂的多阶段过程。尽管研究人员知道人工智能干预的理想临床试验应该是什么样子，但在实践中，测试这些技术是具有挑战性的。”

人工智能（AI）被认为有助于提高诊断和治疗的效率。当地时间2024年8月21日，《自然》（Nature）杂志发布的一篇文章显示，美国食品药品监督管理局（FDA）等监管机构已批准数百种用于医院或诊所的人工智能医疗设备，但在2020年至2022年间，仅有65项人工智能干预的随机对照试验发表。

“正确地测试用于医疗环境的人工智能系统是一个复杂的多阶段过程。”文章写道，“尽管研究人员知道人工智能干预的理想临床试验应该是什么样子，但在实践中，测试这些技术是具有挑战性的。”

文章介绍，基于人工智能的医疗应用程序通常被药品监管机构（包括美国FDA和英国药品和保健产品监管机构）视为医疗器械。因此，审查和授权使用它们的标准往往不如药物严格。只有一小部分高风险的设备需要临床试验数据才能获批。

“很多人认为这个标准太低了。”文章写道，美国宾夕法尼亚大学（the University of Pennsylvania）的重症监护医生加里·韦斯曼（Gary Weissman）审查FDA批准的AI设备时，发现10个设备中只有3个设备在授权书中引用了已发表的数据，只有4个提到了安全性评估，没有一个包括偏倚评估。“令人担忧的是，这些设备真的影响临床护理，而这关乎病人的生命。”他说。

“一种完美的算法可能失败，因为人类行为具有可变性——无论是医疗专业人员还是接受治疗的人。”文章写道。

首先，人工智能系统的正确运行取决于医疗保健专业人员与算法的互动程度。美国梅奥诊所（Mayo Clinic）测试了自己开发的检测低射血分数心脏病的算法，这个工具可以标记那些疑似心力衰竭的高危人群，他们往往没有被诊断出来。临床试验表明，该算法确实提高了诊断率，但初级医疗保健人员希望得到进一步的指导，以了解如何与患者谈论算法的发现。也就是说，人工智能应用程序若广泛推广，应当包含与患者沟通的重要信息的要点，以节省医生在临床上的沟通时间。

另一方面，临床医生接触到大量人工智能生成的警告时，可能产生“警报疲劳”，即当临床医生接触大量AI生成的警告时，他们可能会对这些警告变得麻木，从而无法迅速反应。

其次，AI临床测试的结果难以在不同人群中推广。英国伯明翰大学（University of Birmingham）人工智能和数字健康技术的临床科学家刘晓轩说：“一个众所周知的事实是，人工智能算法在处理与训练数据不同的数据时非常脆弱。只有当临床试验参与者代表了该工具将要用于的人群时，才能安全地推断结果。”

此外，那些基于拥有大量资源的医院的数据进行训练的算法，在资源较少的环境中应用时可能表现不佳。文章举例，谷歌健康开发的用于检测糖尿病视网膜病变的算法，在泰国诊所使用时性能显著下降。一项观察性研究显示，泰国诊所的照明条件导致低质量的眼睛图像，从而导致该算法有效性降低。

还有一个问题是患者同意。据文章介绍，目前，大多数医疗人工智能工具都帮助医疗保健专业人员进行筛查、诊断或治疗规划，但患者可能不知道这些技术正在接受测试或经常用于他们的护理中，目前没有任何国家要求提供商披露这一点。

随着越来越多的人工智能工具和公司进入市场，探索在医学领域使用和评估人工智能系统的方法迫在眉睫。健康人工智能联盟（the Coalition for Health AI）提议建立一个健康人工智能保证实验室网络。该实验室将使用一套商定的原则，以集中的方式评估模型。其成员，医疗人工智能专家肖娜·奥弗加德（Shauna Overgaard）说：“对大型组织来说，这（指自己测试医疗人工智能工具）已经很困难了；对小型组织来说，难度会大得多。”

对此，美国杜克健康创新研究所（Duke Institute for Health Innovation）的临床数据科学家马克·森达克（Mark Sendak）持反对意见：“每个环境都需要有自己的内部能力和基础设施来进行测试，这种集中的方法并不理想。”他所在的健康人工智能伙伴关系组织则提倡为任何能够在当地测试人工智能模型的组织培养能力并提供技术援助。