自新冠疫情爆发以来,世界各地的研究团队开发了各种 AI 工具来帮助检测新冠病毒或者对新冠病毒的感染情况进行预测。
但是很不幸,来自荷兰马斯特里赫特大学和英国剑桥大学的两个研究团队分别独立对 232 种和 415 种 AI 工具进行测试,发现这一共 647 种工具没有一个适合临床使用,有些甚至还会有害。
产生这个结果主要与训练 AI 模型的数据质量有关。开发者采用的数据集里面往往掺杂了一些无效信息或错误信息,导致 AI 工具学会了错误的判断方法。而开发者往往不具备医学的专业知识,这使他们很难发现其中的错误。
有专家认为,只有通过开发者与临床医生的通力合作才能尽可能的避免这种错误产生。另外,还有专家呼吁对于此类全球突发的卫生健康事件应该做好“数据共享&Rdquo;,以便各国能够充分应对。
一、共 647 种 AI 工具被测试,均不适合临床使用
2020 年 3 月,COVID-19 开始袭击欧洲,但那时的人们人们对此知之甚少,这让欧洲的医院陷入了一场危机。荷兰马斯特里赫特大学流行病学家 LauRe Wynants 一直在研究流行病的预测工具,她说:“医生真的不知道如何管理这些患者。&Rdquo;
专家们认为机器学习算法能够根据此前的数据进行训练,并帮助医生对患者做出诊断,那么将会有大量生命被拯救。LauRe Wynants 称:“在这件事上 AI 可以证明其实用性,我对此抱有希望。&Rdquo;
世界各地的研究团队加紧进行研究,尤其是 AI 社区紧急开了发各种软件。许多人认为这些软件可以让医院更快地诊断或分诊患者,为抗击疫情的前线提供支持。但是,数百种检测工具被开发出来,却没有一个真正的产生作用。
今年 6 月,英国国家数据科学和人工智能中心图灵研究所发布了一份报告,总结了其在 2020 年底举办的一系列研讨会上讨论的内容,这些研讨会中达成的一项明确共识是:AI 工具在抗击新冠疫情的战斗中几乎没有产生任何实质性的影响。两个研究团队围绕着这些 AI 工具分别进行的两项研究得到的结果支持了这个结论。
LauRe Wynants 和她的同事研究了 232 种用来预测或诊断新冠肺炎患者的算法,结果发现都不适合临床使用,只有两个算法可能在未来会对临床上的检测有所帮助。这项研究结果以一篇评论文章的形式发表在英国医学杂志(BRITish Medical JouRnal)上,到现在这篇文章仍在随着新工具的发布和研究者对现有工具的测试而进行更新。
对于这样的结果 LauRe Wynants 说道:“这十分令人震惊。我带着这样的担忧开始了这项工作,但是这个结果超出了我的预想,让我非常恐惧。&Rdquo;
▲ 荷兰马斯特里赫特大学流行病学家 LauRe Wynants
剑桥大学机器学习研究员 DeRek DRiggs 及其同事进行的另一项研究结果也得出了相同的结论。该团队利用深度学习模型诊断新冠肺炎,并让 AI 通过胸部 X 射线和 CT 扫描来预测患者的患病风险。他们研究了 415 种已经公开的 AI 工具,但是结果和 LauRe Wynants 的发现一致,没有一个工具适合临床使用。
这项研究结果被发表在 NatuRe MacHine Intelligence 上,论文题目为《使用机器学习通过胸片和 CT 扫描检测和预测 COVID-19 的常见缺陷和建议(CoMMon pITFAlls and RecoMMendations foR USing MacHine leaRning to detect and Prognosticate foR COVID-19 USing chest RadiogRaphs and CT scans)》。
DeRek DRiggs 正在研究一种机器学习工具,希望能够在新冠疫情流行期间帮助医生,他说:“这次的疫情是一次对 AI 和医学的重大考验,不过我认为我们没有通过这个考验。&Rdquo;
尽管结果如此,LauRe Wynants 和 DeRek DRiggs 仍相信 AI 有潜力为医生提供帮助,同时他们也担心以错误的方式构建的 AI 工具不仅不会产生帮助甚至还会有害,因为这样可能会使医生做出错误的诊断或低估患者的病情。
DeRek DRiggs 称,关于机器学习模型以及它的作用有很多炒作,人们对它们不切实际的期望促使这些工具被提前投入使用。LauRe Wynants 和 DeRek DRiggs 研究的数百种 AI 工具中的一部分已经被一些医院所使用,而有些正在被私人开发商四处兜售。“我担心他们可能伤害了病人。&Rdquo;LauRe Wynants 说。
新冠疫情让很多研究人员清楚的看到他们需要改变 AI 工具的构建方式。LauRe Wynants 谈道:“新冠疫情的流行让这个问题成为了人们关注的焦点。&Rdquo;
二、训练 AI 的数据错误太多,让 AI 学习结果出偏差
研究人员发现,这些 AI 工具出现的问题很多都与开发者用来开发工具的数据质量有关。在新冠疫情蔓延期间,通常是治疗新冠肺炎的医生收集和共享关于这一疾病的信息,包括医学扫描图像。而这些信息和数据是工具开发者唯一可用的公共数据集,这意味着很多是使用错误标记的数据或未知来源的数据构建的。
DeRek DRiggs 强调了这个他称作“FRankenstei&Rdquo;数据集的问题,这些数据集是从多个来源拼接在一起的,可能包含重复项。这意味着某些工具最终进行测试的数据可能与它们训练时使用的数据相同,让它们看起来比实际上更加准确。
开发者还有可能混淆了某些数据集的来源,这可能会错过一些影响模型训练结果的重要特征。比如有些人在不知不觉中使用了一个数据集,其中包含没有感染过新冠病毒的儿童的胸部扫描图,并将这些作为非新冠病毒感染病例的示例。结果 AI 学会的是如何识别儿童,而不是识别新冠病毒。
DeRek DRiggs 的小组尝试使用一个数据集来训练自己的模型,该数据集中包含患者躺下和站起来时的混合扫描。由于躺下进行扫描的患者更有可能患有重病,因此 AI 错误地学会了从一个人的站立或躺下来预测患病严重程度。
还有一种情况,研究者发现一些 AI 会对某些医院用来标记扫描结果的文本字体产生反应,结果来自接收重症患者医院的字体成为了预测新冠肺炎患病风险的指标。
事后看来,这些错误似乎很容易被发现,如果开发者知道它们,也可以通过调整模型来进行修复。但是,许多工具要么是由缺乏医学专业知识的 AI 研究员开发的,他们很难从中发现数据缺陷;要么是由缺乏数学技能的医学研究人员开发的,他们很难用专业知识来弥补这些数据缺陷。
DeRek DRiggs 还提到了一个更微妙的错误,那就是合并偏差(incoRpoRation BIas),或者说是数据集被标注时引入的偏差。例如,许多医学扫描是根据放射科医生对于它们是否显示出新冠病毒的判断来标记的,但是这会将一些医生的偏见嵌入或合并到数据集中。DeRek DRiggs 说,用 PCR 测试的结果来标记医学扫描会比仅听医生的意见要好得多,但是在医院里往往没那么多时间去统计这些细节。
LauRe Wynants 称这些已知的错误并没有阻止其中一些工具被匆忙投入临床实践,目前尚不清楚哪些正在被使用,也不知道它们被如何使用。医院有时会说他们仅将工具用于研究目的,这让研究者很难评估医生对这些 AI 工具的依赖程度。
LauRe Wynants 曾要求一家销售深度学习算法的公司分享有关其方法的信息,但是并没有得到回应。后来她从与这家公司有关的研究人员那里得到了几个已经发表了的模型,不出任何意外,这些模型都有着很高的偏见风险。
“我们实际上并不知道这家公司都做了哪些工作。甚至一些医院还与医疗 AI 的供应商签了保密协议。&Rdquo;LauRe Wynants 说。当她问医生使用的什么算法或软件时,会被告知医院不允许医生将这些说出去。
三、AI 开发者要与临床医生合作,专家呼吁“数据共享&Rdquo;
更加完善的数据可能会对解决这个问题有所帮助,但是在危机时期,这个要求很难做到。DeRek DRiggs 称,更重要的是要充分利用已经拥有的数据集,应该让 AI 开发团队与临床医生进行更多合作。开发者要分享他们的模型,并公开他们是如何训练这些模型的,以便其他人可以测试它们并以此为基础来正确的使用。
“这是我们现在能够做到的几件事,它们可能会解决我们发现的 50% 的问题。&Rdquo;DeRek DRiggs 说。
总部位于伦敦的全球健康研究慈善机构 WellcoMe TRUSt 的临床技术团队负责人 BIlal Mateen 说,如果格式标准化,获取数据也更加容易。
LauRe Wynants、DeRek DRiggs 和 BIlal Mateen 都发现的一个问题是,大多数开发者都急于开发自己的模型,而不是和他人合作或改进现有模型。这样造成的结果是全世界的开发者集体努力创造出了数百种无用的工具,而不是共同创造出几种经过训练和测试的工具。
LauRe Wynants 说:“这些模型非常相似,它们都使用了几