人工智能 · 2024年1月14日 0

医疗领域的人工智能改革需要经历三个关键阶段

医疗领域的人工智能改革需要经历三个关键阶段

本文作者 Luke Oakden-Rayner 是澳大利亚知名学府阿德莱德大学的在读医学博士生,曾发表过多篇医疗人工智能方面的文章。

在我最近发表的一篇博文里,探讨了如何带着批判的眼光去理解人工智能在医学领域里的应用和研究,并且将研究重点放在了这些人工智能试验与临床应用的相关性上。但在此后,我想到一个问题,即有些研究已经取得了进步,而有些研究还远未达到临床应用的阶段,对于这一过程,还没有一种简单清晰的方式可以讨论。

从事医学研究的人,可能会认同这种观点,因为医学界已经解决了这个问题。

事实上在医学领域,根据实验结果会对临床应用产生多大作用,临床试验可以被分为三大类。业内将这些类别称为医学研究的不同阶段,它们反映了从前期准备到转化为临床应用这一过程的常规路径。这些类别也恰恰是临床创新获得医生和监管机构接纳的必由之路,笼统地说,大多数与人有关的医学研究都不外乎分为这三大类(或三个阶段)。

第一阶段是首次安全性检查。最开始,需要在一小群受试者身上试用药品,保证没有任何可怕的后果。在这个阶段中,我们甚至很少去考虑试验的药品是否有药效,只希望确认试验不会造成服药者死亡。如果我们从中得到了不错的反馈,显示药品的确效果不错,那固然很好,但是那并不是试验一期的主要目标和动机。

第二阶段则要更全面地评估试验安全性。到这个阶段中,需要扩大受试人群的规模,这么做是要查明药品是否会出现比较罕见的副作用。因为试验样本的数量更大,可能发现更多和药效有关的信息证据,但即便如此,这一阶段也永远不足以证明临床应用可行。

第三阶段是成本最高、难度最大、但又十分重要的一个阶段。主要目标,是要去查清药品究竟能够发挥多大作用,这通常意味着,一大批受试者必须要试用某种药物很长时间,而且试验所采用的方法和分析都要能经得起美国食品药品监督管理局(FDA)或者类似政府监管部门的严格审核。

除此之外,如果从技术角度来看,其实还有临床前期试验(动物实验模型)和第四阶段临床试验(新药推出后进行的后续试验)。不过,上述的三个阶段是将某个医疗想法变成实际治疗药物所必须经历的过程。

医疗领域的人工智能改革需要经历三个关键阶段

我认为,医疗人工智能研究的推进过程,其实和常规医学临床试验过程非常相似,因为我目睹的几乎所有医疗人工智能研究都可以归入、或明确界定到已知的这三个阶段之中。至于这一系统是否很严格,有没有涵盖足够多的尖端研究,我也不能给出百分百肯定的答案,但本文至少能够在设计、或理解医疗人工智能领域研究时,对形成实用的思路框架提供一些帮助。

人工智能医疗试验

让医疗人工智能试验的框架能够映射其他临床试验架构,是合理的做法。所以,将其也分为三个阶段是直观且常见的思路,当然,这可能也需要做些额外工作,才能让医学研究者和人工智能研究者相互理解。假设你的新型医学人工智能系统已经做好了随时为病人服务的准备,相比之下,可能说服医生和监管机构相信反而更容易一些。

实际上,医学临床试验和医学人工智能试验的关键区别,主要是第一和二阶段人工智能系统不用怎么考虑安全性。因为直到阶段三,才会应用于患者。这种研究叫做“可忽略风险型研究”。

请注意,以下框架仅适用于软件系统,并不适合外科手术机器人等实物系统。此外,不同的软件系统可能会有类似的框架,只是各自的细节有天壤之别。

第一阶段:

简介:这一阶段会设法明确哪些医疗人工智能试验任务是不可行的,或所启用的模型前景并不太好,不足以保证未来的研究能够深入下去。有前景的试验会决定模型设计选择的方向,为下一阶段研究的选择提供有用的信息。

研究设计:以经过测试的小型回顾性阵列,训练医疗人工智能试验系统。这意味着,人工智能系统所使用的数据,都是过去出于其它原因而收集的,研究人员用这些数据去查明,这一阶段是否存在和他们所希望解决的任务有相关因素。在机器学习领域里,通常的做法是用公共数据集。

阵列的规模通常在二十人到几百人不等,这一阶段预计不会有太大的规模,因为不需要准确刻画模型表现的特征,也不需要得出效果方面的具体结论。

阵列类似于目标群体,不过并非完全一样。这时要做些选择,简化试验过程,这也让研究人员无法得出更宽泛的结论。比如,可以使用住院患者的数据,因为这类数据随时可用,即使研究目标是应用到更大众的人群(如非住院患者)。做这些设计选择的人,常常不是经过专门训练的人员,即很多是计算机科学家,而不是生物统计学家、流行病学家、或是医学研究人员。

医疗人工智能任务本身会简化,从而进行更加高效的分析。比如会使用代理,而非真正的患者来进行研究。一个例子是:某项研究评估缝针有多高的精确度时,会用手术机器人,而不会用真正的患者。前一种任务即使表现的再优异,也不能作为系统胜任人类任务的直接证据。任何医疗试验最终还是需要应用在病患身上。

成本:第一阶段试验的大部分成本是研究人员为设计和训练模型投入的时间。

转化时间:在临床试验中,从第一阶段试验成功到推出消费类医疗产品,可能预计需要大概十年。

实例:历次医学领域的深度学习试验(只有一次例外)。目前,公开发表的医疗人工智能试验论文数量每周都有好几篇,作者从一流研究人员到在读学生不等,甚至大数据竞赛平台Kaggle组织的那些临床靶区分析竞赛、以及所涉及的部分医疗数据都能被算在内。

第二阶段:

简介:这一阶段将会识别医疗人工智能试验理念是否值得在第三阶段研究中继续,由于第三阶段成本昂贵,而耗费的时间也很久,所以第二阶段试验的主要目标,是要探索最有前途的模型架构、目标、以及患者阵列。

研究设计:人工智能医疗系统会被一个更大规模的患者阵列来测试,规模要大到能带来最高性能的预期。不仅如此,数据还需要更紧密地反映出受众目标人群,尽管依然会不同。在此,主要的混杂变量应该被明确地认知,并知道何时会不受控制。在第二阶段,阵列的选择往往要求研究设计专家的帮助,这其中就包括生物统计学家和流行病研究学家。

第二阶段里,患者阵列很可能会达到数万人(有时甚至更多),这一数字相比于传统的第二阶段医疗临床试验要大得多,因为阵列要满足机器学习训练和测试。如果你不明白,只需记住至少是传统医疗临床试验数量的2倍。

第二阶段数据还是回顾性的,但任务本身会和要自动化的临床任务非常相似。

成本:第二阶段医疗人工智能试验的主要成本,将会是收集、标签、以及处理海量训练数据集合。在这一阶段里,模型设计成本将会有所不同,这主要依赖于你采用什么样的机器学习方法。

转化时间:从第二阶段到实际医疗产品,整个过程可能需要五到八年。

实例:谷歌对糖尿病视网膜病变的研究。实际上,这是目前我所知唯一称得上是第二阶段医疗人工智能试验。谷歌用了 1 万个案例,和1.3 亿图片训练这套系统。谷歌的人工智能系统的表现,和医学专家几乎无异,而且在临床表现上