智东西(公众号:zhidxcom)编 | 董温淑
智东西5月11日消息,疫情之下,AI 医疗按下加速键,从线上问诊、辅助导诊、影像筛查到新药研发,AI均发挥出重要的辅助作用。然而相比其他应用场景,AI在医疗领域的落地却面临更多的困难。
不同医疗机构的数据互不流通、数据质量参差不齐、搭建AI模型效率低下、输出结果不知道怎么解释……在近期举办的国际学习表征会议(ICLR)上,来自剑桥大学、牛津大学、斯坦福大学等全球顶尖高校的研究人员们集中探讨了这些阻碍AI医疗落地的关键挑战,并有针对性地探讨了解决这些问题的有效方法。
国际学习表征会议(ICLR 2020)是深度学习领域最重要的年度会议之一,于在4月26日至5月1日以线上方式举行。
一、AI医疗落地难!实际模型效果很一般当今医疗资源匮乏和分布不平衡的问题日益突出,AI的应用可以缓解这种局面。比如,远程医疗可以解决偏远地区看病难问题,AI读片工具可以缩短临床医生判断时间。但是,要达到这些目的,前提是AI工具的输出足够准确可靠。
实际情况中,不同医疗机构收集、标记、注释、处理医疗数据的方法并不一致,X射线影像、CT影像的质量则因为机器差异而存在较大差异,患者病例或健康记录中也常缺少信息。这些都导致了能够用于训练AI模型的有效数据资源稀缺,因此,一些AI模型的实际应用效果并不理想。
例如,谷歌的一个AI模型就在实际应用阶段折戟。该AI模型被设计用于提升筛查糖尿病性视网膜病变的效率,根据病人眼球照片快速给出专业诊断。在实验室测试阶段,该模型可以把诊断时间缩减到秒钟级,准确率达到了90%。
但在11个眼科诊所的测试中,该模型的结果就没有这么理想了。首先,每个眼科诊所的环境条件不同,有些诊所无法拍摄出高清的眼球照片或网络信号较差,这导致模型上传图片的时间变长(60到90秒)。另外,一些护士也担忧AI模型的安全性问题。这说明通过实验室检验并不完全意味着AI工具可以顺利落地应用。
二、数据资源少?让医生临床经验来帮忙许多疾病难治疗都是因为相关数据太少。比如,罕见病的患者记录就很少,相应的医学知识也很缺乏;对于心衰等慢性病来说,及早治疗是关键,但医学界很难提前甄别出有患病风险的患者。
在人工智能平价医疗研讨会上,韩国科学技术院(KAIST)助理教授Edward Choi提出,可以利用神经网络来解决这些问题。一方面,神经网络可以大面积搜集疾病信息,尽可能多地综合罕见病相关信息;另一方面,神经网络可以回溯病人的电子病例,根据病人以往的健康状况判断出病人是否易患某种慢性疾病。
Choi表示,下一步将继续推进研究,使神经网络更好解决数据缺乏问题。
他计划用一种基于图像的注意力模型(GRAM,graph-based attention model)来进一步解决罕见病数据资源少的问题。该模型用循环神经网络(RNN)进行训练,是一个基于医学本体论(medical ontologies)对疾病进行树状分类的工具,可以找出与罕见病相似的常见病。各种疾病的本体理论是由之前的医学家建立起来的,已经通过实践验证。因此,医生可以尝试用常见病的诊疗方案来治疗罕见病。
对于病人电子健康记录数据不全的问题,Choi提出了图像卷积Transformer模型(GCT,Graph Convolutional Transformer )。GCT可以推断出电子健康记录缺失的数据,为临床医生提供更全面的病人信息。
三、数据没结构化?用AI预测哪些出院患者更易再住院对康复患者进行预后诊断可以降低疾病复发风险,而医生需要依靠病人的数据做出预后诊断。但是,不同国家和地区、不同医疗机构收集、处理病人数据的方法有差异,医护人员的一时疏忽则会导致数据无效。这些原因导致了医疗数据非结构化、噪声数据问题,进而影响了医生预后诊断的准确性。
谷歌软件工程师Constanza Fierro团队认为,可以训练一个AI模型,使其利用高度非结构化数据或噪声数据进行预测。经过尝试,他们研究出一种深度学习架构,能够预测患者出院后30天内再次入院的风险。
研究人员用一个西班牙语医疗数据集对该架构进行了测试。美国医疗机构曾利用该数据集进行过相同预测。研究人员对比了模型预测结果和美国医疗机构的结果。对此显示,模型预测结果与美国医疗机构的结果基本相符。
但是,Fierro指出,这个模型的可能不适用于没有储存医疗数据的国家。
四、建模效率低?让AI自动化学习不同的疾病对应着不同的解决方案,相应地,为不同疾病建模需要用到不同的技术和模型。
剑桥大学教授、艾伦·图灵研究所研究员、加州大学洛杉矶分校校长教授Mihaela van der Schaar认为,为每种疾病各建一个AI模型效率太低,她主张使用可以大面积推广的自动机器学习(AutoML)方法,让AI模型自动化学习合适的参数和配置。
在实验对比几种AutoML模型后,Mihaela提出一个针对临床预后量身定制的预测建模管道设计的自动化系统AutoPrognosis。
据她介绍,AutoPrognosis是“一个为临床预测量身定制的自动涉及预测模型管道系统”。AutoPrognosis不会试图找到唯一的最佳的预测建模管道,而是使用各种管道的“集合”做出预测。
尽管这个模型可以自动化对疾病做出预测,但是它还有一些局限性,比如缺乏可解释性。
透明性和可解释性是AI模型可不可靠的重要参考依据,即能向非专业人士解释清楚得到的结果。尤其是在医疗领域这样做任何决定都必须非常严谨的场景,用AI模型来诊断疾病更需要可解释性,也即是能给出令医生信服的决策依据。
五、影像难解释?把它分区域量化如前面所说,AI模型的可解释性十分重要。许多研究人员研发出神经网络的可解释性方法,但学界还未在评估这些解释方法上达成共识。
这意味着需要一种客观的度量标准,来告诉研究人员哪种可解释性方法适合用于其任务。
针对这一问题,丹麦大学计算机科学博士Laura Rieger及其团队提出一种特征迭代移除(IROF,iterative removal of features)的新方法,能以较低的计算资源和很少的数据,对可解释性方法进行客观的定量评估。
IROF的评估指标以诊断的准确性为基础,避开了现有评估方法中相邻像素之间的高相关性,并且不依赖可能会产生偏差的人的视觉检查。
在会议现场,Laura用一个具有可解释性的神经网络反证了IROF方法的稳健性。
她选用了一个图像分类神经网络,输入一张猴子的图像,神经网络快速输出了正确的分类,即黑白图像,其中图像较亮部分对分类精度的重要性要高于较暗部分。
然后,Laura用计算机视觉算法对猴子图像进行图像分割,得到一系列图像子区域。
研究人员在识别出对分类精度最重要的浅色子区域后,用“平均值”替换这些浅色子区域,这样再次运行图像分类神经网络的准确率就会下降;接着,识别图像的第二重要部分,再次应用平均值,然后再次运行图像分类神经网络……随着替换过程进行,图像分类神经网络的准确性呈现出曲线形下降。曲线上方的面积被称为IROF得分,可以作为评估神经网络可解释性的一个定量标准。
六、影像质量差?用数据集模拟伪影和噪声CT断层成像是一种广泛应用的医疗检测手段,可以检测出中风、骨折等疾病。但是,并非所有的医疗机构都有能力配备顶尖的CT扫描仪。在医疗实践中,为了控制成本,有些医疗机构不得不选用低成本的设备。
低成本CT扫描仪的价格更经济、耗电量也较低,但成像中容易出现伪影、噪声数据问题,为医生增加读片障碍。
斯坦福大学电气工程博士Sarah Hooper及其团队提出了一个基于卷积神经网络(CNN)的影像自动分类工具,可以自动分类有伪影、噪声数据的低质量头部CT影像,帮助医疗机构控制成本。
低成本CT扫描仪中常出现x射线管电流小、投影数量少、扫描角度有限等三类问题,这些会导致CT影像质量不高。
由于有代表性的低质量数据有限,研究人员用近一万张头部CT影像数据集,通过成倍减少电流、投影数量、改变扫描角度来模拟那些真实图像中的噪声,借助CatSim仿真软件创建了庞大的合成数据集,然后用这些数据来训练CNN模型。
运行结果显示,在这三类低质量影像中,经训练的CNN模型均能克服头部CT影像分析的硬件限制,准确分类出异常影像。
除了上述模型,其他研究人员还展示了一些其他医学影像相关研究工作,比如自动化颈动脉斑块的3D超声扫描、从显微镜图像诊断疟疾、在计算机辅助手术中用AI增强立体摄像机信息、利用图像质量转移人工增强MRI图像、改进乳腺癌筛查的图像分类等。
结语:革命虽未成功,曙光就在眼前无论把AI技术应用于哪个领域,研究人员都需要解决技术、安全性和稳健性问题。但客观上来说,医疗保健领域更为特殊。因此,智慧医疗工具的落地面临更多困难。
如果能够攻克技术和安全性难题,AI技术或可为医疗资源匮乏、医疗资源不平衡等问题提供解法,还能提高整体医疗水平。
正如剑桥大学教授Mihaela van der Schaar在其演讲结束时提到的,“我们正处于这场革命的开始,还有很长的路要走。但这是一个令人兴奋的时刻,是专注于此类技术的重要时刻。”随着AI医疗类研究持续推进,机器学习将为临床医生、医学研究人员和患者带来更强大可靠的新工具。
文章来源:VentureBeat