AI医疗数据资源少、模型难解释怎么办？AI顶会秀五大破局心法

智东西（公众号：zhidxcom）编 | 董温淑

智东西5月11日消息，疫情之下，AI 医疗按下加速键，从线上问诊、辅助导诊、影像筛查到新药研发，AI均发挥出重要的辅助作用。然而相比其他应用场景，AI在医疗领域的落地却面临更多的困难。

不同医疗机构的数据互不流通、数据质量参差不齐、搭建AI模型效率低下、输出结果不知道怎么解释……在近期举办的国际学习表征会议（ICLR）上，来自剑桥大学、牛津大学、斯坦福大学等全球顶尖高校的研究人员们集中探讨了这些阻碍AI医疗落地的关键挑战，并有针对性地探讨了解决这些问题的有效方法。

国际学习表征会议（ICLR 2020）是深度学习领域最重要的年度会议之一，于在4月26日至5月1日以线上方式举行。

一、AI医疗落地难！实际模型效果很一般

当今医疗资源匮乏和分布不平衡的问题日益突出，AI的应用可以缓解这种局面。比如，远程医疗可以解决偏远地区看病难问题，AI读片工具可以缩短临床医生判断时间。但是，要达到这些目的，前提是AI工具的输出足够准确可靠。

实际情况中，不同医疗机构收集、标记、注释、处理医疗数据的方法并不一致，X射线影像、CT影像的质量则因为机器差异而存在较大差异，患者病例或健康记录中也常缺少信息。这些都导致了能够用于训练AI模型的有效数据资源稀缺，因此，一些AI模型的实际应用效果并不理想。

例如，谷歌的一个AI模型就在实际应用阶段折戟。该AI模型被设计用于提升筛查糖尿病性视网膜病变的效率，根据病人眼球照片快速给出专业诊断。在实验室测试阶段，该模型可以把诊断时间缩减到秒钟级，准确率达到了90%。

但在11个眼科诊所的测试中，该模型的结果就没有这么理想了。首先，每个眼科诊所的环境条件不同，有些诊所无法拍摄出高清的眼球照片或网络信号较差，这导致模型上传图片的时间变长（60到90秒）。另外，一些护士也担忧AI模型的安全性问题。这说明通过实验室检验并不完全意味着AI工具可以顺利落地应用。

二、数据资源少？让医生临床经验来帮忙

许多疾病难治疗都是因为相关数据太少。比如，罕见病的患者记录就很少，相应的医学知识也很缺乏；对于心衰等慢性病来说，及早治疗是关键，但医学界很难提前甄别出有患病风险的患者。

在人工智能平价医疗研讨会上，韩国科学技术院（KAIST）助理教授Edward Choi提出，可以利用神经网络来解决这些问题。一方面，神经网络可以大面积搜集疾病信息，尽可能多地综合罕见病相关信息；另一方面，神经网络可以回溯病人的电子病例，根据病人以往的健康状况判断出病人是否易患某种慢性疾病。

Choi表示，下一步将继续推进研究，使神经网络更好解决数据缺乏问题。

他计划用一种基于图像的注意力模型（GRAM，graph-based attention model）来进一步解决罕见病数据资源少的问题。该模型用循环神经网络（RNN）进行训练，是一个基于医学本体论（medical ontologies）对疾病进行树状分类的工具，可以找出与罕见病相似的常见病。各种疾病的本体理论是由之前的医学家建立起来的，已经通过实践验证。因此，医生可以尝试用常见病的诊疗方案来治疗罕见病。

对于病人电子健康记录数据不全的问题，Choi提出了图像卷积Transformer模型（GCT，Graph Convolutional Transformer ）。GCT可以推断出电子健康记录缺失的数据，为临床医生提供更全面的病人信息。

三、数据没结构化？用AI预测哪些出院患者更易再住院

对康复患者进行预后诊断可以降低疾病复发风险，而医生需要依靠病人的数据做出预后诊断。但是，不同国家和地区、不同医疗机构收集、处理病人数据的方法有差异，医护人员的一时疏忽则会导致数据无效。这些原因导致了医疗数据非结构化、噪声数据问题，进而影响了医生预后诊断的准确性。

谷歌软件工程师Constanza Fierro团队认为，可以训练一个AI模型，使其利用高度非结构化数据或噪声数据进行预测。经过尝试，他们研究出一种深度学习架构，能够预测患者出院后30天内再次入院的风险。

研究人员用一个西班牙语医疗数据集对该架构进行了测试。美国医疗机构曾利用该数据集进行过相同预测。研究人员对比了模型预测结果和美国医疗机构的结果。对此显示，模型预测结果与美国医疗机构的结果基本相符。

但是，Fierro指出，这个模型的可能不适用于没有储存医疗数据的国家。

四、建模效率低？让AI自动化学习

不同的疾病对应着不同的解决方案，相应地，为不同疾病建模需要用到不同的技术和模型。

剑桥大学教授、艾伦·图灵研究所研究员、加州大学洛杉矶分校校长教授Mihaela van der Schaar认为，为每种疾病各建一个AI模型效率太低，她主张使用可以大面积推广的自动机器学习（AutoML）方法，让AI模型自动化学习合适的参数和配置。

在实验对比几种AutoML模型后，Mihaela提出一个针对临床预后量身定制的预测建模管道设计的自动化系统AutoPrognosis。

据她介绍，AutoPrognosis是“一个为临床预测量身定制的自动涉及预测模型管道系统”。AutoPrognosis不会试图找到唯一的最佳的预测建模管道，而是使用各种管道的“集合”做出预测。

尽管这个模型可以自动化对疾病做出预测，但是它还有一些局限性，比如缺乏可解释性。

透明性和可解释性是AI模型可不可靠的重要参考依据，即能向非专业人士解释清楚得到的结果。尤其是在医疗领域这样做任何决定都必须非常严谨的场景，用AI模型来诊断疾病更需要可解释性，也即是能给出令医生信服的决策依据。

五、影像难解释？把它分区域量化

如前面所说，AI模型的可解释性十分重要。许多研究人员研发出神经网络的可解释性方法，但学界还未在评估这些解释方法上达成共识。

这意味着需要一种客观的度量标准，来告诉研究人员哪种可解释性方法适合用于其任务。

针对这一问题，丹麦大学计算机科学博士Laura Rieger及其团队提出一种特征迭代移除（IROF，iterative removal of features）的新方法，能以较低的计算资源和很少的数据，对可解释性方法进行客观的定量评估。

IROF的评估指标以诊断的准确性为基础，避开了现有评估方法中相邻像素之间的高相关性，并且不依赖可能会产生偏差的人的视觉检查。

在会议现场，Laura用一个具有可解释性的神经网络反证了IROF方法的稳健性。

她选用了一个图像分类神经网络，输入一张猴子的图像，神经网络快速输出了正确的分类，即黑白图像，其中图像较亮部分对分类精度的重要性要高于较暗部分。

然后，Laura用计算机视觉算法对猴子图像进行图像分割，得到一系列图像子区域。

研究人员在识别出对分类精度最重要的浅色子区域后，用“平均值”替换这些浅色子区域，这样再次运行图像分类神经网络的准确率就会下降；接着，识别图像的第二重要部分，再次应用平均值，然后再次运行图像分类神经网络……随着替换过程进行，图像分类神经网络的准确性呈现出曲线形下降。曲线上方的面积被称为IROF得分，可以作为评估神经网络可解释性的一个定量标准。

六、影像质量差？用数据集模拟伪影和噪声

CT断层成像是一种广泛应用的医疗检测手段，可以检测出中风、骨折等疾病。但是，并非所有的医疗机构都有能力配备顶尖的CT扫描仪。在医疗实践中，为了控制成本，有些医疗机构不得不选用低成本的设备。

低成本CT扫描仪的价格更经济、耗电量也较低，但成像中容易出现伪影、噪声数据问题，为医生增加读片障碍。

斯坦福大学电气工程博士Sarah Hooper及其团队提出了一个基于卷积神经网络（CNN）的影像自动分类工具，可以自动分类有伪影、噪声数据的低质量头部CT影像，帮助医疗机构控制成本。

低成本CT扫描仪中常出现x射线管电流小、投影数量少、扫描角度有限等三类问题，这些会导致CT影像质量不高。

由于有代表性的低质量数据有限，研究人员用近一万张头部CT影像数据集，通过成倍减少电流、投影数量、改变扫描角度来模拟那些真实图像中的噪声，借助CatSim仿真软件创建了庞大的合成数据集，然后用这些数据来训练CNN模型。

运行结果显示，在这三类低质量影像中，经训练的CNN模型均能克服头部CT影像分析的硬件限制，准确分类出异常影像。

除了上述模型，其他研究人员还展示了一些其他医学影像相关研究工作，比如自动化颈动脉斑块的3D超声扫描、从显微镜图像诊断疟疾、在计算机辅助手术中用AI增强立体摄像机信息、利用图像质量转移人工增强MRI图像、改进乳腺癌筛查的图像分类等。

结语：革命虽未成功，曙光就在眼前

无论把AI技术应用于哪个领域，研究人员都需要解决技术、安全性和稳健性问题。但客观上来说，医疗保健领域更为特殊。因此，智慧医疗工具的落地面临更多困难。

如果能够攻克技术和安全性难题，AI技术或可为医疗资源匮乏、医疗资源不平衡等问题提供解法，还能提高整体医疗水平。

正如剑桥大学教授Mihaela van der Schaar在其演讲结束时提到的，“我们正处于这场革命的开始，还有很长的路要走。但这是一个令人兴奋的时刻，是专注于此类技术的重要时刻。”随着AI医疗类研究持续推进，机器学习将为临床医生、医学研究人员和患者带来更强大可靠的新工具。

文章来源：VentureBeat