体素王子龙：医疗AI从单病种到全场景的「三重门」

近期，雷锋网医健AI掘金志邀请体素科技首席医疗官兼产品负责人王子龙，做客雷锋网公开课，以“医疗场景下的影像人工智能产品实践”为题，对体素科技从单一肺结节产品迈向全病种的诸多挑战进行了解读。

后续将有更多课程上线，添加微信公众号医健AI掘金志回复听课，或收看本节课程视频回放

体素科技王子龙表示：“体素AI产品的特点就在于，以全病种为核心目标进行研发。相比于单病种，全场景产品在研发中除了要应对病种的增多，还存在数据小样本、异常检出、临床验证复杂等诸多挑战。”

以病种数据小样本为例，一方面因为存在大量孤立、新发的特殊病种，另一方面医疗数据中优质标记资源相对较少，导致病种数据无法满足训练要求。

为此，体素选择通过Model Genesis的方式进行自监督、迁移学习，按照数据内部表征特点，迁移到其他部分数据，使病种在小样本情况下同样满足训练要求。

以下为王子龙分享的全文内容，雷锋网做了不改变原意的编辑。

我是体素科技王子龙，今天分享的题目是“医疗场景的影像人工智能产品实践——全场景的全病种医学影像阅读者”。

体素科技的特点就在于，致力于全病种的医学影像相关人工智能产品。大家对于单病种医疗影像人工智能已经不陌生，而且很多企业在单病种产品上都做了比较充分的探索。

但是像肺结节这样的单病种产品，仅做结节辅助检出，虽然针对单一病种达到了比较好的效果，有一定使用价值，但远不能临床满足的需求。

临床检查中肺结节仅仅是需要处理的诸多场景状况中的一种，现实中也不可能有任何一个医生表示”我只看肺结节，如果想看别的毛病，先充一个VIP会员再说。”

医疗场景层面上，影像包含各种各样的来源。其中有专业人员，专业设备采集的比如CT。也有专业人员，通过一般设备采集的情况。

像皮肤科医生就可能会在伍德灯下，直接用手机或相机，观察和记录皮肤的变化。也存在一般人用普通设备采集的图像，比如患者自己用手机拍摄的图像。

在各种场景中，都存在够跟专业人士分享检查的图像，发现异常检出并解决问题的需求。

基于这些思考，体素科技通过全场景的方法，满足更广阔的需求。通过全病种覆盖的方式，也能满足更完整的环节，最大效率减少其他工作量。

其中体素科技的胸部CT产品就是以全病种为目标研发，致力成为低剂量CT筛查第一阅读者，通过识别常见病灶，检出正常和异常图像，生成医疗自然语言报告。

为了满足这个过程，首先就需要尽可能归纳所以常见病灶。但是这谈何容易，当初提出这个战略的时候，有人曾经问我，这个世界上有多少种疾病？

如果按照国际疾病分类第十次修订本来看，有几万个疾病编码，事无巨细，从床上跌落受伤都有单独的编码。但实际应用中这个编码也依然无法满足全部使用需要，需要使用一些拓展的编码，把不标准部分变得更详细。

面对数量庞大的病灶，显然也不可能按照逐一方法，对所有疾病进行训练。体素按照病灶的特点，利用计算机视觉进行整合。例如按照局部性病灶、透明度变异、密度增高、密度减低、条索、线性、网格状等形态整合分类。

病灶归类以后，接下来就需要按照归类，选择训练方法。

一种类型，如肺结节、肺大疱等，这部分病灶往往具有特定的形态，虽然在大小上可能存在一定差异，但是同类病灶的形状特征都比较类似，也比较适合检测的手段实现。

而另一类像磨玻璃渗出影、胸腔积液、肺不张这样不同成因和特征的病灶，往往没有固定的形态，有些边界也不清晰，每个病灶之间形态可能千差万别，就比较适合分割方法，之后从病灶的角度再归类。

而仅仅通过归类手段还不够，体素在病灶标注和学习过程中，采用了多级流水线的方式标注和训练，结合强监督和弱监督信息。

具体先在序列整体上进行标注，之后再按照每一层层标注，更进一步标注每一层级上的检测框和分割掩模。整体是逐级递进的过程，监督强度逐级增强，信息量逐层增加。体素希望通过多级流水线的方式，既满足层级的标注、还可以结合弱监督的手段，综合节约成本。

实现医疗图像领域全病种的目标，还需要整合多个来源的信息内容，因此医疗相比其他人工智能应用领域，任务工作流相对比较复杂。

以肺结节为例，既需要通过肺叶分割，了解肺部所在位置，还要通过检测、分割将结节具体位置进行勾勒，最后还要做性质和属性检测，整个流程的前后依赖度非常高，就需要设计一套系统的工作流架构。

仅仅通过这些手段，还不能应对全场景全病种的AI产品研发中的各种挑战。在不同工作流程，不同用户群体，不同模态数据下都有新的技术要求。尤其是全病种研发所面临的主要问题之一是小样本病种的异常检出。对于小样本数据，往往代表这类疾病本身非常少见，从而导致样本来源相对比较匮乏。

这个图是对十几万份筛查场景下自然分布的报告结论的分析，大家可以看到，这是一个非常经典的长尾曲线的实际案例。常见病种病灶出现在左侧区域，但同时还存在大量不同种类的低频次的病灶、病种和组合，这些低频次状况的数量总和又不能忽视。这部分疾病和疾病的组合的存在带来了小样本。

例如，图上是一例子卡特金纳综合征的影像，特点就是心脏左右是反的，心长在了右边，这种案例虽然比较罕见，频率大约在几万分之一。但是大一点的医院可能每年都会碰到几个，这种情况纯按照数据驱动的方式完成训练，就变得十分困难。

此外，小样本的情况还源于标注成本的高昂，医学图像标记本身非常困难。许多公司和研究所通过整体归类一下获得十万、百万的数据，但是后续的标记成本会非常高。被充分标记的样本经常是数量稀少的。

所以，即使拥有巨量的医疗数据，但实际情况中具有优质标记的数据样本依然比较小，体素选择了通过Model Genesis的方式进行自监督，迁移学习的尝试。

自监督是利用无标注的数据，进行学习。其监督的信号来自于数据本身，通过学习数据内部的表征特点，学习迁移到其他部分提供帮助。

在原始数据中，通过处理隐藏掉其中一部分，再通过深度神经网络训练出可以恢复被隐藏或者破坏的数据网络。在这个网络中就掌握一定量原始数据结构特征。

之后将训练的神经网络，迁移到特定任务当中，就可以得到比从头训练或者其他模型迁移更好的效果。

这是一个实际案例举例，通过亮度、局部像素的调整和内外部遮盖的方式破坏原始图像，之后训练得出神经网络的编码器和解码器。

从被破坏的数据恢复原始图片，之后将恢复后的图片和原数据图片进行比较和学习，学到原始数据的表征特点。

实验中发现对于肺结节的分类、结节分割、肺栓塞分类等任务，自监督预训练效果要高于直接训练的情况，进而改善诊断少标记样本的学习能力。

异常检出也是一个亟待更好解决的难题。在现实中，每一名医生都是先学解剖学、生理学，从正常结构和功能开始学习，再去接触各种疾病带来的异常变化。这和柏拉图的观点非常一致，“存在一个标准化的形式，个体都是这种形式的摹本。”

医疗数据中，80%病例都是正常数据，但这部分数据同样会消耗医生大量精力，异常数据的分布也非常广泛且分散，包含各种各样的疾病。

另外还可能会出现未知的数据类型，因为每一年都可能会不断发现新的疾病，这类疾病无法通过强监督的方式训练，也无法通过纯数据驱动的方式解决遇到的问题。

为了解决这些问题，体素科技进而探索异常检测的技术方案。一种常见的异常检测方案是单类学习，仅在正常类别的个体上训练自编码器，输出的结果和原始图像进行对比，通过差异发现异常。

例如有其他研究团队发表于ISBI 2019的成果就曾尝试将这种方法用于胸片异常检测，在正常图像上训练，让重建图像更趋向于正常的原图，缩小重建图像和输入图像之间的差异。

通过这种方式，他们设计了如下实验，对所有正常图像进行编码训练，分别用编码器的方式对测试集里面正常和异常数据进行恢复，因为本身就学过正常图像，所以最终恢复出来的图像和原本图像相似度比较高。

存在异常的图像，因为很难对异常部分和区域进行结构恢复，图像和原始图像重建误差也相对较大，所以按照正常的图片作为训练集，就可以判断异常的效果。

但是将这种方法在现实场景中使用，会存在很多的困难。例如例如眼底彩照，因为是自于不同光照设备，即使没有明显疾病，图像之间的差异也相对较大。

与此同时，严重疾病和正常的图片的视觉差异也可能很小。像糖尿病视网膜病变中的增殖期表现，新生血管等病变实际的面积并不大。这些都会影响单类学习的效果。

因此，寄希望于同时使用正常和异常数据进行训练，对输入的图像按照以下目标设置损失函数：重建生成的图片类似真正的图片，重建的图片与输入图片类似，重建的正常图片与正常图片更类似。

按照这种方式，引入了度量学习思路，可以使正常和异常图像之间构成联系。

通过实验结果可以发现，这种方法可以定位到脑部病灶位置，相比于其他单类学习方法，也能够得到更高额的准确率，还可以更好的定位异常区域。当然，在正常和异常领域，仍然还有许多挑战需要克服。

除此以外，为了实现多病种的目标，其他技术挑战还有很多，例如多任务的合并与知识蒸馏。随着10、20个病种的增加，怎样合理的把任务合并，在有限计算资源之内完成多病灶检测和识别会就比较重要。

单一模态信息量非常有限，还需要多模态信息的进一步融合。融合病灶和疾病之间的相关性，往往还要包含一部分相关和因果关系，把病灶间相关性的图网络和图片信息可以进一步融合提高效果。

体素基于已有的技术性探索，已经实现胸部CT多病种产品的研发，识别胸部和腹部CT中肺、肝、胆、肾等多种器官上的病灶。

像肺内的肺大疱、钙化灶、磨玻璃等多种病变，像肝胆的脂肪肝、肝囊肿、肾囊肿、胆结石、肾结石等肺外常见病灶，都能做到逐一智能筛查和圈化，并对其中部分病灶进行量化分析。

在10万份体检场景报告的验证中，体素的产品已经能够覆盖92.6%的常见病灶和它排列组合。而选择体检作为验证的原因，就是因为其病种种类相对确定。在门诊、住院和急诊场景中，面对的会是完全不同的疾病谱与疾病分布。

为了让算法和产品在实际场景中使用起来，不仅仅需要在GPU上神经网络训练和验证，在真实健康诊疗环境中的证据收集也十分重要。

体素对于医疗人工智能辅助诊断的实验验证，也有自己的思考和设计。设计了基于回顾队列自身对照的盲法诊断实验，对之前辅助诊断结果进行临床实验验证。

回顾性连续采集一部分患者影像数据，进行脱敏和设盲。将传统医生二级阅片结果和算法结果在盲选状态下混合，之后统一交给第三方专家审核和校验，将算法输出结果和医生二级阅片下的结果比较，这个过程中可以充分考量实际工作中AI和人之间的水平差异。

在临床实验设计过程中，也面临很多的挑战，因为即使纳入非常多的病种，也面临很多设计外的疾病干扰。

全病种AI产品面对正常异常检出实验的目标设计也存在困难，因为目前多数临床实验的目标都指向单一的病种和目标，此外实际数据分析过程中，阅读者之间差异也十分巨大。

所以即使肺部CT满足了辅助诊疗的场景，还依然存在多种需求没有被满足。包括检前、检中、检后的个人需求，将自己影像数据分享给其他人，就需要为个人建立影像云筛查健康档案，甚至为了更好管理自己的情况，可能还需要进一步的健康管理。

下一步，体素科技也希望通过人工智能增强医疗健康管理的质量和可及性，改善诊疗完整健康状态。

这是体素科技首席医学指导Eric Topol教授在 nature medicine发表的文章，里面就总结和整合了目前人工智能的应用形式，AI如何在工作中和人做有机的结合。

可以看到，从出生，到成长之后使用的可穿戴智能硬件，后面发生疾病所需要的检查筛查、诊断鉴别、住院等等过程中，都存在广阔的应用场景。

全场景下，AI也可以满足更广阔的需求，面向医生、面向医疗系统、面向病人和家用等，都存在多种产品形态，每一种形态都是为了实现和满足大家的需求。

体素科技希望以全病种的方式，将传统CAD或者单病种人工智能辅助产品，扩展向为多个资源打造新的服务模式和需求。

以胸部体检筛查为例，一旦能够满足多病种人工智能筛查手段，分拣出正常和异常案例，再自动化生成大部分报告，不仅可以提升医生工作效率，还可以同时使难以实现筛查的方式，成为每个人直接可以享受到的医疗资源，已经有充足的数据证明，对高危人群进行IDCT筛查可以降低20%的肺癌相关死亡率。

但现在CT筛查并没有达到应有的普及率和覆盖程度。体素科技研发的全场景产品，期望可以在病人、医生的各方分别实现产品的价值。

筛查不仅限于胸部CT、还有眼科、皮肤科通过手机影像的筛查、儿童视力障碍的筛查等情况。

体素的全场景，不至于影像

这是眼底彩照的多病种筛查案例，虽然在同一模态，多病种的方式可以归并和检出更多病灶目标，目前识别的眼底疾病已经达到40种，除此之外，还可以对里面的结构进行测量，并对常见和未知病灶进行展示。

在世界人工智能大会“卓医”挑战赛上，体素科技在12种病灶的检出结果均获得技术上的领先。

体素的眼科AI产品已经服务接近300家MMC中心，为9万多名患者提供眼底智能筛查服务，未来将通过助力基层筛查的方式，提高慢病患者筛查的依从性，实现更好的慢病管理和愈后。

此外，体素科技还和眼底相机企业合作研发了人工智能眼底一体机，简化筛查流程，实现全自动拍照和上传，扩展全场景理念。

这是体素“肤知汇”产品，基于手机图片对皮肤疾病做筛查和分诊，在难以取得皮肤科专业医生结果之前，可以通过自我拍照的方式对皮肤状况进行了解。疫情期间，小程序服务了数百人次的自我检查，此外还通过远程医疗为医生提供了转归参考结果。

儿童视力筛查项目，也是基于视频的手机筛查小程序，通过采集儿童观察动画的面部和眼睛运动状态。通过对视频的算法分析对常见儿童视力障碍进行早期的被动筛查，从中发现眯眼、斜视等常见早期视力障碍。这个项目成果，也和合作单位合作发表在了Nature的子刊的封面上。

任天堂前社长岩田聪曾经的演说中有一句话非常触动我，“On my business card, I am a corporate president. In my mind, I am a game developer. But in my heart, I am a gamer”。

这句话应该非常适合绝大多数跨界到医疗AI的同僚，大家在名片上可能写的是是研究员、算法工程师、市场经理，但是在自己的心中，仍然保持一个医生的心。

每个人心中的致力方向，都是希望把医疗提升到更好的一个层面，让更多人可以更方便的享受医疗服务，尽管已经在多病种、其他疾病上付出诸多努力，但是也同样深知这条道路的前方，还有这更远、更深的未知领域，需要大家一齐去努力和探索。