AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法

AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法

智東西(公眾號:zhidxcom)編 | 董温淑

智東西5月11日消息,疫情之下,AI 醫療按下加速鍵,從線上問診、輔助導診、影像篩查到新藥研發,AI均發揮出重要的輔助作用。然而相比其他應用場景,AI在醫療領域的落地卻面臨更多的困難。

不同醫療機構的數據互不流通、數據質量參差不齊、搭建AI模型效率低下、輸出結果不知道怎麼解釋……在近期舉辦的國際學習表徵會議(ICLR)上,來自劍橋大學、牛津大學、斯坦福大學等全球頂尖高校的研究人員們集中探討了這些阻礙AI醫療落地的關鍵挑戰,並有針對性地探討了解決這些問題的有效方法。

國際學習表徵會議(ICLR 2020)是深度學習領域最重要的年度會議之一,於在4月26日至5月1日以線上方式舉行。

一、AI醫療落地難!實際模型效果很一般

當今醫療資源匱乏和分佈不平衡的問題日益突出,AI的應用可以緩解這種局面。比如,遠程醫療可以解決偏遠地區看病難問題,AI讀片工具可以縮短臨牀醫生判斷時間。但是,要達到這些目的,前提是AI工具的輸出足夠準確可靠。

實際情況中,不同醫療機構收集、標記、註釋、處理醫療數據的方法並不一致,X射線影像、CT影像的質量則因為機器差異而存在較大差異,患者病例或健康記錄中也常缺少信息。這些都導致了能夠用於訓練AI模型的有效數據資源稀缺,因此,一些AI模型的實際應用效果並不理想。

例如,谷歌的一個AI模型就在實際應用階段折戟。該AI模型被設計用於提升篩查糖尿病性視網膜病變的效率,根據病人眼球照片快速給出專業診斷。在實驗室測試階段,該模型可以把診斷時間縮減到秒鐘級,準確率達到了90%。

但在11個眼科診所的測試中,該模型的結果就沒有這麼理想了。首先,每個眼科診所的環境條件不同,有些診所無法拍攝出高清的眼球照片或網絡信號較差,這導致模型上傳圖片的時間變長(60到90秒)。另外,一些護士也擔憂AI模型的安全性問題。這説明通過實驗室檢驗並不完全意味着AI工具可以順利落地應用。

二、數據資源少?讓醫生臨牀經驗來幫忙

許多疾病難治療都是因為相關數據太少。比如,罕見病的患者記錄就很少,相應的醫學知識也很缺乏;對於心衰等慢性病來説,及早治療是關鍵,但醫學界很難提前甄別出有患病風險的患者。

在人工智能平價醫療研討會上,韓國科學技術院(KAIST)助理教授Edward Choi提出,可以利用神經網絡來解決這些問題。一方面,神經網絡可以大面積蒐集疾病信息,儘可能多地綜合罕見病相關信息;另一方面,神經網絡可以回溯病人的電子病例,根據病人以往的健康狀況判斷出病人是否易患某種慢性疾病。

Choi表示,下一步將繼續推進研究,使神經網絡更好解決數據缺乏問題。

他計劃用一種基於圖像的注意力模型(GRAM,graph-based attention model)來進一步解決罕見病數據資源少的問題。該模型用循環神經網絡(RNN)進行訓練,是一個基於醫學本體論(medical ontologies)對疾病進行樹狀分類的工具,可以找出與罕見病相似的常見病。各種疾病的本體理論是由之前的醫學家建立起來的,已經通過實踐驗證。因此,醫生可以嘗試用常見病的診療方案來治療罕見病。

對於病人電子健康記錄數據不全的問題,Choi提出了圖像卷積Transformer模型(GCT,Graph Convolutional Transformer )。GCT可以推斷出電子健康記錄缺失的數據,為臨牀醫生提供更全面的病人信息。

三、數據沒結構化?用AI預測哪些出院患者更易再住院

對康復患者進行預後診斷可以降低疾病復發風險,而醫生需要依靠病人的數據做出預後診斷。但是,不同國家和地區、不同醫療機構收集、處理病人數據的方法有差異,醫護人員的一時疏忽則會導致數據無效。這些原因導致了醫療數據非結構化、噪聲數據問題,進而影響了醫生預後診斷的準確性。

谷歌軟件工程師Constanza Fierro團隊認為,可以訓練一個AI模型,使其利用高度非結構化數據或噪聲數據進行預測。經過嘗試,他們研究出一種深度學習架構,能夠預測患者出院後30天內再次入院的風險。

研究人員用一個西班牙語醫療數據集對該架構進行了測試。美國醫療機構曾利用該數據集進行過相同預測。研究人員對比了模型預測結果和美國醫療機構的結果。對此顯示,模型預測結果與美國醫療機構的結果基本相符。

但是,Fierro指出,這個模型的可能不適用於沒有儲存醫療數據的國家。

四、建模效率低?讓AI自動化學習

不同的疾病對應着不同的解決方案,相應地,為不同疾病建模需要用到不同的技術和模型。

劍橋大學教授、艾倫·圖靈研究所研究員、加州大學洛杉磯分校校長教授Mihaela van der Schaar認為,為每種疾病各建一個AI模型效率太低,她主張使用可以大面積推廣的自動機器學習(AutoML)方法,讓AI模型自動化學習合適的參數和配置。

在實驗對比幾種AutoML模型後,Mihaela提出一個針對臨牀預後量身定製的預測建模管道設計的自動化系統AutoPrognosis。

據她介紹,AutoPrognosis是“一個為臨牀預測量身定製的自動涉及預測模型管道系統”。AutoPrognosis不會試圖找到唯一的最佳的預測建模管道,而是使用各種管道的“集合”做出預測。

儘管這個模型可以自動化對疾病做出預測,但是它還有一些侷限性,比如缺乏可解釋性。

透明性和可解釋性是AI模型可不可靠的重要參考依據,即能向非專業人士解釋清楚得到的結果。尤其是在醫療領域這樣做任何決定都必須非常嚴謹的場景,用AI模型來診斷疾病更需要可解釋性,也即是能給出令醫生信服的決策依據。

五、影像難解釋?把它分區域量化

如前面所説,AI模型的可解釋性十分重要。許多研究人員研發出神經網絡的可解釋性方法,但學界還未在評估這些解釋方法上達成共識。

這意味着需要一種客觀的度量標準,來告訴研究人員哪種可解釋性方法適合用於其任務。

針對這一問題,丹麥大學計算機科學博士Laura Rieger及其團隊提出一種特徵迭代移除(IROF,iterative removal of features)的新方法,能以較低的計算資源和很少的數據,對可解釋性方法進行客觀的定量評估。

IROF的評估指標以診斷的準確性為基礎,避開了現有評估方法中相鄰像素之間的高相關性,並且不依賴可能會產生偏差的人的視覺檢查。

在會議現場,Laura用一個具有可解釋性的神經網絡反證了IROF方法的穩健性。

她選用了一個圖像分類神經網絡,輸入一張猴子的圖像,神經網絡快速輸出了正確的分類,即黑白圖像,其中圖像較亮部分對分類精度的重要性要高於較暗部分。

然後,Laura用計算機視覺算法對猴子圖像進行圖像分割,得到一系列圖像子區域。

研究人員在識別出對分類精度最重要的淺色子區域後,用“平均值”替換這些淺色子區域,這樣再次運行圖像分類神經網絡的準確率就會下降;接着,識別圖像的第二重要部分,再次應用平均值,然後再次運行圖像分類神經網絡……隨着替換過程進行,圖像分類神經網絡的準確性呈現出曲線形下降。曲線上方的面積被稱為IROF得分,可以作為評估神經網絡可解釋性的一個定量標準。

AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法
六、影像質量差?用數據集模擬偽影和噪聲

CT斷層成像是一種廣泛應用的醫療檢測手段,可以檢測出中風、骨折等疾病。但是,並非所有的醫療機構都有能力配備頂尖的CT掃描儀。在醫療實踐中,為了控制成本,有些醫療機構不得不選用低成本的設備。

低成本CT掃描儀的價格更經濟、耗電量也較低,但成像中容易出現偽影、噪聲數據問題,為醫生增加讀片障礙。

斯坦福大學電氣工程博士Sarah Hooper及其團隊提出了一個基於卷積神經網絡(CNN)的影像自動分類工具,可以自動分類有偽影、噪聲數據的低質量頭部CT影像,幫助醫療機構控制成本。

低成本CT掃描儀中常出現x射線管電流小、投影數量少、掃描角度有限等三類問題,這些會導致CT影像質量不高。

由於有代表性的低質量數據有限,研究人員用近一萬張頭部CT影像數據集,通過成倍減少電流、投影數量、改變掃描角度來模擬那些真實圖像中的噪聲,藉助CatSim仿真軟件創建了龐大的合成數據集,然後用這些數據來訓練CNN模型。

運行結果顯示,在這三類低質量影像中,經訓練的CNN模型均能克服頭部CT影像分析的硬件限制,準確分類出異常影像。

AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法

除了上述模型,其他研究人員還展示了一些其他醫學影像相關研究工作,比如自動化頸動脈斑塊的3D超聲掃描、從顯微鏡圖像診斷瘧疾、在計算機輔助手術中用AI增強立體攝像機信息、利用圖像質量轉移人工增強MRI圖像、改進乳腺癌篩查的圖像分類等。

結語:革命雖未成功,曙光就在眼前

無論把AI技術應用於哪個領域,研究人員都需要解決技術、安全性和穩健性問題。但客觀上來説,醫療保健領域更為特殊。因此,智慧醫療工具的落地面臨更多困難。

如果能夠攻克技術和安全性難題,AI技術或可為醫療資源匱乏、醫療資源不平衡等問題提供解法,還能提高整體醫療水平。

正如劍橋大學教授Mihaela van der Schaar在其演講結束時提到的,“我們正處於這場革命的開始,還有很長的路要走。但這是一個令人興奮的時刻,是專注於此類技術的重要時刻。”隨着AI醫療類研究持續推進,機器學習將為臨牀醫生、醫學研究人員和患者帶來更強大可靠的新工具。

文章來源:VentureBeat

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3785 字。

轉載請註明: AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法 - 楠木軒