智東西(公眾號:zhidxcom)編 | 董温淑
智東西5月11日消息,疫情之下,AI 醫療按下加速鍵,從線上問診、輔助導診、影像篩查到新藥研發,AI均發揮出重要的輔助作用。然而相比其他應用場景,AI在醫療領域的落地卻面臨更多的困難。
不同醫療機構的數據互不流通、數據質量參差不齊、搭建AI模型效率低下、輸出結果不知道怎麼解釋……在近期舉辦的國際學習表徵會議(ICLR)上,來自劍橋大學、牛津大學、斯坦福大學等全球頂尖高校的研究人員們集中探討了這些阻礙AI醫療落地的關鍵挑戰,並有針對性地探討了解決這些問題的有效方法。
國際學習表徵會議(ICLR 2020)是深度學習領域最重要的年度會議之一,於在4月26日至5月1日以線上方式舉行。
一、AI醫療落地難!實際模型效果很一般當今醫療資源匱乏和分佈不平衡的問題日益突出,AI的應用可以緩解這種局面。比如,遠程醫療可以解決偏遠地區看病難問題,AI讀片工具可以縮短臨牀醫生判斷時間。但是,要達到這些目的,前提是AI工具的輸出足夠準確可靠。
實際情況中,不同醫療機構收集、標記、註釋、處理醫療數據的方法並不一致,X射線影像、CT影像的質量則因為機器差異而存在較大差異,患者病例或健康記錄中也常缺少信息。這些都導致了能夠用於訓練AI模型的有效數據資源稀缺,因此,一些AI模型的實際應用效果並不理想。
例如,谷歌的一個AI模型就在實際應用階段折戟。該AI模型被設計用於提升篩查糖尿病性視網膜病變的效率,根據病人眼球照片快速給出專業診斷。在實驗室測試階段,該模型可以把診斷時間縮減到秒鐘級,準確率達到了90%。
但在11個眼科診所的測試中,該模型的結果就沒有這麼理想了。首先,每個眼科診所的環境條件不同,有些診所無法拍攝出高清的眼球照片或網絡信號較差,這導致模型上傳圖片的時間變長(60到90秒)。另外,一些護士也擔憂AI模型的安全性問題。這説明通過實驗室檢驗並不完全意味着AI工具可以順利落地應用。
二、數據資源少?讓醫生臨牀經驗來幫忙許多疾病難治療都是因為相關數據太少。比如,罕見病的患者記錄就很少,相應的醫學知識也很缺乏;對於心衰等慢性病來説,及早治療是關鍵,但醫學界很難提前甄別出有患病風險的患者。
在人工智能平價醫療研討會上,韓國科學技術院(KAIST)助理教授Edward Choi提出,可以利用神經網絡來解決這些問題。一方面,神經網絡可以大面積蒐集疾病信息,儘可能多地綜合罕見病相關信息;另一方面,神經網絡可以回溯病人的電子病例,根據病人以往的健康狀況判斷出病人是否易患某種慢性疾病。
Choi表示,下一步將繼續推進研究,使神經網絡更好解決數據缺乏問題。
他計劃用一種基於圖像的注意力模型(GRAM,graph-based attention model)來進一步解決罕見病數據資源少的問題。該模型用循環神經網絡(RNN)進行訓練,是一個基於醫學本體論(medical ontologies)對疾病進行樹狀分類的工具,可以找出與罕見病相似的常見病。各種疾病的本體理論是由之前的醫學家建立起來的,已經通過實踐驗證。因此,醫生可以嘗試用常見病的診療方案來治療罕見病。
對於病人電子健康記錄數據不全的問題,Choi提出了圖像卷積Transformer模型(GCT,Graph Convolutional Transformer )。GCT可以推斷出電子健康記錄缺失的數據,為臨牀醫生提供更全面的病人信息。
三、數據沒結構化?用AI預測哪些出院患者更易再住院對康復患者進行預後診斷可以降低疾病復發風險,而醫生需要依靠病人的數據做出預後診斷。但是,不同國家和地區、不同醫療機構收集、處理病人數據的方法有差異,醫護人員的一時疏忽則會導致數據無效。這些原因導致了醫療數據非結構化、噪聲數據問題,進而影響了醫生預後診斷的準確性。
谷歌軟件工程師Constanza Fierro團隊認為,可以訓練一個AI模型,使其利用高度非結構化數據或噪聲數據進行預測。經過嘗試,他們研究出一種深度學習架構,能夠預測患者出院後30天內再次入院的風險。
研究人員用一個西班牙語醫療數據集對該架構進行了測試。美國醫療機構曾利用該數據集進行過相同預測。研究人員對比了模型預測結果和美國醫療機構的結果。對此顯示,模型預測結果與美國醫療機構的結果基本相符。
但是,Fierro指出,這個模型的可能不適用於沒有儲存醫療數據的國家。
四、建模效率低?讓AI自動化學習不同的疾病對應着不同的解決方案,相應地,為不同疾病建模需要用到不同的技術和模型。
劍橋大學教授、艾倫·圖靈研究所研究員、加州大學洛杉磯分校校長教授Mihaela van der Schaar認為,為每種疾病各建一個AI模型效率太低,她主張使用可以大面積推廣的自動機器學習(AutoML)方法,讓AI模型自動化學習合適的參數和配置。
在實驗對比幾種AutoML模型後,Mihaela提出一個針對臨牀預後量身定製的預測建模管道設計的自動化系統AutoPrognosis。
據她介紹,AutoPrognosis是“一個為臨牀預測量身定製的自動涉及預測模型管道系統”。AutoPrognosis不會試圖找到唯一的最佳的預測建模管道,而是使用各種管道的“集合”做出預測。
儘管這個模型可以自動化對疾病做出預測,但是它還有一些侷限性,比如缺乏可解釋性。
透明性和可解釋性是AI模型可不可靠的重要參考依據,即能向非專業人士解釋清楚得到的結果。尤其是在醫療領域這樣做任何決定都必須非常嚴謹的場景,用AI模型來診斷疾病更需要可解釋性,也即是能給出令醫生信服的決策依據。
五、影像難解釋?把它分區域量化如前面所説,AI模型的可解釋性十分重要。許多研究人員研發出神經網絡的可解釋性方法,但學界還未在評估這些解釋方法上達成共識。
這意味着需要一種客觀的度量標準,來告訴研究人員哪種可解釋性方法適合用於其任務。
針對這一問題,丹麥大學計算機科學博士Laura Rieger及其團隊提出一種特徵迭代移除(IROF,iterative removal of features)的新方法,能以較低的計算資源和很少的數據,對可解釋性方法進行客觀的定量評估。
IROF的評估指標以診斷的準確性為基礎,避開了現有評估方法中相鄰像素之間的高相關性,並且不依賴可能會產生偏差的人的視覺檢查。
在會議現場,Laura用一個具有可解釋性的神經網絡反證了IROF方法的穩健性。
她選用了一個圖像分類神經網絡,輸入一張猴子的圖像,神經網絡快速輸出了正確的分類,即黑白圖像,其中圖像較亮部分對分類精度的重要性要高於較暗部分。
然後,Laura用計算機視覺算法對猴子圖像進行圖像分割,得到一系列圖像子區域。
研究人員在識別出對分類精度最重要的淺色子區域後,用“平均值”替換這些淺色子區域,這樣再次運行圖像分類神經網絡的準確率就會下降;接着,識別圖像的第二重要部分,再次應用平均值,然後再次運行圖像分類神經網絡……隨着替換過程進行,圖像分類神經網絡的準確性呈現出曲線形下降。曲線上方的面積被稱為IROF得分,可以作為評估神經網絡可解釋性的一個定量標準。
六、影像質量差?用數據集模擬偽影和噪聲CT斷層成像是一種廣泛應用的醫療檢測手段,可以檢測出中風、骨折等疾病。但是,並非所有的醫療機構都有能力配備頂尖的CT掃描儀。在醫療實踐中,為了控制成本,有些醫療機構不得不選用低成本的設備。
低成本CT掃描儀的價格更經濟、耗電量也較低,但成像中容易出現偽影、噪聲數據問題,為醫生增加讀片障礙。
斯坦福大學電氣工程博士Sarah Hooper及其團隊提出了一個基於卷積神經網絡(CNN)的影像自動分類工具,可以自動分類有偽影、噪聲數據的低質量頭部CT影像,幫助醫療機構控制成本。
低成本CT掃描儀中常出現x射線管電流小、投影數量少、掃描角度有限等三類問題,這些會導致CT影像質量不高。
由於有代表性的低質量數據有限,研究人員用近一萬張頭部CT影像數據集,通過成倍減少電流、投影數量、改變掃描角度來模擬那些真實圖像中的噪聲,藉助CatSim仿真軟件創建了龐大的合成數據集,然後用這些數據來訓練CNN模型。
運行結果顯示,在這三類低質量影像中,經訓練的CNN模型均能克服頭部CT影像分析的硬件限制,準確分類出異常影像。
除了上述模型,其他研究人員還展示了一些其他醫學影像相關研究工作,比如自動化頸動脈斑塊的3D超聲掃描、從顯微鏡圖像診斷瘧疾、在計算機輔助手術中用AI增強立體攝像機信息、利用圖像質量轉移人工增強MRI圖像、改進乳腺癌篩查的圖像分類等。
結語:革命雖未成功,曙光就在眼前無論把AI技術應用於哪個領域,研究人員都需要解決技術、安全性和穩健性問題。但客觀上來説,醫療保健領域更為特殊。因此,智慧醫療工具的落地面臨更多困難。
如果能夠攻克技術和安全性難題,AI技術或可為醫療資源匱乏、醫療資源不平衡等問題提供解法,還能提高整體醫療水平。
正如劍橋大學教授Mihaela van der Schaar在其演講結束時提到的,“我們正處於這場革命的開始,還有很長的路要走。但這是一個令人興奮的時刻,是專注於此類技術的重要時刻。”隨着AI醫療類研究持續推進,機器學習將為臨牀醫生、醫學研究人員和患者帶來更強大可靠的新工具。
文章來源:VentureBeat