糖網AI標準數據庫能重塑AI測評嗎?

糖網AI標準數據庫能重塑AI測評嗎?

圖片來源@視覺中國

文丨動脈網

建立AI標準數據庫這一設想早在2017年便已有有識之士提出,最早的標準數據庫圈定在了彩色眼底圖像和肺部CT影像兩個範圍內,當時主要以《醫療器械軟件註冊技術審查指導原則》、《移動醫療器械註冊技術指導原則》和《醫療器械網絡安全註冊技術審查指導原則》三個指導文件作為建庫基準,建立了包含6327例數據的眼底影像標準數據庫與包含623例數據的肺部影像標準數據庫,其標準化流程可以説走到世界前列。藉助標準數據庫與相關標準流程,就可以對AI產品進行審評審批。

不過,這個數據庫並沒有沿用太久,原因主要有以下幾點:

其一,數據來源於醫院與企業的共同標註,由於缺乏數據行業標準,各家企業提交的數據差異太大,與真實世界情況發生偏移;

其二,在測評過程中,企業既是數據提供方,又是數據考核方,其結果難以保證絕對的公平公正;

其三,由於數據庫缺乏嚴謹的質量控制體系,數據質量的不可控以及不可溯源同樣存在安全隱患。當然,數據量、數據安全、數據利益歸屬等問題也一定程度上阻礙了這項工作的後續發展。

期間也有醫院、機構嘗試建立自己的測評數據庫,但一直沒有產生太大的波瀾。歸根結底,標準數據庫的建立不僅需要權威機構主導、政策助力,還需要數據標準的確定、測評平台的建立……多條件的疊加,標準數據庫才建得起來,跑得起來。

時至今日,距當年的兩個數據庫建立已經過去約30個月,醫療AI產業發生了巨大變化,大家對於醫療AI發展的桎梏與解決方案已經逐漸清晰。

在這個時間節點上,北京協和醫院重磅發佈了按《深度學習輔助決策醫療器械審評要點》構建的糖尿病視網膜病變常規眼底彩色照相AI標準數據庫(簡稱“糖網AI標準數據庫”),重啓標準數據庫建設,預示着醫療AI的第三方檢驗迎來突破性進展。據動脈網瞭解,工信部、信通院、各大醫院、高校等機構對此合作了一年多時間,才有今天的成果。

糖網AI標準數據庫是如何建立的?

2019年6月起,國家藥監局開始頻繁在醫療AI的標準制定上展開動作。6月29日,藥監局正式向AI企業發佈《深度學習輔助決策醫療器械軟件審批要點》,將審批相關的具體指標確立下來。

文件下發僅半月後,藥監局再次開展了AI器械審批相關的大動作。7月17日,國家藥品監督管理局醫療器械技術審評中心、中央網絡辦國家計算機網絡與信息安全管理中心、中國信息通信研究院等14個機構、高校聯合成立了人工智能醫療器械創新合作平台。

糖網AI標準數據庫能重塑AI測評嗎?

人工智能醫療器械創新合作平台結構

在這一組織之中,北京協和醫院負責真實數據應用工作組的管理,主導推進組內各單位學科的真實數據研究工作,承擔“中國糖尿病視網膜病變人工智能眼底圖像標準數據庫”圖像收集、標註與檢測平台搭建,這便是糖網眼底AI標準數據庫的由來。

截至2019年末,北京協和醫院陳有信主任領導的團隊便已完成了眼底數據的標註,大半年過去了,為何直到近日才公開發布數據庫?究其原因,單一的第三方測評數據庫難以進行流程化的監測,要實現規模化和標註化,還需要第三方測評平台與病種對應的測評標準。

在2020年WAIC大會上,人工智能醫療器械創新合作平台總計發佈了包括醫療人工智能測評公共服務平台、糖尿病視網膜病變常規眼底彩色照相AI標準數據庫、《基於胸部CT的肺結節影響輔助決策產品性能指標和測試方法》、《基於眼底彩照的糖尿病糖尿病視網膜病變輔助決策產品性能指標和測試方法》等多項成果。

本次發佈一次性涵蓋了數據庫、平台、標準三個要素,第三方測評從結構上看已經可以實現,AI審評審批的推動力發生了質變——醫療人工智能測評公共服務平台是基底,在保證數據、軟件的安全性的前提下安裝第三方數據庫與測試產品,並予以修正後的、符合AI產品迅速迭代特徵的測評體系。而在這之中,第三方數據庫將為其提供核心支持。

對於其中的意義,陳有信主任表示:“AI是一個新生事物,它被劃為器械,卻與傳統器械不同,我們必須用全新的眼光審視它,通過創新手段驗證它的安全性和有效性。因此,我們協和醫院領導的真實數據應用工作組便要為這樣的創新驗證打下基礎。這項工作我們從18年便開始努力,如今終得以成型。”

糖網AI標準數據庫內涵

這個數據庫的終極意義在哪裏?

從量上看,該數據庫一共包含了1.5萬張糖尿病患者後極部眼底彩照,數據來源於全國14個地區的真實世界數據,涵蓋了目前市場上主要眼底相機機型,且每個數據在入庫時都經過了嚴格的倫理審查和清洗脱敏。

糖網AI標準數據庫能重塑AI測評嗎?

從數據的採集來看,該數據庫數據包含了早期病變、中期病變和晚期非增殖型病變等不同時期、不同種類的糖尿病視網膜病變。同時,北京協和醫院對各病例分為了“無其他疾病”與“合併其他病症”兩類,使其儘可能的符合真實世界情況。

“在建庫時,我們曾詳細考慮過糖網數據庫的數據來源,希望能夠讓數據庫的病歷構成與我們世界中的實際情況高度貼合。這意味着這個數據庫既要包含各種時期的糖網病變數據,又要包含存在多種眼部疾病的數據,當然,這裏面也得有無病症患者的數據。從最後的結果來看,31%的圖片包含其他合併病變,這與真實世界的情況高度相符。”

糖網AI標準數據庫能重塑AI測評嗎?

AI標準數據庫數據分佈情況

在數據標註方面,所有閲片工作都由北京協和醫院眼科閲片團隊進行標註,標註後的數據將交由國內同行權威專家進行外部評審,保證了標註過程的高準確性。此外,協和醫院還書寫了完整的建庫文件,提供數據説明文件,實現了測評的可溯源性,防止實際過程中發生問題時的責任糾紛問題。

另一方面,為了滿足實際過程中的多樣的檢驗需求,北京協和醫院對AI標準數據進行了進一步的劃分,建立了“需要轉診/不需要轉診DR”、“國際分期DR”、“有/無DR”、“合併/不合並其他病變”、“畫面質量良好/差”五大子數據庫。

數據庫質量管理體系是如何建立的?

數據的管理水平在一定程度上決定着數據庫的“質量”。據悉,為建設一個高質量的糖網AI標準數據庫,建設團隊開創性地引入了ISO9001質量管理理論,按照體系中人、機、料、法、環的要求對數據的收集進行質量控制(見圖1 質量管理理論用於AI數據收集的質控)。

據參與數據庫質量管理體系設計和建設的上海博方負責人馮慶宇介紹,由於數據庫建設包括數據採集、預處理、標註及構建等諸多環節,所以在整個體系建設過程中,對數據的質量管理一一對應ISO9001質量管理體系中人、機、料、法、環的要求,將醫療環節中的要素以及管理要求予以明確。

其中:人——實施者、相關參與人員及相應的資質,如醫生、專家、算法工程師及資質要求;機——實施的設備,如具體的醫療器械、採集通訊設備、存儲設備;

料——圖像數據,如醫學圖像、生理信號、患者信息;法——法規標準及操作規程,如臨牀指南、人員管理SOP、人員操作及設備操作SOP;環——環境要求,如閲片環境、計算機運行環境、網絡環境。

糖網AI標準數據庫能重塑AI測評嗎?

圖1 質量管理理論用於AI數據收集的質控

6大特徵奠定糖網AI標準數據庫的開創性地位

在上述設計下,糖網AI標準數據庫由此具備了諸多特性。具體而言,陳有信主任將這些特性歸納為了權威性、多樣性、科學性、封閉性、動態性和規範性6個方面。

權威性:本次數據標註團隊中的14名醫生均來自於北京協和醫院眼科,且擁有至少兩年的臨牀經驗。標註過程分為兩人標註與三人標註,兩人標註時要求意見完全一致,三人標註時要求意見一致,以確保數據標註的有效性。標註後的數據首先會經由陳有信主任領銜的團隊進行內審,而當時的、標準一致性Kappa值達到了0.9427。

完成內審後的數據會交至10名三甲醫院主任醫師團隊進行外審,這一團隊由北京同仁醫院張風教授領銜,結果顯示,標準一致性Kappa值達到了0.9677。

多樣性:具體表現為數據來源的多樣性、設備的多樣性、人口信息分佈多樣性,疾病構成的多樣性。具體而言,數據庫的數據分別來源於14家臨牀機構,覆蓋華東、華北、華中、西北、東北五大區域;由多種影像設備產生,涵蓋了Zeiss VISUCAM 500、Kowa Nommyd、α-DⅢ、Kowa Nonmyd D7、Canon CF1、Daytona P200T、Topcon 50IX 6種主流眼底相機型號;覆蓋20歲到80歲年齡段,包含52%的男性患者與48%的女性患者;31%的圖片包含其他合併病變,以符合真實世界情況。

科學性:來源於數據庫本身。15000張圖片量創造了行業中第三方數據庫數據量的紀錄,同時,這些數據在採集之時便經過了嚴格的篩選,以覆蓋DR國際分級、激光術後、合併其他病變、圖像質量識別等多種臨牀實際場景,這賦予了數據庫生命——並非簡單的數據合集,而是真實世界的縮影。

封閉性:包含數據庫的封閉管理與測評過程的封閉管理兩個維度,尤其是後者,企業未來在參與測評,與公共服務平台合理助力產品測評時,兩者間的VPN通道需遵守“加密”和“只進不出”原則,以保證數據庫內數據的安全性與測試過程的公正性。

動態性:雖然數據庫處於封閉管理之下,但並不意味着數據的一成不變,在陳有信主任的計劃之中,這一數據每年會對5%的數據進行流動管理,即淘汰部分舊的數據,並在每年新增同一類型的新數據。

“如果不作動態更新,那麼測試過程中似曾相識的照片就會逐漸增多,反覆測試説不定就會出現記憶的現象。此外,醫院使用的設備、影像處理軟件會隨着時間的推移而發生變化,我們的數據庫也需隨着數據產生環境的變化而不斷變化,這樣才能保證數據庫的有效性。” 陳有信主任描述道。

規範性:“從數據庫採集原始數據庫到我們數據處理的規範,到數據標註的規範,工作組有一系列的數據SOP規範,包括標註質量內部的評估規範、標註質量外部的評估規範、包括新注入的新數據、淘汰的數據,這些SOP我們寫了若干的文件。”,通過建立這些規範,使得整個數據庫建立在SOP的基礎上,同時能夠幫助我們完好的溯源。

糖網AI標準數據庫能重塑AI測評嗎?

作為我國首個擁有超過萬例數據的第三方影像AI標準數據庫,北京協和醫院建立的糖尿病視網膜病變常規眼底彩色照相AI標準數據庫能夠一定程度上代表現有市場上,企業對於第三方數據庫的需求。

更多第三方數據庫即將建立

糖網AI標準數據庫無疑為第三方AI測評開啓了新的大門,包括肺結節、冠脈CTA、心電、腦MR等等AI軟件,都需要這樣的第三方數據庫,進而連接公共服務平台進行創新測評。

“我們走出了第一步,但要推動整個醫療AI影像的發展,更多醫院應該參與進來。我們希望能把這種模式推動到每一個AI領域。”陳有信主任表示。“藉助於協和糖網AI標準數據庫的經驗,這件事在未來可以推進得更快。”

因此,糖網AI標準數據庫不僅在於它對於眼底AI產品審評審批的推動作用,更在於它開啓了一種新模式,能夠幫助AI產品通過一種創新性、權威性的方式通過審批,並在後續的迭代之中迅速完成審核。

陳有信主任同時表示:“數據收集、數據標註、SOP規則制定、數據安全問題……要建這樣一個數據庫並不簡單,需要大量優秀的醫生耗費大量的時間才有可能完成。所以,我們也在探索建立合理的激勵機制,以鼓勵更多的醫生參與到AI的建設之中,這條路任重道遠。”

眾所周知,AI產品生產企業需要不斷提高自己AI產品的性能,那麼,AI標準數據庫能夠通過提供不同的測試數據集,用以訓練產品的算法、測試產品的性能,進而推動產品的後續迭代。同時嚴謹的質量控制體系的建立,也保證了標準數據庫的安全有效性和可追溯性,從這個層面講,AI標準數據庫為醫療AI產品上市監管的安全有效性提供了可溯源的證據鏈,必將是醫療AI產品商業化進程的有力助推器。

雖説醫療AI標準數據庫的推進阻礙仍然存在,但糖網AI標準數據庫的發佈無疑是對產業的一劑強心劑。前路漫漫,已見微光。無論是AI企業、醫院,還是相關政策方和監管機構,都在多年的摸索中基本達成共識。方向有了,就能夠避免彎路。當第一個 AI產品通過公共服務平台及糖網AI標準數據庫完成測試時,醫療AI的下半場便真正開始了。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 4783 字。

轉載請註明: 糖網AI標準數據庫能重塑AI測評嗎? - 楠木軒