對話商湯副總裁張少霆:新基建下,醫療AI有哪些新故事?
在2018年的商湯人工智能峯會上,商湯醫療正式對外亮相。
與大多數搭建在已有底層系統的AI公司不同,商湯最大的特點是“平台化”。而這種策略,意味着前期更多的資源投入,以及後期更快的成果產出。
推出兩年多以來,商湯的醫療又有哪些新的故事?這些故事又能為醫療AI行業帶來哪些新的氣息?
“以前我們經常講‘研究推動產品,產品推動商務’,這通常是在一個新興技術剛剛出現的時候,因為這時市場還不知道你能幹什麼;等到市場逐漸對技術有了一定程度的認知之後,就應該反過來‘由商務驅動產品,產品驅動研究’,形成一個良性循環。到了這個階段,就需要企業認真思考幾個經典戰略問題:‘客户是誰?痛點是什麼?你有什麼方案?’”
張少霆在接受雷鋒網採訪時,介紹了自己對商湯醫療AI戰略的思考。而這些思考的結果,也體現在了商湯醫療今年對外透露的成果:產品上,新推出了心臟冠脈、肝臟等診斷方案;學術上,探索聯邦學習在醫療數據隱私上的可行性以及數據標註噪聲等方面的研究。
用工具鏈解決“長尾問題”一個好的醫療AI產品該滿足哪些特徵?
中華醫學會放射學分會主任委員金徵宇教授在今年WAIC商湯企業論壇上表示,人工智能影像產品有四個標準:功能易用性、效果魯棒性、臨牀專業性、應用多樣性。
商湯科技副總裁、商湯研究院副院長張少霆向雷鋒網表示,金徵宇教授的標準是從醫生的需求角度出發,而要落實醫生的需求,醫療AI的工作要做好兩方面:研發高精度的算法、開發適應工作流的產品。
在今年的WAIC商湯企業論壇上,商湯科技CEO徐立説到,要解決長尾行業應用的實踐,不能只聚焦在頭部的應用當中。人工智能不能只有一個亮點、解決一個核心的問題,真正要做到效率的提升,需要解決大量的細節問題。
醫療AI行業就是一個典型的長尾應用行業,不同的部位、不同的疾病、不同的診療環節當中,都存在着可以使用AI技術提升效率、提高準確度以及提升能力的場景。
但是這些不同的應用場景,很難抽象出一個或幾個通用模型來解決問題。醫療AI行業的長尾特性,就使得像行業剛剛起步階段,各家公司紛紛投入大量人力,針對某一個問題標註大量數據來訓練模型,並且通過大規模落地醫院打磨產品的開發方式難以持續。正是因為這個原因,新應用的推出往往較慢。
順着這個思路,從兩年前開始,商湯就提出了“工具鏈”的概念:用AI算法迭代AI算法,生產更多的模型。
張少霆説到,“去年,我們的商用模型數量超過研究員的數量,這也是‘解決長尾問題’這個思路下的產物。”
另外,長尾場景的另一個問題則是,很多場景很難找到大量的經過高質量標註的訓練數據。在解決小樣本以及噪聲標註的問題上,商湯也有了一些成果。
“最近我們有幾個研究性成果可以應對多中心數據的差異性,以及不同標註粒度的混合監督等問題。從算法層面,我們主要做了這兩個維度的努力,以解決長尾場景。”
從應用擴展來看,去年,針對臨牀醫生的實際痛點和商湯本身的戰略邏輯,商湯正式推出了SenseCare®️智慧診療平台,該平台由兩大引擎驅動:高併發三維渲染能力及可拓展的臨牀AI應用。
簡單理解來説,SenseCare®️智慧診療平台的兩個引擎可以類比於提供電力的發電機,其標準化和模塊化的設計則像插座和插頭,各個臨牀科室的AI應用則可以理解為一個個用電的機器。
隨着這些AI應用不斷豐富,就可以自由組合,形成適合不同地區、不同等級、不同專業方向的醫院的覆蓋診斷、治療及康復的完整工作流的智慧醫療解決方案。
在這次WAIC上,除了展示原有的肺部、骨腫瘤、病理幾大應用,商湯還推出了心臟冠脈的診斷產品,今年下半年即將推出肝臟疾病的診斷產品。
“提到影像AI,大家都會想到那幾個標準化的產品:肺結節、骨齡、乳腺這些診斷軟件,而且各自獨立。但介於不同的醫院、科室和醫生對診療流程中各個環節的需求存在差異,因此對醫療AI產品的訴求也就各不相同。”
以結節為例,早篩的醫院和腫瘤醫院差別較大。早篩主要關注小結節敏感性,腫瘤的診療要看一定尺寸以上結節的生長速度。同理,做穿刺和做切除的醫生,關注點也不一樣。
因此,這就要求醫療AI公司做好兩個點:一方面用算法能力解決長尾問題,另一方面,增強平台的擴展性,縮短新應用的開發和部署時間。
而這樣的思路,也是商湯“平台化”的映照:當智慧醫療平台作為基礎設施為一家醫院整體賦能時,需要儘可能地滿足多個科室的需求,同時兼顧未來的可擴展性,減少進行單點產品的採購成本,避免重複性建設。
今年,張少霆代表商湯參與編寫了由人民出版社出版的《新基建:數字時代的新結構性力量》中與智慧醫療相關的內容。
他表示,編寫的過程讓自己有機會站在更宏觀的角度來思考,當政府把醫療人工智能作為未來十年社會基礎建設的一部分的時候,企業應該拿出什麼樣的產品和方案,來滿足基礎建設的需要。
“內生性”的平台化戰略“平台化”的思路,並不是商湯一家獨有。
例如,醫療器械的三大領頭羊,從兩年前就開始部署數字化醫療應用的大平台:西門子的Teamplay、GE醫療的Edison以及飛利浦的神飛雲,通過自研應用以及在行業裏尋找合作伙伴的方式,給自身增添更多的豐富性。
除此之外,像英偉達的Clara平台也依照這個思路進行佈局。
對於巨頭們的這一思路,總部在美國的深透醫療創始人宮恩浩就解釋到,美國醫院的IT部門非常保守,行動遲緩,他們不願意同時和十幾家公司合作來改進IT設施。因此,相對來説,marketplace是一個比較理想的解決方式。
此外,雅森科技CEO陳暉曾向雷鋒網表示,平台化轉型的一個原因是,各家都希望用更多的數據創造更多的產品形態。
但是,商湯與其他器械類企業的“平台化”戰略區別在於:一個“內生性”較強,一個“開放性”更足。
整體看來,商湯的平台化戰略需要需要企業對行業有更深的理解,能夠站在全局的角度來審視客户的流程痛點。但是,從另一個角度看,這也會對企業提出更高的要求:從不同醫院客户的眾多需求中,分辨出具有普適性的需求。
受制於B端客户細碎的需求,ToB公司給人的一個感覺是辛苦的項目制模式。因此,在醫療這樣B端屬性明顯的行業裏,創業公司需要追求“高複用率”,進而降低產品的邊際成本。
對於這樣的實際情況,張少霆認為,“算法可以多線同步進行,但產品需要經歷開發、落地驗證、迭代優化的過程。要做一款較完備的落地產品,即便在我們這樣一個平台型架構上,半年的時間也是比較正常的週期。”
然而,做平台產品的企業,最關鍵的還不在於架構的設計,而是在於對業務的梳理和收斂。
張少霆説到,商湯醫療會在SenseCare®️智慧診療平台上做更多滿足“基礎設施”標準的產品,儘量避免純定製化的內容,因為一個完備的產品需要時間的調研和打磨。當價值點滿足大多數醫院的需求,我們才會考慮。
聯邦學習,能否改變醫療數據的遊戲規則?除了覆盤一年裏商湯醫療的產品,張少霆還花了比較多時間談論公司在學術上的成果。
畢竟,商湯被稱為中國AI博士密度最大的學術基地。
而這一次,他們瞄準了醫療數據安全——這是一個老生長談的話題,但也是一個老大難的問題。
金徵宇教授在演講中也談到,“AI在醫學領域的應用還存在着很多倫理、隱私、信息安全問題亟待解決。AI研究需要從純商業利益驅動提升到公共政策驅動,接受政府、社會的監督。
實際上,關於醫療數據安全的信號,一直在不斷釋放。
2018年4月,國家衞生健康委發佈《關於印發全國醫院信息化建設標準與規範(試行)的通知》,對二級及以上醫院的數據中心安全、終端安全、網絡安全及容災備份提出要求。
至此之後,多項監管政策不斷落實到醫療行業,國家對醫療行業網絡安全高度重視——無論從醫院、基層醫療機構信息化建設,還是當前發展火熱的“互聯網+醫療健康”、“醫療大數據”,都在強調落實做好網絡安全工作。
在張少霆看來,數據安全應該分為兩個維度:
首先,產品在醫院落地後,日常數據如何保持安全性;其次,基於多中心大數據的算法開發,能否遵守數據不出院的嚴規。
針對第一個問題,商湯醫療去年提出的一個方法就是高併發且可交互的遠程三維數據渲染,保證數據不出數據中心、不離開醫院,但仍可以像本地工作站一樣分析數據。
第二個維度,為推動AI的應用規範,商湯科技在去年成立了AI倫理委員會,並在今年6月與上海交通大學清源研究院聯合發佈《AI可持續發展白皮書》。白皮書的一個論證重點是:怎樣在嚴格管控的前提下進行算法開發,既要避免出現“一管就死”也要避免“一放就亂”。
“我們一方面在看國際的經驗,同時也要關注國家的政策,通過一些準則的制定,幫助國家把AI產品數據規範慢慢理順。”
對於醫療數據安全,除了政策層面的約束,其實在技術層面也有不少的方法,比如説聯邦學習。
2016年,谷歌提出了針對手機終端的聯邦學習,微眾銀行AI團隊則從金融行業實踐出發,關注跨機構跨組織的大數據合作場景,首次提出“聯邦遷移學習”的解決方案,將遷移學習和聯邦學習結合起來,為解決多中心數據孤島的問題提供了一個很好的解題思路。
但是,張少霆也坦言,在醫療行業,傳統的聯邦學習方法需要聯動多家醫院,進行不同中心點之間的通信,這樣的環境很難部署。如果由企業端去發起,難度很大,而是更應該由監管方自上而下地推動。
考慮到傳統聯邦學習的弊端,在今年入選ECCV的一篇論文中,商湯提出了基於分佈式生成對抗網絡(GAN)的結構來實現。
在傳統的方式裏,參與方最後會得到一個具體的任務模型,比如一個腦腫瘤的分割模型。而商湯提出的方法則是通過生成對抗網絡的博弈式學習,最後得到的是一個數據生成器,可以生成近似真實的腦腫瘤的醫學圖像。
商湯的一位研究員給我們打了一個比方:數據生成器的學習過程有點像給嫌疑人(原始數據)畫像,畫像師(生成器)從沒見過嫌疑人,但通過多個目擊證人(各中心鑑別器)的反饋描述,最後畫像師(生成器)畫出了和嫌疑人相似度很高的畫像。
從這個過程中,商湯方法就能學習到數據生成器。與此同時,生成器可以生成訓練數據,形成大數據庫,供下游的具體任務模型使用,使模型可以不再依賴多中心原始數據也能持續擴展改進。
值得注意的是,生成器有一定程度的終身學習能力,來應對實際應用中可能出現的動態變化的多中心環境。比如在學習過程中,不斷有新的中心加入或某些原有中心退出的情況。
“這種方法有很大的想象空間,可以説為解決所有醫療AI模型開發和驗證中不可避免的數據倫理問題提供了一個全新的思路。對機器學習算法類公司來説,有了數據之後,就可以生成數據集,而且不涵蓋任何的安全信息和隱私信息;對監管方來説,直接收集醫院的數據也有很多隱患。但是生成模型就可以幫助監管方動態地生成數據庫,幫助進行算法的橫向評估、後續迭代。”
當然,張少霆也表示,目前這個算法仍是進行“探索性”的工作,短期內還不會將其商業化。
醫療AI迎來最好的時代今年,是醫療AI行業最好的一年。
細數一下上半年,已經有三款醫療AI產品獲NMPA的批准,頂層設計不斷成熟,國家也陸續出台了相關政策鼓勵AI產業發展,推動AI技術與產業的深度融合和落地應用。
進入2020年,“新基建”的建設步伐開始加快。
北京、福建、河南、雲南、廣東、江蘇等多地已經發布2020年重大項目投資計劃清單。據不完全統計,目前各地關於“新基建”的投資計劃規模合計已超40萬億元。
去年世界人工智能大會期間,張少霆在接受《澎湃新聞》採訪時表示,如果未來人工智能發展得像水電煤一樣,在生活的方方面面、各個環節都能降低具體某項事情的成本,使大家都能夠用上,這會是商湯期望看到的現象。
客觀看來,在社會和行業的綜合利好下,以“醫學影像AI”為代表的醫療AI行業,還有非常多的新故事可以講述,這就需要醫療AI公司們,在學術和產品上集思廣益,貢獻更多的新思路和新方法。