雷鋒網訊息,7月9日,2020世界人工智慧大會雲端峰會開幕。會上,騰訊營運長任宇昕公佈了用AI助力藥物研發領域的最新進展——由騰訊自主研發的首個AI驅動的藥物發現平臺“雲深智藥(iDrug)”正式對外發布。
雲深智藥平臺的推出,將幫助研發人員提升臨床前藥物發現的效率,有望緩解新冠疫情威脅下,醫藥行業亟需快速、低成本地進行藥物研發的痛點。
騰訊已和多家藥企達成合作,將AI模型應用到實際藥物研發專案中。目前已有十餘個專案,包括對抗新冠病毒藥物的相關研發等,在雲深智藥平臺上穩定執行。
“雲深智藥”的命名出自唐詩《尋隱者不遇》,“只在此山中,雲深不知處”,暗含新藥研發背後相似的歷程。
該平臺旨在覆蓋臨床前新藥研發的全流程,包含蛋白質結構預測、虛擬篩選、分子設計/最佳化、ADMET性質預測(即將開源)及合成路線規劃等在內的五大模組。
蛋白質結構預測作為藥物設計的基礎,對了解生物體內分子間的相互作用至關重要。此前藥企、科研機構等透過傳統方式進行蛋白質結構的實驗測定,往往難度大、週期長、費用高。
而透過深度學習模型預測出蛋白質結構以及功能後,計算機可以更快的從數億的海量小分子中,快速而有針對性地找到潛在的苗頭化合物,有效提升研發效率。
此次在雲深智藥平臺上,騰訊AI Lab應用了一項預測蛋白質結構的新演算法。資料顯示,騰訊新演算法在困難案例(hard)上的提高非常顯著,比業內公認的權威方法Robetta提高了10%。
自2020年加入蛋白質結構預測的全球權威測試平臺CAMEO以來,騰訊AI Lab團隊憑藉該自研演算法,半年內五次奪得月度冠軍。
這項演算法的創新思路也已應用在雲深智藥平臺上,將在新靶點發現、疾病機理研究上進一步發揮應用價值。
在藥物虛擬篩選和ADMET性質預測方面,騰訊AI Lab也在多個公開資料集上取得較高精確度、突破了業界標準。後續ADMET預測模組將開源大規模自監督分子圖預訓練GX模型,分子生成模型預計也將在下半年開源。
雷鋒網瞭解到,目前,虛擬篩選和ADMET性質預測兩個工具模組已免費對外開放使用,蛋白質結構預測、分子設計/最佳化、合成路線規劃等模組也將在未來幾個月陸續上線,後續平臺還將研發更多藥物發現功能模組和分析功能。
除了能夠免費使用平臺搭載的核心功能外,藥企、科研機構還可以與騰訊共同開發定製化的AI工具。
雲深智藥平臺融合了騰訊AI Lab和騰訊雲在前沿演算法、最佳化資料庫以及計算資源上的優勢,使用者不需再自行部署,登入平臺就能快速地將AI能力引入現有的研發流程中,可以更便捷地展開研究。
以下為詳細的技術解讀平臺提供資料庫-演算法-算力一體化服務
AI助力藥物研發,演算法、算力、資料三要素缺一不可、且相輔相成。先進演算法可對已有大資料深度挖掘並分析資料間的隱含關係。
這個過程不僅直接助力新藥發現,還整合了大量已有資料庫,同時促進新資料的產生和積累,更好地最佳化演算法。最佳化的演算法反過來也能降低模型對資料量的依賴,提高模型的範化性。
騰訊的算力支援則加快了資料庫儲存查詢、演算法迭代速度,並大大縮短使用模型的運算時間。
雲深智藥平臺除了在演算法領域不斷創新,還提供算力和資料庫的一體化服務支撐。
資料方面,分子大資料是藥物研發中的基礎設施。
現有的藥物分子公開資料集,以PubChem和ChEMBL等為代表,其來源多樣。但也由於資料來源於不同機構的不同實驗環境,存在資料難以對齊,欄位缺失較多,總體質量不佳的問題,從而難以直接用於開發預測模型。
雲深智藥平臺使用的分子大資料,基於現有公開資料集,進行了多個環節的精細清洗整理工作,得到可以用於直接構建深度學習模型的藥物分子大資料集,並且已在多個藥物研發的專案中得到應用驗證,清洗過程對多個專案的結果均有很大的提升作用。
清洗過後的、打通多個數據庫的大資料集已在陸續上線中。
算力方面,騰訊云為雲深智藥平臺提供計算資源,藥企、科研機構登入平臺即可開展研究,不需要再自行部署,就能快速地將AI能力引入現有的研發流程中。
平臺功能覆蓋新藥發現全流程
臨床前新藥發現流程要經歷從靶點的發現和驗證、苗頭化合物的發現、先導化合物的發現和最佳化直至臨床候選化合物的確認及開發。「雲深智藥」平臺覆蓋了臨床前新藥發現的全流程。
新藥發現的第一步是靶點識別和確認,找到藥物在體內的作用位點,確定靶點蛋白質的結構是其中的關鍵工作,被視為藥物研發的重要基石。
比如一個蛋白參與了某個疾病併成為關鍵通路上的重要一環,那麼當研究人員瞭解該蛋白的結構後,就可以針對性地設計藥物分子來調節蛋白的功能。
實驗測定蛋白質結構往往難度大、週期長、費用高;透過深度學習模型預測出蛋白質結構以及功能後,計算機便可以更快地從數億的海量小分子中,快速而有針對性地找到潛在的苗頭化合物。
雷鋒網瞭解到,「雲深智藥」平臺採用的蛋白質結構預測方法在準確度上達到國際領先水平,得益於兩項關鍵技術上取得突破。
一是基於自監督學習的蛋白質摺疊方法,不依賴同源序列,而是直接從序列資料庫中透過自監督學習,學得共進化的模式,從而能夠從無到有地產生出含有共進化資訊的偽同源序列,並最終讓這些蛋白能夠有效摺疊;
二是透過一種基於深度學習的可迭代方法,有效整合模板建模與自由建模,首次提出了動態的、可迭代的氨基酸對特異性的約束條件,顯著提高了建模的精度,從而更好的摺疊蛋白。
針對靶點篩選苗頭化合物是新藥發現的第二步。與傳統的實驗篩選相比,計算方法進行的虛擬篩選無需消耗化合物樣品,能極大節省人力物力。
基於配體的藥物設計方法(ligand-based drug design,LBDD)是虛擬篩選的常見方法之一,是指從已知的有活性的配體小分子結構出發,學習和建立分子結構與活性之間關係的模型,用來預測新化合物的活性。
由於很多靶點的已測得的化合物活性資料非常有限,嚴重製約了預測模型的準確性。
AI方法有望解決這一問題:例如「雲深智藥」平臺的虛擬篩選模組首次將元學習和深度神經網路演算法用於LBDD任務,透過AI”遷移“從其他靶點上面學習到的知識(如分子區域性結構對靶點結合強度的影響),應用在目標靶點上來提高模型預測精度。
目前,該演算法在數千個實驗資料集上預測精度(預測活性與實驗測量活性的相關性)的中位數從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60%,突破業界標準。
進入藥物研發後期,預測分子的ADMET性質尤為重要(包括藥物的吸收、分配、代謝、排洩和毒性)。據統計,因ADMET性質問題引起的藥物後期失敗的比例高達60%。
因此,及早發現並排除成藥性欠佳的分子能夠大幅降低後期藥物研發失敗的風險。基於AI的ADMET性質預測能夠讓藥物化學家快速地進行分子結構改造,最佳化分子理化性質,縮短藥物研發的週期,降低實驗測試成本。
「雲深智藥」平臺的藥物小分子ADMET屬性預測模組已在多個數據集上比學術界現有最好模型提高3%~11%;在合作伙伴的反饋中,平臺的自研演算法精度超過現有商業軟體6%~37%不等。
同時,平臺採用了注意力等機制視覺化分子中的子結構對結果的影響,提供模型的可解釋性。此外,平臺還可提供當地版本等靈活的部署形式,保障使用者的資料安全。