楠木軒

下圍棋的 DeepMind 成了「藥神」,這事兒和你我都有關

由 無英 發佈於 科技

AI 介入醫學讓救治變得更高效,同時也在顛覆人類認識科學的方式。

「這將改變醫學,改變研究,改變生物工程,」生物學家 Andrei Lupas 這樣評價 Alphabet 旗下的 DeepMind 最新推出的蛋白質結構預測 AI——AlphaFold 2。

「它將改變一切。」最後這句話直接被《自然》雜誌用作封面標題。

Lupas 之所以這麼説,因為他本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質摺疊後的形狀,但藉助 AlphaFold 2 後,他在半個小時內就看清了那團彩色的,像是被手掌捏出特定形狀的「珠子項鍊」。

蛋白質會摺疊成特別的三維形狀,很像「珠子項鍊」|視覺中國

知道「珠子項鍊」摺疊後的三維形狀至關重要,因為它決定了蛋白質如何工作。開發新藥的科學家要是能知道蛋白質的形狀,或許就能幫助他想出可以與蛋白質結合的分子。分子一旦和蛋白質結合,就能改變它,從而治癒疾病。

以新冠為例,科學家一直在試圖研究新冠病毒表面的刺突蛋白是如何與人類細胞中的受體相互作用的。而像老年痴呆症這種由錯誤摺疊的蛋白質引起的疾病,人們一旦看清了蛋白質的結構,就能在現有的藥物中快速匹配治療或者嘗試新的療法。

儘管學界都知道蛋白質結構至關重要,但要弄清楚卻不是件容易的事情,如今人工智能的成熟應用給了預測蛋白質結構另一種可能。

在有着「蛋白質奧林匹克競賽」之稱的國際蛋白質結構預測競賽(CASP)上,AlphaFold 2最終擊敗其他人類選手,拿到了冠軍。談及這個 AI 模型預測的準確性,有的參賽者甚至沮喪地説,「我懷疑很多人會離開這個領域,因為核心問題可以説已經解決了。」

科技圈同樣興奮不已,Google CEO Sundar Pichai、斯坦福教授李飛飛和特斯拉 CEO 埃隆·馬斯克第一時間在社交媒體上轉發祝賀。

困擾了學界 50 年的難題

1972 年的諾貝爾化學獎得主 Christian Anfinsen 最早提出,氨基酸(珠子)按照一定順序排列,會讓蛋白質(項鍊)形成一個固定的三維結構。而基於「珠子」的序列可以計算並預測「項鍊」會扭成什麼形狀。

蛋白質對生命體而言至關重要。幾乎所有疾病,包括癌症、痴呆症都與蛋白質的功能有關。蛋白質的功能完全取決於它的三維結構形狀,而蛋白質功能則關係着我們健康與疾病的一切。因此,瞭解了蛋白質的三維結構有助於人們設計新藥、防治疾病,無論是遺傳疾病還是感染疾病。

但蛋白質「項鍊」能摺疊出數以億計的形狀,對其結構的預測就成了一件有着巨大挑戰的難題。

1969 年,美國分子生物學家 Cyrus Levinthal 指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有 10^300 種可能構型

現實中,目前人類只是試圖破解一種蛋白質的形狀就需要數年的時間,和昂貴的儀器設備。科學家們在實驗室中一般使用諸如 X 射線晶體學(X-ray crystallography)和核磁共振光譜法(NMR spectroscopy)這樣的傳統技術確定蛋白質的三維結構,以瞭解蛋白質分子中每一原子的相對位置。

從 1994 年開始,每兩年就會舉辦一次國際蛋白質結構預測競賽(CASP),評審團會拿科學家團隊用電腦所預測的蛋白質結構與使用實驗室方法得出的三維結構結果進行比較。

例如,華盛頓大學的 David Baker 開發了一套名為「Rosetta」的計算機程序來預測蛋白質結構。他的思路是:如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對應的能量狀態,就能得到蛋白質結構了。但現實挑戰是,目前計算機的計算能力並不足以支撐這種窮舉,一旦遇到複雜的蛋白質,這套程序就不適用了。

AlphaFold 和 AlphaFold 2 的分數對比|nature

2016 年以前,CASP 大賽中最高預測分數最高也只到了 40GDT 左右,離代表實驗室結果的 90GDT 還有很大差距。美國時間 11 月 30 日,DeepMind 的 AlphaFold 2 在評估中的總體中位數得分達到了 92.4GDT。想比兩年前的 AlphaFold,AlphaFold 2 刷新了記錄,從 60GDT 一躍上升為 92.4GDT。

「在某種意義上,難題已經被解決了。」CASP 的共同創始人 John Moult 告訴《自然》。

AI「畢業了」

第一版的 AlphaFold 雖然刷新了 CASP 的紀錄,但卻沒能激起很大的水花,因為它並不算真正的 AI 完全體,它還借鑑了上面提到的「Rosetta」等計算機程序的成果。但 AlphaFold 2 就不一樣,它是一個 AI 完全體。AlphaFold 2系統所使用的數據,來自包括約 17 萬個蛋白質結構,以及未知結構的蛋白質序列的大型數據庫。在訓練時,它使用了大約 128 個 TPU v3 內核(大致相當於 100-200 個 GPU),並僅運行了數週。

「從 17 萬個已經知道三維結構的蛋白質分子中,科學家們挑一個,把它的氨基酸序列信息『喂』給算法,算法大致『猜測』出一個三維結構。然後,算法把它的猜測和已知的三維結構進行對比,並且根據猜測的結果是不是靠譜,繼續調整猜測的策略。這樣反覆用 17 萬個三維結構訓練,算法逐漸就獲得了直接從氨基酸序列預測蛋白質三維結構的能力。」浙江大學生命科學研究院教授王立銘「簡化」了 AlphaFold 系統的運行過程。

他還認為,用 AI 預測蛋白結構實際上是在踐行這樣一種思路:既然我們知道氨基酸的順序決定了蛋白質的三維結構,有沒有可能不做實驗,直接從氨基酸的順序出發,推測蛋白質分子的三維結構呢?

目前人類知道氨基酸順序的蛋白質分子有 1.8 億個,其中三維結構信息被徹底看清的只有 17 萬個,還不到 0.1%。僅僅通過耗時耗錢的實驗顯然是「杯水車薪」。

BBC 記者 Helen Briggs 表示,AI 的學習速度驚人,它用幾天的時間就能達到實驗室幾十年的研究水平。

但要實現這樣高效的研發,DeepMind 必須與科學家分享這項 AI 技術。DeepMind 的聯合創始人兼 CEO Demis Hassabis 表示,先讓 AlphaFold 變得更有用,以便之後科學家們使用。此前,DeepMind 公佈了第一版 AlphaFold 足夠多的技術細節,讓科學家們複製這個 AI 預測的方法。

目前,DeepMind 還沒有公開關於 AlphaFold 2 的更多技術細節,和未來知識共享的計劃。但這個全新的 AI 模型已經讓科學界和科技圈激動不已。

過去幾年,DeepMind 靠旗下的電競 AI AlphaStar 和圍棋 AI AlphaGo「出圈」。它們在《星際爭霸》和圍棋策略遊戲中碾壓了職業玩家。而現在,DeepMind 似乎要「畢業」了,不只在遊戲中證明自己的智慧,開始解決具有現實世界意義的科學問題。而這些問題,生死攸關。

王立銘教授幻想了這樣一個場景:「一名癌症患者找到醫生,醫生測定了他體內腫瘤細胞的基因序列,發現他體內某一個特殊蛋白質發生了變異,因此導致了癌症。同時,醫生還能對這種特殊蛋白質進行結構預測,有針對性地設計一個藥物與之結合,破壞其功能,從而治療癌症。所有這一切只需要幾天時間。」在未來,疾病的診斷和治療將變得高度個性化。

更重要的,AI 介入醫學讓救治變得更高效,其實也在顛覆人類認識科學的方式。

通過「暴力」訓練,前幾年的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規則,比如怎麼吃子、怎麼判斷勝負,就可以在完全無視人類所有經驗的條件下學成絕技。人類之前在小樣本中歸納、演繹、總結再實踐的過程被顛覆了,現在是這些經驗有時候並非完全必需,只要有足夠多數據,AI 就能直接算出結果。

「只要那些複雜問題需要巨大的組合空間搜索能力才能解決;具有需要優化的明確目標函數;具有大量數據或者具有一個準確有效的模擬方法。」AlphaFold2 研究團隊説道,「那它們就能被 AI 一一破解。」

本文作者:biu

題圖來源:DeepMind