昨天,讓生物科學圈和人工智能圈為之沸騰的,必然是DeepMind宣佈蛋白質摺疊預測問題已被其攻破的消息。
此消息一出,立刻登上了Nature雜誌封面,標題直接評論為:“它將改變一切!”李飛飛、馬斯克等眾多大佬紛紛點贊、轉發。
這個場景是不是和當初AlphaGo戰勝了李世石和柯潔有點似曾相識?
對於AI界、圍棋界來説,AlphaGo是一個劃時代的產物,極大程度改變了人們對AI的認知,直接引領了隨後的創業熱潮。而四年來,以深度學習為特徵的AI技術,在各個垂直行業裏的落地並沒有形成“摧枯拉朽之態”,一些“先天性”的技術性難題仍然待解。
也就在今天,美國普林斯頓大學教授、結構生物學家顏寧,就AlphaGo的成果發表了一條微博,表明了自己的觀點:“蛋白結構預測不是一個新鮮學科,(AlphaFold)確實是突破,但是有了兩年前的新聞做鋪墊,現在這次委實是意料之中。”
狂歡之餘,一名“合格”的旁觀者應該發出這樣一個疑問:AlphaFold會不會是下一個AlphaGo,僅僅是一個“暴力計算”下的產物?
AlphaFold動了真格?先説結論:AlphaFold是動了真格。
與AlphaGo在圍棋界縱橫馳騁不同的是,AlphaFold是真的有望在一個人類學科中、人類對生命演進的研究中產生顛覆性的影響。
許東教授向雷鋒網表示,蛋白結構預測這一重大科學問題,在三十多年前就有多人宣佈已經解決,但極其不靠譜,後來才有兩年一次的雙盲預測大賽CASP,用事實説話。
許東是美國密蘇里大學哥倫比亞分校Shumaker講座教授,AAAS和AIMBE會士,曾因為蛋白結構預測的工作獲得2001年美國“最傑出研究與開發100人獎勵(國際2001R&D; 100 Award)”。
從1997年開始,許東教授就開始了蛋白質結構預測這方面的研究。他表示,從防病、治病的角度來看,蛋白質結構變化預測,絕對是非常重要。
“很多疾病都是在蛋白層面出現了問題,例如基因突變造成氨基酸的突變,使得蛋白結構發生變化,不能行使功能。”
現在,許東教授團隊現在和範德堡大學Jing-Qiong Kang教授的合作,就在用結構預測來研究癲癇,特別是為什麼一些基因突變可以使得幾個重要的蛋白結構造成變化,造成其部分功能喪失,致使癲癇發作。Jing-Qiong Kang教授把預測的結果與實驗進行對比,進而理解疾病。
從製藥層面來看,更是如此。
現代藥物大多的靶點是蛋白,藥物的設計幾乎都是基於蛋白的結構來進行合理的設計。現在,機器學習能夠取得非常好的預測結果,是否會取代實驗的蛋白結構發現方法?
許東教授表示,“會取代很大一部分”,尤其是在低分辨率下,特別是用冷凍電子顯微鏡進行的結構發現可能不如機器學習做的準確。
AI藥物研發公司晶泰科技CEO馬健博士也向雷鋒網表示,結構決定性質。在AlphaFold準確的預測的蛋白結構之上,我們可以更準確地預測藥物分子和蛋白的相互作用,從源頭上提高計算輔助藥物發現與設計的準確度。
同時,現在能解出的蛋白質很少,很多關鍵的蛋白質十幾、二十年都難以用實驗解析出結構。有了這項技術,研究人員就可以用這些傳統上難解出結構的蛋白作為藥物靶點、設計新藥。
AlphaFold是否被過譽了?1994年,馬里蘭大學公園分校的計算生物學家約翰·莫爾特(John Moult)與其它人共同創立了CASP。
AlphaFold在CASP14中的表現,被譽為是結構生物學領域的地震,讓無數該行業的學者為止興奮。
然而,也有網友提出了一些不同的聲音:利用計算機預測蛋白質結構很早就在做,只不過準確度一直是一個問題。目前,計算機輔助藥物設計,在有蛋白真實單晶體機構的基礎上尚且不能做到準確預測,更何況是“接近於實驗取得機構。”
從這個觀點出發,DeepMind的這一成果是否被媒體過譽了?
晶泰科技CEO馬健博士表示,現在AlphaFold的結果已經非常領先。更讓人感到振奮的是這背後AI演化發展的速度——從16年的AlphaGo, 17年的AlphaZero, 18年的AlphaFold, 到如今的AlphaFold2, 這樣的發展和迭代速度讓我們看到,人工智能的時代正在加速到來。
同時,馬健認為,AlphaFold在解決蛋白質摺疊預測問題過程中所積累的經驗和Know-how,會產生技術溢出的效果,其中先進的思想和理念將進一步在AI藥物發現的其他環節和領域帶來啓發和促進作用。
嚴謹一點看,任何一項科學成果,都有進一步提升的空間,AlphaFold也不例外。
馬健表示,下一步,在蛋白-蛋白相互作用結構、C端N端結構等領域,AlphaFold需要算得更準。
另外,目前AlphaFold預測的是最接近實驗的靜態結構,未來在藥物研發的應用中,如果能將蛋白和藥物結合位置預測的更準,需要把蛋白結構的動態變化考慮進來。
許東教授認為,這件事情需要從兩方面來看:
一方面,這確實是非常大的成就。不光是蛋白結構或者生物信息學的重大突破,也是科學史上的重大突破。五十年來,蛋白質摺疊一直是生物學的巨大挑戰。
另外一方面,總歸會有一些“泡沫”,存在一定的侷限性。AlphaFold不是把所有問題全部解決。不是光有結構,就能夠設計藥物。
許東教授介紹到,AlphaFold可以滿足95%以上的理解功能、實驗設計等需求,達到了應用的標準。
然而,它並不能總是達到一定的標準。現在,人、植物的蛋白被研究得非常廣譜,但是在微生物、病毒的蛋白裏還有很多新的fold。
和已知序列和結構相差非常大的情況下,AlphaFold做的不是特別好。
“最新的AlphaFold系統在所有目標中總體得分中位數為92.4 GDT,強調的是中位數,甚至都不是平均數。這就表明,有些蛋白的預測還是做的不太好。”
當然,他也補充到,這些預測不好的情況屬於個例,大多數情況基本上是夠用的。
傳統實驗方法是否會被取代?
目前,冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學等實驗技術,是蛋白質3D結構發現的常規武器。
現在,AI機器滾滾向前,傳統的實驗室方法是否已經難以與之抗衡?
這個問題的答案也很明確:不會。這點,正如放射科醫生不會被閲片AI所取代一樣。
傳統方法的弊端在哪裏?
一位行業專業人士表示,實驗解析存在一定的侷限性(例如X-射線晶體學需要首先對蛋白質進行結晶操作,而結晶後的蛋白質結構,未必與在生物體內的實際結構一致;部分蛋白質的三維結構可能長期無法通過實驗手段進行解析),同時實驗誤差也是需要考慮的。
實驗手段的“弊端”,在AI時代有了更好的幫手。
馬健也旗幟鮮明地表明瞭自己的觀點:“顯微鏡不會被完全取代,但是可能很大一部分工作都可以用AlphaFold來完成,甚至用計算產生的模板去指導解析實驗。”
馬健説到,蛋白是個很複雜的東西,實驗有非常多的限制。有些蛋白難結晶,不穩定,太小了的話又不適用於冷凍電鏡。如今有了AlphaFold提供結構,就可以指導實驗將蛋白質結構解出來。
“比如分享會上提到的af1503蛋白質,德國的Max Planck Institute獲得蛋白的實驗數據已有近10年,始終無法解析出結構,用AlphaFold很快就獲得了結果。”
但是,低温電子顯微鏡仍具備一定的優勢,比如在蛋白-蛋白相互作用研究上,但未來,AlphaFold很可能也可以實現準確預測蛋白-蛋白結構預測。
許東教授也認為,機器學習的方法不會完全取代實驗。
他表示,現在計算預測的準確度並不能保證每一個結構都預測的非常準,特別是在已知的結構庫中完全沒有相似結構的,預測的結果不是很準。
“在一些很關鍵的蛋白,特別是要大規模設計藥物的蛋白上,我認為還是需要做實驗,因為對結構預測的精度更高。”
而且,在一些特殊的實驗結構解析中,傳統方法仍然受用。
許東教授認為,施一公、顏寧這些生物學學者所做的一些更為細緻的研究,不是僅靠蛋白結構預測就能取代,這其中包括蛋白質的功能、機理、修飾、相互作用、動力學屬性等等,還是需要大量實驗工作。但是很多一般的實驗結構解析,確實沒有必要存在了。
AlphaFold的兩個過人之處從昨天開始,AlphaFold已經成為圈內圈外,生物學、非生物學人士的“現象級話題”。
儘管很多人發出驚呼之聲,但是,如果高度概括一下,AlphaFold的創新之處,你會提煉出哪幾個關鍵詞?
根據目前DeepMind在CASP14會議上公佈的技術方案,應該有兩點。
首先,是注意力機制的引入。
注意力機制的引入,解決了如何更好地從多序列對齊(multiple sequence alignment)數據中提取特徵以指導結構預測的問題。
在此之前,較為主流的方案是從多序列對齊數據中提取共進化信息,但DeepMind通過對比發現這種人工設計的特徵提取會丟失部分關鍵信息,而通過引入注意力機制可以較好地解決這一問題。
同時,注意力機制也應用在了迭代更新序列-殘基和殘基-殘基相互作用的過程中,從而以迭代的方式得到更為準確的距離預測與三維結構。
許東教授表示,注意力機制確實在蛋白結構預測方面上了一個台階。“AlphaFold可以把氨基酸之間的距離整合成三維結構。因為他們的算力很多,兩年前他們雖然方法和別人幾乎是一樣的,預測的距離卻準的多,在CASP裏做得很好。”
但是,許教授認為,AlphaFold今年真正的創新之處在於利用了注意力機制,可以把氨基酸之間的距離預測問題更為全局、整體的解決,同時對每一對距離的預測可靠性有更好的評價,從而看出什麼預測距離更靠譜,讓其在蛋白三維結構重建中發揮更大作用。
這麼做,就真正把蛋白已知結構進行最大化的應用。
許東教授坦言,此前,自己的團隊也思考過,但是那時候採用的是“土一點”的統計方法。
“AlphaFold確實是非常大的創新,這種創新對研究其他問題也有幫助。比如,我們現在就想用類似的思想去做單細胞數據建模的一些研究。
其次,端到端學習的引入。
端到端學習的引入,使得從輸入氨基酸序列到輸出蛋白質三維結構的過程,可以完全在深度學習的框架內實現,從而使得優化過程可以得到更為直接的誤差信號。
而之前的方法往往基於深度學習+傳統結構建模工具(例如Rosetta、I-TASSER等)的組合,這樣結構建模的誤差信號不能直接用於對深度學習模型本身進行更新。
AlphaFold的商業前景如何?雖然,在許東教授、馬健博士看來,傳統實驗室技術仍然具備生命力。但是有一點值得肯定,AlphaFold的爆炸性成果,會對其他入局蛋白質結構預測的廠商產生非常大的衝擊——猶如一條“鯰魚”一樣,攪動整個行業的現有技術和商業格局。
這次成果發佈之後,DeepMind聯合創始人及CEO德米斯·哈薩比斯(Demis Hassabis)也第一時間向外界表示:“DeepMind背後的終極願景一直是構建通用人工智能,利用通用人工智能來極大地加速科學發現的步伐,幫助我們更好地瞭解周圍世界。”
但值得注意的是,在AI領域,研究成果與商業化之間仍然存在一條鴻溝,即便是有領先算法的DeepMind也不例外。
去年,據外媒報道,谷歌母公司Alphabet旗下的人工智能子公司DeepMind2018年的營收幾乎翻了一倍,但淨虧損仍高達5.72億美元。
從這項成果來看,AlphaFold本質還是基於深度學習技術,需要算力的支持(使用了大約128個 TPU v3 ——大致相當於100-200個 GPU ),這些都是需要真金白銀的支持。
但是,行業專業人士向雷鋒網表示,從計算資源需求上來看,128個TPU v3基本還在可接受的範圍內,同時學術界和工業界後續也勢必會從算法和工程實現的角度,對計算效率繼續進行優化,來降低實際計算開銷。
因此,儘管擁有着非常前沿的AI技術,如何將所耗費的成本轉化為實實在在的商業收益,也是DeepMind需要考慮的現實問題。
AlphaFold的出現,似乎為DeepMind在醫藥領域的生意帶來了新的突破口。
印第安納大學醫學院主管數據科學的副院長黃昆教授認為,對於藥廠來説,100-200個GPU本身投資並不算太大,主要是怎麼樣建立或者維持一個這方面的團隊。這就也誕生了一些新的外包機會。幾年前,我就看到有初創公司用機器學習來做結構篩藥,不知道這個進展是會引過來更多這方面的創業還是反過來讓DeepMind獨霸一方。
許東教授也表示,這項技術的應用前景,很多程度上取決於DeepMind的商業模式,是不是能給學術界開放使用。從商業的角度來看,很多製藥公司會為此付費。
此外,AlphaFold並不是一個開源軟件,不是所有人都能拿到AlphaFold最好的版本。DeepMind也許會部分開放,但不一定開放最好的版本。
“如果是需要收費,很多研究組不見得有錢去做這個事情。像BLAST那樣進行序列比對,我覺得還有一點距離。”
馬健説到,算力現在已經不是問題。100-200個GPU是訓練的使用量,真正使用中的算力可能只是這個數字的零頭。而計算將節省大量的時間和實驗成本。
“計算機輔助藥物設計與發現以及AI的應用,經過了漫長的發展和近期的飛速發展,也已經有了質的飛躍,比如晶泰科技的智能藥物研發平台,在大部分蛋白上都可以準確預測活性,選擇性,耐藥性等藥物關鍵性質,可以在極少量的實驗下獲得理想的藥物候選。”
正如馬健所言,這項技術將開啓一個藥物研發和疾病研究的新時代,可以從原子分子層面上幫助理解疾病的作用機理,同時,與疾病相關的蛋白結構越來越多地被計算解析出來,會提供大量的新靶點,如同給藥物發現打開了一道源頭的閘門,為藥企開發first-in-class藥物創造更多新機會。
站在最好的時代路口其實,任何一項學術成果的爆發,都有前人不斷耕耘的腳步。
昨天,Deepmind消息一出,許東教授就發了一條朋友圈。
他寫道,我在這個領域做了十幾年的工作,多次參加過CASP大賽。現在終於看到這個問題被靠譜地解決了,是一件科學領域的幸事,可喜可賀!雖然DeepMind是集大成者,但這個問題的解決是無數人幾十年的結晶。
許東教授向雷鋒網説到,自己在橡樹嶺國家實驗室和徐鷹教授一起,做了一些蛋白結構預測的工作,當時受到不少關注,因此兩人獲得了2001 年美國“最傑出研究與開發100 人獎。此外,周耀旗教授、李明教授、許錦波教授、張陽教授、卜東波教授和自己系裏的程建林教授等在這個領域裏都做了非常好的工作。
特別是許錦波教授課題組是真正第一個用深度學習來進行氨基酸距離預測的人,對這個領域起了很大的作用;密歇根大學張陽教授實驗室的服務器很久在CASP自動預測大類裏排名第一,得到了廣泛使用。
“所以,大家可能看到是最閃亮的那顆星,但是背後有很多人默默為之奮鬥。今天AlphaFold的成就絕對是太多人積澱的結果。”
同樣集大成的,還有DeepMind本身的團隊,他們站在了這個時代最聰明的人的肩膀上。
行業專業人士向雷鋒網表示,AlphaFold的研究團隊非常豪華,19位共同一作者裏面有很多人是在語音、計算機視覺、自然語言處理、機器學習、醫療影像、分子動力學、高能物理、量子化學等領域的知名學者。
值得注意的是,排在榜單前幾名的就有上文提到的密歇根大學張陽教授實驗室。
有知乎網友表示,“能戰勝AlphFold的只能是其他巨頭公司,高校已經沒有戰勝的條件了。”
行業專業人士坦言,和工程型團隊相比,學術型團隊在計算資源上已經不再是短板,而學術團隊和工程團隊的一個明顯差別在於,學生很難做到工程人員能做的事情,公司在這一點上可以做到極致。
“真正要把一件事情做好,需要每個component都做到極致。因此,從這個角度來看,很細緻才能做得很好,DeepMind是一個很優秀的集成者。”
每到AI戰勝人類時,總有這種相似的論調:XX職業要被AI取代了。因此,當AlphaFold一出時,就有人預言到,結構生物學家都要失業。
顏寧在微博裏也就明確表示,如果你對結構生物學的理解還停留在20年前,那這麼説也不是不行。但是結構生物學自身一直在發展着,一場冷凍電鏡的分辨率革命更是令結構生物學今時不同往日了。
AlphaFold註定會成為這個時代中濃墨重彩的一筆。顏寧在微博中的一段話,特別適合概括這次AlphaFold的時代意義。
我在2015年主持一個seminar的時候曾經評論過:structural biology的本質是biology,是理解生命、是做出生物學發現。但是在X-射線晶體學為主要手段的時代,獲得大多數研究對象的結構本身太難了,於是很多研究者把“獲得結構”本身作為了目標,讓外行誤以為結構生物學就是解結構。
但是我從進入這個領域之初,就被教育的明明白白:結構本身只是手段,它們是為了回答問題、做出發現。
人類對未知世界的渴求,對真相的追求,才是AlphaFold在這個AI時代最好的註腳。向所有奉獻在這個領域的學者,致敬!
直播預約:AlphaFold蛋白質結構預測是革命性成果嗎?圓桌討論 · 嘉賓陣容
主持人:黃昆,印第安納大學醫學院副院長、AIMBE Fellow
許東,密蘇里大學哥倫比亞分校Shumaker講座教授,AAAS、AIMBE Fellow
張陽,密歇根大學教授,ITASSER創造者
許錦波,芝加哥豐田計算技術研究所教授,斯隆獎得主
此外,組委會還在邀請近代信息論奠基者等專家參會,敬請期待。
主辦單位:圖像計算與數字醫學國際研討會(ISICDM)
協辦單位:雷鋒網、醫健AI掘金志
觀看方式:關注公眾號《醫健AI掘金志》(ID:AIHealthcare),回覆關鍵詞“蛋白質”,即可入羣觀看此次線上論壇。