黃崢官宣研究「蛋白質結構」，這個賽道有機會嗎？

2021-03-19由高會雲發佈於科技

功成名就之後，互聯網大佬似乎都有“回報母校”的情結。

例如，馬化騰之於深圳大學、馬雲之於杭州師範大學、劉強東之於宿遷中學、雷軍之於武漢大學。

黃錚也是如此。

昨天，黃錚辭任拼多多董事長，宣佈投身食品科學和生命科學領域的研究。他表示，此舉為拼多多未來十年高速高質量縱深發展探索新空間。

就在一天之後，黃錚就向自己的母校捐了一筆數額不小的科研基金。

雷鋒網消息，據21世紀經濟報道，3月17日，浙江大學教育基金會和繁星公益基金簽署捐贈協議，設立“浙江大學上海高等研究院繁星科學基金”（下稱“繁星科學基金”），推動浙江大學在生物、醫療、農業、食品等多領域交叉方向展開基礎研究及前沿探索。

據瞭解，捐贈方繁星公益基金由拼多多創始人、浙江大學校友黃崢及拼多多創始團隊發起並捐贈成立。

作為第一期資助，繁星公益基金將在未來3-5年向浙江大學教育基金會捐助1億美元，用於“計算+生物醫療”、“計算+農業食品”和“先進計算”三個創新實驗室的科學研究項目。

黃錚為什麼會選擇這三個方向？他昨天的股東信中就有非常明確的答案。

黃錚在股東信中寫到：

如果我們再進一步，深入到蛋白質結構及在人體內的性狀的研究，我們是否有可能沿着2016年諾貝爾化學獎獲得者的分子機器的道路，進一步研究出蛋白質機器人，可以進入到人的腦部血管進行疏通，避免中風？

蛋白質結構是困擾了學者幾十年的世界難題。就在幾個月，一項“革命性”的成果問世，或許讓黃錚有了進一步挑戰這一難題的勇氣。

沒錯，那就是大名鼎鼎的AlphaFold2，出自頂級人工智能公司——DeepMind。

去年12月，DeepMind宣佈蛋白質摺疊預測問題被其攻破。

此消息一出，立刻登上了Nature雜誌封面，標題直接評論為：“它將改變一切！”李飛飛、馬斯克等眾多大佬紛紛點贊、轉發。

隨後，《醫健AI掘金志》推出一篇《Deepmind被「圈外人」刷屏後，「圈內」科學家是如何評價它的？》。

在這篇文章中，我們與美國密蘇里大學哥倫比亞分校Shumaker講座教授許東教授、印第安納大學醫學院主管數據科學的副院長黃昆教授、AI藥物研發公司晶泰科技CEO馬健博士進行過深入採訪。

藉此機會，我們探討了AlphaFold2解決了什麼問題，還有哪些不能解決，以及這項成果在未來生物、醫療領域的前景。

AlphaFold2的創新之處

能夠匹配人類的水平，甚至超越人類，AlphaFold2肯定有其過人之處。

根據DeepMind在CASP14會議上公佈的技術方案，應該有兩點。

首先，是注意力機制的引入。

注意力機制的引入，解決了如何更好地從多序列對齊（multiple sequence alignment）數據中提取特徵以指導結構預測的問題。

在此之前，較為主流的方案是從多序列對齊數據中提取共進化信息，但DeepMind通過對比發現這種人工設計的特徵提取會丟失部分關鍵信息，而通過引入注意力機制可以較好地解決這一問題。

同時，注意力機制也應用在了迭代更新序列-殘基和殘基-殘基相互作用的過程中，從而以迭代的方式得到更為準確的距離預測與三維結構。

許東是美國密蘇里大學哥倫比亞分校Shumaker講座教授，AAAS和AIMBE會士，曾因為蛋白結構預測的工作獲得2001年美國“最傑出研究與開發100人獎勵（國際2001R&D; 100 Award）”。

許東教授表示，注意力機制確實在蛋白結構預測方面上了一個台階。

“AlphaFold可以把氨基酸之間的距離整合成三維結構。因為他們的算力很多，兩年前他們雖然方法和別人幾乎是一樣的，預測的距離卻準的多，在CASP裏做得很好。”

但是，許教授認為，AlphaFold今年真正的創新之處在於利用了注意力機制，可以把氨基酸之間的距離預測問題更為全局、整體的解決，同時對每一對距離的預測可靠性有更好的評價，從而看出什麼預測距離更靠譜，讓其在蛋白三維結構重建中發揮更大作用。

這麼做，就真正把蛋白已知結構進行最大化的應用。

許東教授向雷鋒網坦言，此前，自己的團隊也思考過，但是那時候採用的是“土一點”的統計方法。

“AlphaFold確實是非常大的創新，這種創新對研究其他問題也有幫助。比如，我們現在就想用類似的思想去做單細胞數據建模的一些研究。

其次，端到端學習的引入。

端到端學習的引入，使得從輸入氨基酸序列到輸出蛋白質三維結構的過程，可以完全在深度學習的框架內實現，從而使得優化過程可以得到更為直接的誤差信號。

而之前的方法往往基於深度學習+傳統結構建模工具（例如Rosetta、I-TASSER等）的組合，這樣結構建模的誤差信號不能直接用於對深度學習模型本身進行更新。

AlphaFold2解決了什麼問題？

談及AlphaFold2，幾位專家不吝讚美之詞。

許東教授表示，“AlphaFold是非常大的成就。不光是蛋白結構或者生物信息學的重大突破，也是科學史上的重大突破。”

從1997年開始，許東教授就開始了蛋白質結構預測這方面的研究。他表示，從防病、治病的角度來看，蛋白質結構變化預測，絕對是非常重要。

“很多疾病都是在蛋白層面出現了問題，例如基因突變造成氨基酸的突變，使得蛋白結構發生變化，不能行使功能。”

現在，許東教授團隊現在和範德堡大學Jing-Qiong Kang教授的合作，就在用結構預測來研究癲癇，特別是為什麼一些基因突變可以使得幾個重要的蛋白結構造成變化，造成其部分功能喪失，致使癲癇發作。

Jing-Qiong Kang教授把預測的結果與實驗進行對比，進而理解疾病。

從製藥層面來看，更是如此。

現代藥物大多的靶點是蛋白，藥物的設計幾乎都是基於蛋白的結構來進行合理的設計。現在，機器學習能夠取得非常好的預測結果，是否會取代實驗的蛋白結構發現方法？

許東教授表示，“會取代很大一部分”，尤其是在低分辨率下，特別是用冷凍電子顯微鏡進行的結構發現可能不如機器學習做的準確。

AI藥物研發公司晶泰科技CEO馬健博士也向《醫健AI掘金志》説到，結構決定性質。在AlphaFold準確的預測的蛋白結構之上，我們可以更準確地預測藥物分子和蛋白的相互作用，從源頭上提高計算輔助藥物發現與設計的準確度。

同時，現在能解出的蛋白質很少，很多關鍵的蛋白質十幾、二十年都難以用實驗解析出結構。有了這項技術，研究人員就可以用這些傳統上難解出結構的蛋白作為藥物靶點、設計新藥。

技術將開啓一個藥物研發和疾病研究的新時代，可以從原子分子層面上幫助理解疾病的作用機理。

同時，與疾病相關的蛋白結構越來越多地被計算解析出來，會提供大量的新靶點，如同給藥物發現打開了一道源頭的閘門，為藥企開發first-in-class藥物創造更多新機會。

馬健表示，AlphaFold在解決蛋白質摺疊預測問題過程中所積累的經驗和Know-how，會產生技術溢出的效果，其中先進的思想和理念將進一步在AI藥物發現的其他環節和領域帶來啓發和促進作用。

AlphaFold2的缺陷

AlphaFold在CASP14中的表現，被譽為是結構生物學領域的地震，讓無數該行業的學者為止興奮。

然而，也有網友提出了一些不同的聲音：利用計算機預測蛋白質結構很早就在做，只不過準確度一直是一個問題。

目前，計算機輔助藥物設計，在有蛋白真實單晶體機構的基礎上尚且不能做到準確預測，更何況是“接近於實驗取得結構”。

馬健表示，下一步，在蛋白-蛋白相互作用結構、C端N端結構等領域，AlphaFold需要算得更準。

另外，目前AlphaFold預測的是最接近實驗的靜態結構，未來在藥物研發的應用中，如果能將蛋白和藥物結合位置預測的更準，需要把蛋白結構的動態變化考慮進來。

許東教授認為，這件事情需要從兩方面來看：

一方面，這確實是非常大的成就。不光是蛋白結構或者生物信息學的重大突破，也是科學史上的重大突破。五十年來，蛋白質摺疊一直是生物學的巨大挑戰。

另外一方面，總歸會有一些“泡沫”，存在一定的侷限性。AlphaFold不是把所有問題全部解決。不是光有結構，就能夠設計藥物。

許東教授認為，AlphaFold可以滿足95%以上的理解功能、實驗設計等需求，達到了應用的標準。

然而，它並不能總是達到一定的標準。現在，人、植物的蛋白被研究得非常廣譜，但是在微生物、病毒的蛋白裏還有很多新的fold。

和已知序列和結構相差非常大的情況下，AlphaFold做的不是特別好。

“最新的AlphaFold系統在所有目標中總體得分中位數為92.4 GDT，強調的是中位數，甚至都不是平均數。這就表明，有些蛋白的預測還是做的不太好。”

歷史中的前人與後人

當然，科研的道路上，聚起希望之火的不止一人。

周耀旗教授、李明教授、許錦波教授、張陽教授、卜東波教授和程建林教授等在這個領域裏都做了非常好的工作。

特別是許錦波教授課題組，是真正第一個用深度學習來進行氨基酸距離預測的人，對這個領域起了很大的作用；

密歇根大學張陽教授實驗室的服務器很久在CASP自動預測大類裏排名第一，得到了廣泛使用。

許東教授説到，“所以，大家可能看到是最閃亮的那顆星，但是背後有很多人默默為之奮鬥。今天AlphaFold的成就絕對是太多人積澱的結果。”

回到黃錚的這次轉型。

據相關人士透露，“繁星公益基金”名稱源於文森特•梵高的一句話，“我不知道世間有什麼是確定不變的，但我只知道，只要一看到星星，我就會開始做夢。”

這也是黃崢在某一個夏夜，仰頭看到夜空裏的漫天繁星時閃現的靈感。

歷史，何嘗不是無數前人靈感迸發瞬間的產物。

PS.關於AI在蛋白質結構預測中的其他問題，讀者可閲讀《Deepmind被「圈外人」刷屏後，「圈內」科學家是如何評價它的？》雷鋒網