楠木軒

AlphaFold預測了幾乎所有已知蛋白質!涵蓋2.14億結構開放免費用

由 問成風 釋出於 科技

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI

全世界幾乎所有已知蛋白質結構,都被AlphaFold預測出來了!

在預測出人類98.2%蛋白質一年後,DeepMind的重磅成果再次引爆學術界。

包括植物、細菌、真菌在內的100萬個物種、2.14億個蛋白質結構,現在都增加到了資料集中。

其中80%結構的可信度達到了足以支撐研究實驗的水平,更有35%達到了高置信度。

而且這些資料全部免費開放

DeepMind表示,以後查詢蛋白質結構,會像使用搜索引擎一樣簡單。

創始人哈撒比斯發推激動地說:

這是我們給全人類的一份禮物。

整個科研圈也再次被點燃,網友紛紛表示:難以置信,感謝開放資料集!

難以想象這會為藥物研發帶來什麼!

像用搜索引擎一樣查詢蛋白質

這次資料集更新,主要增加了植物、細菌、動物和其他生物的蛋白質結構。

去年7月,AlphaFold資料集釋出了人類98.5%的蛋白質結構,以及包含大腸桿菌、果蠅、小鼠等20個科研常用生物的蛋白質組資料。

資料集規模從之前的35萬個蛋白質結構,一下子提升到了大約2.14億個。

DeepMind創始人哈撒比斯表示,這基本上可以說是“整個蛋白質宇宙”了。

這意味著更多領域的研究可以被大幅提速。

斯克裡普斯研究轉化所創始人Eric Topol表示:

過去確定蛋白質3D結構往往需要數月或數年,而現在只用幾秒鐘。

要知道,蛋白質作為生命活動的基石,其相關研究對藥物研發、疾病攻克、食品工程、農業、工業等領域都有重要影響。

但是蛋白質的研究卻非常複雜。

因為其功能由結構決定,而其3D結構又是由氨基酸以脫水縮合的方式組成多肽鏈,多肽鏈再盤曲摺疊而成。

也就是說,即使科學家們已知了蛋白質的氨基酸序列,可能的3D結構情況仍舊非常多。

假設一個蛋白質由100個氨基酸序列組成,那麼它可能的3D結構情況將多達2的100次方個。

過去很長一段時間裡,蛋白質預測工作主要透過科學家手動完成,比如施一公院士,就是用冷凍電鏡預測蛋白質結構的頂級專家。

計算機雖然也能預測蛋白質結構,但是其準確性始終不高。

而這一局面,隨著AlphaFold2的誕生後開始發生變化。

2020年12月,AlphaFold2在CASP14(蛋白質結構預測比賽)中的成績,達到了史無前例的92.4/100

蛋白質真實結構之間只差一個原子的寬度,真正解決了蛋白質摺疊的問題。

在此半年後,DeepMind先後開源AlphaFold2、AlphaFold資料集,可謂是在學術圈扔下了一記重磅炸彈。

2021年底,Nature將AlphaFold2預測人類98.5%的蛋白質並開源資料庫列入年度十大科學事件

專案領隊John Jumper也因此入選年度十大人物。

已有50多萬學者訪問過資料庫

DeepMind最新公佈資料顯示,目前全球已經有190多個國家/地區、50多萬名研究人員訪問過AlphaFold資料集。

而學者們利用AlphaFold開展研究的成果也已經開始顯現。

最近,發表在Science上的一篇研究表明,他們利用AlphaFold拼出了核孔複合體

這個結構由數百個蛋白質組成,控制著細胞核的物質進出,其相關研究是生物領域內的重點課題。

在AlphaFold的輔助下,該團隊預測出了這一結構中一些未知區域。

△黃色部分表示新預測結構

DNDi(被忽視疾病藥物開發組織)也曾表示,AlphaFold2推動了他們在熱帶疾病藥物開發方面的研究。

朴茨茅斯大學酶創新中心(CEI)則利用AlphaFold2開發一些新的酶,可以用來降解汙染環境的一次性塑膠。

此外,過去一年來不少學術機構都在開展AlphaFold的相關研究,以使得這一工具能夠讓更多學者便捷使用。

前不久,哥倫比亞大學釋出了首個AlphaFold2完整復刻版模型,採用PyTorch框架。

與此同時,計算生物行業也成為了人們關注的焦點,不少公司都在推出相關業務。

或許正如網友所說,世界正在因此而改變。

參考連結:

[1]https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

[2]https://news.ycombinator.com/item?id=32262856

[3]https://www.nature.com/articles/d41586-022-02083-2

— 完 —

量子位 QbitAI · 頭條號簽約