AlphaFold預測了幾乎所有已知蛋白質!涵蓋2.14億結構開放免費用
明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
全世界幾乎所有已知蛋白質結構,都被AlphaFold預測出來了!
在預測出人類98.2%蛋白質一年後,DeepMind的重磅成果再次引爆學術界。
包括植物、細菌、真菌在內的100萬個物種、2.14億個蛋白質結構,現在都增加到了數據集中。
其中80%結構的可信度達到了足以支撐研究實驗的水平,更有35%達到了高置信度。
而且這些數據全部免費開放!
DeepMind表示,以後查找蛋白質結構,會像使用搜索引擎一樣簡單。
創始人哈撒比斯發推激動地説:
這是我們給全人類的一份禮物。
整個科研圈也再次被點燃,網友紛紛表示:難以置信,感謝開放數據集!
難以想象這會為藥物研發帶來什麼!
這次數據集更新,主要增加了植物、細菌、動物和其他生物的蛋白質結構。
去年7月,AlphaFold數據集發佈了人類98.5%的蛋白質結構,以及包含大腸桿菌、果蠅、小鼠等20個科研常用生物的蛋白質組數據。
數據集規模從之前的35萬個蛋白質結構,一下子提升到了大約2.14億個。
DeepMind創始人哈撒比斯表示,這基本上可以説是“整個蛋白質宇宙”了。
這意味着更多領域的研究可以被大幅提速。
斯克裏普斯研究轉化所創始人Eric Topol表示:
過去確定蛋白質3D結構往往需要數月或數年,而現在只用幾秒鐘。
要知道,蛋白質作為生命活動的基石,其相關研究對藥物研發、疾病攻克、食品工程、農業、工業等領域都有重要影響。
但是蛋白質的研究卻非常複雜。
因為其功能由結構決定,而其3D結構又是由氨基酸以脱水縮合的方式組成多肽鏈,多肽鏈再盤曲摺疊而成。
也就是説,即使科學家們已知了蛋白質的氨基酸序列,可能的3D結構情況仍舊非常多。
假設一個蛋白質由100個氨基酸序列組成,那麼它可能的3D結構情況將多達2的100次方個。
過去很長一段時間裏,蛋白質預測工作主要通過科學家手動完成,比如施一公院士,就是用冷凍電鏡預測蛋白質結構的頂級專家。
計算機雖然也能預測蛋白質結構,但是其準確性始終不高。
而這一局面,隨着AlphaFold2的誕生後開始發生變化。
2020年12月,AlphaFold2在CASP14(蛋白質結構預測比賽)中的成績,達到了史無前例的92.4/100。
和蛋白質真實結構之間只差一個原子的寬度,真正解決了蛋白質摺疊的問題。
在此半年後,DeepMind先後開源AlphaFold2、AlphaFold數據集,可謂是在學術圈扔下了一記重磅炸彈。
2021年底,Nature將AlphaFold2預測人類98.5%的蛋白質並開源數據庫列入年度十大科學事件。
項目領隊John Jumper也因此入選年度十大人物。
已有50多萬學者訪問過數據庫DeepMind最新公佈數據顯示,目前全球已經有190多個國家/地區、50多萬名研究人員訪問過AlphaFold數據集。
而學者們利用AlphaFold開展研究的成果也已經開始顯現。
最近,發表在Science上的一篇研究表明,他們利用AlphaFold拼出了核孔複合體。
這個結構由數百個蛋白質組成,控制着細胞核的物質進出,其相關研究是生物領域內的重點課題。
在AlphaFold的輔助下,該團隊預測出了這一結構中一些未知區域。
DNDi(被忽視疾病藥物開發組織)也曾表示,AlphaFold2推動了他們在熱帶疾病藥物開發方面的研究。
朴茨茅斯大學酶創新中心(CEI)則利用AlphaFold2開發一些新的酶,可以用來降解污染環境的一次性塑料。
此外,過去一年來不少學術機構都在開展AlphaFold的相關研究,以使得這一工具能夠讓更多學者便捷使用。
前不久,哥倫比亞大學發佈了首個AlphaFold2完整復刻版模型,採用PyTorch框架。
與此同時,計算生物行業也成為了人們關注的焦點,不少公司都在推出相關業務。
或許正如網友所説,世界正在因此而改變。
參考鏈接:
[1]https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe[2]https://news.ycombinator.com/item?id=32262856[3]https://www.nature.com/articles/d41586-022-02083-2— 完 —
量子位 QbitAI · 頭條號簽約