AI 已經能自主發現高性能材料了
圖片來源@視覺中國
文丨學術頭條
每當看到 AI 這個詞,你腦海中是否會浮現出超級智能計算機?或者想到不需要人類輔助即可執行任務的機器人?或許,這些夢想並不遙遠。
近年來,機器學習在化學領域的應用正以驚人的速度增長,在材料性能預測、新材料探索與設計等領域也取得了很大進展。但是,機器學習與實驗過程的直接耦合還存在巨大的挑戰。
近日,一個包括美國國家標準與技術研究所(NIST)在內的多機構研究團隊在 AI 研究領域取得了又一項重要研究成果:他們開發出了一種名為 CAMEO 的 AI 算法,該算法在不需要科學家額外訓練的情況下,自主發現了一種潛在的實用新材料。
利用 CAMEO 算法實現的 AI 系統,可以有效地減少科學家在實驗室中花費的“反覆”實驗時間,同時最大限度地提高科研效率。
該研究成果以“ On-the-fly closed-loop materials discovery via Bayesian active learning”為題,於 11 月 24 日在線發表在科學期刊《自然-通訊》(Nature Communications)上。
(來源:Nature Communications)
對此,論文作者之一、NIST 研究員 Aaron Gilad Kusne 表示,在材料科學領域,科學家們一直以來都在不斷尋求可用於特定應用場合的新材料,比如 “一種可用於製造汽車的輕巧堅固金屬,或者可承受噴氣發動機的高應力和高温環境的材料”。
幫助解決科研痛點新材料的發現是推動現代科學發展與技術革新的源動力之一,而傳統的材料研發需要進行大量的試驗,效率低且成本高——要想尋找這樣的新材料,不僅需要研究人員進行大量的實驗,還需要耗費大量的時間去做理論調查。
如果一個研究人員想要分析一種材料在不同温度下的特性,那麼他可能需要在各種不同温度下進行 N 次試驗。然而,温度只是材料的一個指標之一,如果在一項實驗中有 5 個指標要分析,每個指標又有 10 個值,那就意味着該研究人員必須進行 10^5 次試驗。
Kusne 表示,對於試驗次數如此多的實驗,研究人員可能會花費幾年甚至幾十年的時間,所以,這樣的實驗,幾乎不可能進行。
CAMEO 算法的“用武之地”正在於此,CAMEO 可以跳過那些會提供冗餘信息的實驗,確保每個實驗都可以最大限度地幫助科學家獲取知識和見解,提升他們的理解能力。通過節省實驗時間,可以有效幫助科學家更快實現其目標,也使實驗室的有限資源能夠得到更有效地利用。
那麼,CAMEO 算法如何實現這一點?
CAMEO 是基於機器學習的一個自學習 AI 算法,為材料研究領域的探索提供了一種全新的範式。CAMEO 通過閉環操作來尋找有用的新材料,首先從數據庫中加載材料數據,然後通過貝葉斯機器學習對數據進行分析,預測未知材料的結構和功能特性,並通過主動學習來確定下一步要研究的最有價值的材料。
在進行下一輪實驗之前,CAMEO 還可以要求科學家根據過去所執行的實驗經驗,提供材料的晶體結構等信息。
論文作者之一、馬里蘭大學材料科學與工程教授 Ichiro Takeuchi 表示:“實驗的關鍵在於,我們能夠在一個由多種材料構成的組合庫中啓動(unleash)CAMEO 算法。” 在通常的組合研究中,陣列中的每一種材料都會被依次測量,以尋找具有最佳性能的化合物。即使使用快速的測量設置,也需要花費很長時間。而有了 CAMEO 算法,僅需很少量的常規測量就可以找到最佳材料。
圖 | CAMEO 在一個閉環操作中尋找新材料的過程(來源:NIST)
該 AI 算法還被設計成包含關鍵原理的知識,包括過去的模擬和實驗室實驗的知識、設備的工作原理以及物理概念。例如,研究人員使 CAMEO 掌握了相位圖知識,相位圖描述了材料中原子的排列如何隨化學成分和温度的變化而變化。而理解原子在材料中的排列方式對於確定材料的特性至關重要,根據排列方式可以確定材料的硬度、電絕緣性,以及材料的應用場合。
Kusne 説:“CAMEO 算法是無監督的,許多類型的 AI 算法都需要進行訓練或監督,我們不要求它學習物理規律,而是將它們編碼到 AI 中。這樣一來,就不需要人類再去訓練 AI 模型。”
瞭解材料結構的最佳方法之一是 X 射線衍射法,即使用 X 射線轟擊材料。通過識別 X 射線反射的角度,科學家可以確定原子在材料中的排列方式,從而使他們能夠確定其晶體結構。然而,一次內部 X 射線衍射實驗可能需要一個小時或更長時間。在斯坦福同步輻射光源(SSRL)進行的實驗中,由於快速移動的粒子會發射大量的 X 射線,一台足球場大小的大型機器以接近光速的速度加速帶電粒子,整個過程可能需要 10 秒鐘。
(來源:Nature Communications)
CAMEO 算法安裝在一台計算機上,通過數據網絡與 X 射線衍射設備相連接,通過確定 X 射線反射的角度,科學家們可以確定原子在材料中的排列方式,從而弄清楚材料的晶體結構。在每次進行新的迭代時,CAMEO 都會從過去的測量中學習並確定下一個要研究的材料。這使得 AI 可以探索材料的成分如何影響其結構,並確定完成任務的最佳材料。
Kusne 説:“把這個過程想象成製作一份完美的蛋糕,你正在混合各種類型的材料(比如,麪粉、雞蛋或黃油),通過使用各種配方來製作最好的蛋糕。”而藉助人工智能,則可以搜索製作 “配方” 或實驗流程,來確定材料的最佳成分。如此一來,便節省了大量的實驗時間。
自主發現,性能更優CAMEO 就是使用這種方法發現了 GST467 材料。
CAMEO 通過給定的 177 種潛在的材料進行研究,這些材料涵蓋了大範圍的組成配方。為了獲得這種材料,CAMEO 耗時 10 小時完成了 19 個不同的實驗,相比之下,一個科學家大約需要 90 個小時才能完成同樣多的實驗。
圖 | GST467 的發現過程(圖片來源:nature communications)
CAMEO 發現的新材料 GST467 由三種不同的元素(鍺、銻、碲,Te-Ge-Sb)組成,是一種相變存儲材料,即當它受熱迅速熔化時,其原子結構會從晶態(原子在指定的、有規律的位置上的固體材料)變為非晶態(原子在隨機位置上的固體材料)。這種相變存儲材料被用於數據存儲等電子存儲應用程序。
圖 | GST467 的納米結構和器件性能(圖片來源:nature communicatiion)
雖然 Ge-Sb-Te 合金系統中可能存在無限種成分變化,但 GST467 是適合相變應用的最佳材料。研究人員希望 CAMEO 算法能找到最佳組合的 Ge-Sb-Te 合金,以滿足在晶態和非晶態之間的 “光學對比度” 差異最大的特性。
例如,在 DVD 或藍光光盤上,光學對比度允許掃描激光通過區分高反射率或低反射率的區域來讀取光盤。研究人員發現,GST467 的光學對比度是 DVD 常用的材料 GST225 的兩倍,較大的對比優勢也使其表現出了明顯優於傳統材料的特性。
GST467 還可應用於用於控制電路中光的方向的光子開關器件,還可以應用於神經形態計算(旨在開發模擬大腦神經元結構和功能的設備,為新型計算機的出現以及從複雜圖像中提取有用數據等其他應用提供可能)。
遠程科研或成現實研究人員認為,不只是 GST467,CAMEO 還可以發現許多其他材料。如今,他們已經將 CAMEO 的代碼開源,免費提供給科學家和研究人員使用。
與類似的機器學習方法不同,CAMEO 算法不是對大量數據進行機器學習和預測,而是通過關注晶體材料的成分、結構和性質之間的關係,追蹤材料相應功能的結構來源,引導系統發現有用的新化合物。
CAMEO 的一個好處是最大限度地降低了成本,因為在同步加速器設施中進行實驗是需要花費時間和金錢的。研究人員估計,使用 CAMEO 可以將實驗數量減少十分之一,相應地可以將實驗時間縮短十倍。由於人工智能正在運行測量數據、收集數據,分析數據的過程,這也大大降低了研究人員進行實驗所需的知識量,他們只需關注正在運行的 AI 系統。
CAMEO 的另一個好處是為科學家提供了遠程工作的能力。SLAC 美國國家加速器實驗室的研究員 Apurva Mehta 説:“這掀起了一波科研熱潮,科學家不需要在實驗室中,就可以繼續工作和生產。” 這可能意味着,如果科學家們可以依靠人工智能在實驗室進行實驗,更加安全地遠程從事傳染性疾病或病毒的研究。
研究人員表示,他們將繼續改進這一 AI 算法,並嘗試使該算法可以解決更復雜的問題。Kusne 説:“CAMEO 擁有機器人科學家的智慧,它的構建,是為了以一種非常高效的方式,來設計、運行和學習實驗。”
參考資料:https://www.nature.com/articles/s41467-020-19597-w