作者 | Charlie Wood
編譯 | 王玥、劉冰一
2017 年,西北大學化學與生物工程系的助理教授Roger Guimerà和羅維拉-威爾吉利大學的物理學教授Marta Sales-Pardo發現了細胞分裂的原因。
該研究推動了生物學的進展,但他們並沒有從自己的數據中發現關鍵信息,反而是他們的一個未曾公開的發明——他們稱之為“機器科學家”的虛擬助理將這些信息指了出來。
Guimerà 回憶道:“我們只是給機器科學家輸入了一個算法,然後就得到了答案。雖然這就是事實,但沒有審稿人會信。”
圖注:URV 化學工程系的研究人員 Marta Sales-Pardo(左) 和 Roger Guimerà(右)
兩人與他們的前同學、加泰羅尼亞生物工程研究所的Xavier Trepat進行合作,想要確認哪些因素可能引發細胞分裂。許多生物學家認為細胞超過一定大小就會分裂,而Trepat 覺得這其中仍有探索空間。他的團隊破譯了成羣細胞爭奪位置時在柔軟表面留下的納米級印記並積累了詳盡的數據集,其中記錄了形狀、力量和其他十幾種細胞特徵,單單是測試這些細胞特徵對細胞分裂的影響大概就得花一輩子。
可是,如果將數據提供給機器科學家,在幾分鐘內機器科學家就能反饋給他們一個簡潔方程。就預測一個細胞何時分裂而言,該方程比僅使用細胞大小或任何其他單一特徵的方程精確 10 倍。據機器科學家所説,細胞分裂與否,取決於一個細胞的大小乘以它旁邊的細胞擠壓它的力度。
“機器科學家能夠發現一些我們沒有發現的東西。”Trepat説。
由於研究人員沒有公開過「機器科學家」的信息,因此他們只好進行二次分析。經過數百對變量的測試,他們得出了和「機器科學家」一致的答案,並在2018年將該研究發表在了Nature Cell Biology上。
圖注:西班牙 Rovira i Virgili 大學的 Roger Guimerà 和 Marta Sales-Pardo 主導構建了一個強大的符號迴歸算法,並稱之為“貝葉斯機器科學家”。
四年後,這種方法迅速成為一種公認的科學發現方法。Sales-Pardo 和 Guimerà 是少數幾位開發最新一代工具的研究人員之一,該工具能夠實現符號迴歸。
符號迴歸算法不同於深度神經網絡。深度神經網絡算法可能會吸收數千個像素,讓像素滲透數百萬個節點組成的迷宮,並通過不透明的機制輸出“dog”這個詞。而符號迴歸算法識別複雜數據集,然後輸出一種人類能很好理解的簡短方程式。這些算法類似於超級版本的 Excel 曲線擬合函數,但這些算法不只尋找直線或拋物線擬合一組數據點,還尋找數十億個不同的公式。通過這種方式,「機器科學家」可以讓人類瞭解細胞分裂的原因,而神經網絡只能預測細胞何時分裂。
幾十年來,研究人員一直在與這樣的機器科學家打交道,小心翼翼地誘導機器科學家從簡單的數據集中重新發現教科書式的自然法則,並將其排列起來,從中尋找某種模式。但是近年來,這些算法已經變得足夠成熟,可以在真實數據中探索出從湍流如何影響大氣層到暗物質如何聚類等此前未被發現的關聯。
“毫無疑問,整個領域都在向前發展。”哥倫比亞大學的機器人專家Hod Lipson説。他在13年前開始了符號迴歸的研究。
圖注:機器人專家 Hod Lipson
物理學家偶爾會單憑推理尋找真理,比如愛因斯坦通過從一束光束的角度想象另一束光束,從而感受空間和時間的柔韌性。
但是更多時候,理論是從馬拉松式的數據處理中誕生的。
16 世紀的天文學家布拉赫去世後,開普勒接觸到了布拉赫筆記本中的天體觀測,花了四年時間才確定火星在天空中描繪的是一個橢圓,而不是他之前認為的蛋形。通過粗暴計算,他又另外發現了兩個關係,遵循了“第一定律”,這些規律便是牛頓指出萬有引力定律的基礎。
符號迴歸的目標是加速這種開普勒式的試錯,遍歷將變量與基本數學運算聯繫起來的無數方法,從而找到最能準確預測系統行為的方程。
圖注:天體物理學家以兩種方式對太陽系的行為進行建模。他們首先使用了NASA多年數據來訓練一個神經網絡。然後使用符號迴歸算法將該模型提煉成一個方程式。在視頻中——顯示真實位置為實體物體,而模型預測為金屬網輪廓——神經網絡(左)的表現遠不如比起符號迴歸算法(右)。
首個取得重大進展的程序叫做BACON。它由當時在卡內基梅隆大學的認知科學家和人工智能研究員 Patrick Langley 在1970年代末開發。BACON 包含一列軌道週期和一列不同行星的軌道距離,然後以不同的方式系統地組合這些數據:週期除以距離、週期平方乘以距離等。如果 BACON 在各種數據的不同組合中找到一個常數,例如,如果週期的平方除以距離的立方總是給出相同的數字,就説明它找到了開普勒第三定律。一個常數意味着它已經確定了兩個成比例的量,換句話説,當 BACON 找到一個方程時,它就達到了目的,停止計算。
儘管重新發現了開普勒第三定律和其他教科書上的經典內容,但在計算能力有限的時代,BACON仍然是一種奇特的存在。研究人員仍然需要手動分析大多數據集,最終使用類似Excel的軟件,在給定特定類別的方程時找到簡單數據集的最佳擬合。直到2009年,康奈爾大學的機器人專家 Lipson 和 Michael Schmidt 開發了一種名為 Eureqa 的算法。這個算法可以找到描述任何數據集的正確模型。在 Eureqa 成功開發以前,這個概念一直處於沉睡狀態。
他們的主要目標是建立一台機器,能夠將一列又一列的變量的拓展數據集歸納為一個涉及少數實際重要變量的方程。Lipson説:“這個方程最終可能有四個變量,但我們事先不知道是哪些。我們得把所有可能的變量都扔進去。天氣也許很重要,每平方英里牙醫的數量或許也很重要。”
處理眾多變量已經是一個難點。研究人員表示,他們還需要具備一定的靈活性,嘗試各種可能走向死衚衕的方法、並從中走出來。而當算法可以從直線跳到拋物線,或增加一個正弦波紋時,它掌握儘可能多數據點的能力也可能變得更糟。為了克服這些挑戰,1992年,計算機科學家John Koza提出了 “遺傳算法”,這種算法將隨機“突變”引入方程,經過多次試驗,最初無用的功能要麼演變得強大,要麼消亡。
Lipson和Schmidt將這一技術提升到了新的水平。一方面,他們生成了方程式。另一方面,他們隨機選擇了一些數據點來測試方程,“最適合”的點是那些對方程最有挑戰的點。“這就像軍備競賽一樣,我們需要建立兩個不斷髮展的事物,而非一個。”Lipson説。
Eureqa算法可以壓縮涉及十多個變量的數據集。它可以成功地反饋出高級方程,比如描述一個鐘擺懸掛在另一個鐘擺上的運動。
圖注:機器科學家是如何工作的
與此同時,其他研究人員正在尋找訓練深度神經網絡的技巧。到2011年,深度神經網絡在學習區分貓和狗以及執行無數其他複雜任務方面取得了巨大成功。但是一個訓練有素的神經網絡由數百萬個具有數值價值的“神經元”組成,這些神經元不會明示它們已經學會識別哪些特徵。可Eureqaque卻可以用人類的語言傳達自己的發現。
當 Sales-Pardo 第一次使用 Eureqa 時,她感到很驚訝:“我認為這是不可能的,這些人怎麼做到的?” 她和 Guimerà 很快就開始使用 Eureqa 為他們自己的網絡研究建立模型,雖然結果不一致,但他們對 Eureqa 的強大功能印象深刻。該算法會演化出預測方程,但它也可能會弄巧成拙、然後得出一個過於複雜的方程。只要研究人員稍微調整他們的數據,Eureqa 就會返回一個完全不同的公式。於是Sales-Pardo 和 Guimerà 便從頭開始設計新的機器科學家。
在他們看來,遺傳算法的問題在於過於依賴創造者的口味。開發人員需要指導算法,以平衡簡單性和準確性。一個方程總是可以通過附加項來觸碰到數據集中的更多點。但最好忽略有些離題的點。研究者可以把簡單性定義為方程的長度,把準確性定義為曲線與數據集中每個點的接近程度,但這只是眾多選項中的兩個定義。
Sales-Pardo 、 Guimerà 與合作者一起,利用物理學和統計學方面的專業知識,根據貝葉斯理論的概率框架來重新定義進化過程。他們首先下載了維基百科中的所有方程式。然後對這些方程進行統計分析,看看哪些類型最常見。這種辦法能讓算法少走彎路,例如讓算法嘗試使用比較常見的加法,而不是比較少見的雙曲餘弦。然後該算法使用隨機抽樣方法生成方程變體,該方法已在數學上被證明可以探索數學領域的每一個角落。
在每個步驟中,該算法以方程式對數據集的壓縮程度對各類方程式進行評估。例如,隨機散佈的點根本不能被壓縮,我們需要知道每個點的位置。如果1000個點沿着一條直線落下,它們可以被壓縮成兩個數字(直線的斜率和高度)。這對學者發現,壓縮程度為比較各個方程提供了一種獨特且穩定的方法。Guimerà説:“我們可以證明,正確的模型就是壓縮數據最多的那個,這不存在任意性。”
經過多年研究,他們使用自己的算法找出了觸發細胞分裂的因素,2020年,他們和同事們在《Bayesian machine scientist》中介紹了他們的 “貝葉斯機器科學家”。
從那時起,研究人員用貝葉斯機器科學家來改進預測國家能源消耗的SoTA方程,而另一組則使用該方程來模擬通過網絡的滲透。開發人員認為這類算法將在像 Trepat 那樣的生物學研究中發揮巨大作用,因為在這種研究當中科學家們面對的是海量數據。
機器科學家也幫助物理學家理解跨越多尺度的系統。物理學家通常對原子使用一組方程,對台球使用一組完全不同的方程,但這種零散的方法不適用於氣候科學等學科研究。
其中一位研究人員是紐約大學的Laure Zanna 。她在模擬海洋湍流的工作中經常發現自己夾在兩個極端之間:超級計算機可以模擬城市大小的渦流,也可以模擬洲際洋流,但不能同時模擬兩種尺度。她的工作是幫助計算機生成包含較小漩渦影響的全局圖片,而無需直接模擬這些圖。最初,她轉向深度神經網絡來提取高分辨率模擬的整體效果,並相應地更新更粗略的模擬。“深度神經網絡太棒了,”她説,“但我是一名氣候物理學家。”她的意思是她想通過壓力和温度等原理來了解氣候是如何運作的——“但是很難採集到成千上萬的參數,更別説是滿意的參數了。”
然後她發現了由華盛頓大學應用數學家Steven Brunton、Joshua Proctor和 Nathan Kutz設計的算法。他們的算法採用了一種被稱為稀疏迴歸(Sparse Regression)的方法,這種方法與符號迴歸的精神類似。這種方法沒有在變異方程中挑起大混戰,而是從一個可能有上千個函數比如 x^2、 x/(x − 1) 和 sin(x)的庫開始。該算法在庫中搜索給出最準確預測的術語組合,刪除最沒用的術語,並繼續直到庫裏只剩下少數幾個術語。與符號迴歸算法相比,稀疏迴歸閃電般的過程可以處理更多的數據,其代價是探索的空間更小,因為最終方程必須由庫項構建。
為了瞭解其工作原理,Zanna 從頭開始重寫了稀疏迴歸算法,然後將修改後的版本應用於海洋模型。當她輸入高分辨率影片並要求算法尋找精確的縮小草圖時,算法返回了一個與渦度以及流體如何拉伸和剪切有關的簡潔方程。當她將這個方程輸入到她的大規模流體流動模型中時,她看到了以能量的函數形式變化的流體,且看得比以前更真切。
“該算法使用了額外的術語,”Zanna 説,然後生成了一個“美麗”的方程,“這個方程能夠真正體現洋流的一些十分重要的特性,比如拉伸、剪切和旋轉。”
通過將自身優勢與深度神經網絡的優勢相結合,其他團隊也為機器科學家提供了助推力。
普林斯頓大學天體物理學研究生Miles Cranmer開發了一種類似於 Eureqa 的開源符號迴歸算法,稱為 PySR。這個算法在數字“島嶼”上建立了不同的方程組,並讓最適合數據的方程週期性地“搬家”,然後與其他島嶼上的方程競爭。Cranmer 與 來自 DeepMind 以及紐約大學的計算機科學家,還有 Flatiron 研究所的天體物理學家合作,提出了一種混合方案。他們首先訓練神經網絡完成任務,再讓PySR給出一個描述神經網絡的特定部分完成了何種任務的方程。
該小組將該程序應用於暗物質模擬,並根據相鄰雲的特性生成了一個公式,該公式給出了暗物質雲中心的密度。該方程比現有的人工設計方程更適合數據。
2 月,該小組向系統輸入了30年來太陽系行星和衞星在天空中的真實位置。該算法完全跳過了開普勒定律,直接推斷出牛頓的萬有引力定律以及行星和衞星的質量。其他小組最近則使用 PySR 發現了描述粒子碰撞特徵的方程、結體積的近似值以及暗物質雲在其中心塑造星系的方式。
對於機器科學家越來越多的情況(另一個值得關注的例子是麻省理工學院的物理學家 Max Tegmark 和 Silviu-Marian Udrescu 創建的“ AI Feynman ”),人類研究人員説,越多越好。“我們真的需要這些技術,”庫茨説,“全都需要,越多越好,因為沒有一個技術是萬能的。”
論文地址:https://www.science.org/doi/10.1126/sciadv.aay2631
Kutz 相信機器科學家正在將該領域帶到他所謂的“GoPro 物理學”的風口浪尖,研究人員只需將相機對準目標,就能得到一個抓住正在發生的事情本質的方程式。(目前的算法仍然需要人類提供一長串潛在相關變量,比如位置和角度。)
這就是 Lipson 最近一直在做的事情。在12 月的預印本中,他與合作學者描述道,他們首先訓練了一個深度神經網絡來接收視頻的幾幀,並預測接下來的幾幀。然後,該團隊減少了神經網絡允許使用的變量數量,到其預測開始失敗為止。
論文鏈接:https://arxiv.org/abs/2112.10755
該算法能夠計算出需要多少變量來模擬像鐘擺那樣的簡單系統,或者像火舌那樣沒有明顯的變量可供跟蹤的複雜系統。
機器科學家不會取代深度神經網絡,因為深度神經網絡能夠在混亂或極其複雜的系統中大放異彩。
然而,當涉及到圍繞行星運行、流體晃動和細胞分裂時,機器科學家僅利用少量運算得出的簡明方程式卻十分準確,令人費解。諾貝爾獎獲得者 Eugene Wigner 在他 1960 年的論文《自然科學中數學的不合理有效性(The Unreasonable Effectiveness of Mathematics in the Natural Sciences)》中將其稱為“我們既不理解也不配得的美妙禮物” 。正如 Cranmer 所説,“你去看看任何物理考試方程式的小抄,上面都是極其簡單的代數表達式,但這些小抄幫助太大了。”
Cranmer 及其同事推測,基礎運算之所以如此出色,是因為它們代表了空間中的基本幾何動作,這使得它們成為描述現實的自然語言。加法將對象向下移動到數軸。乘法將平坦區域變成 3D 體積。出於這個原因,他們懷疑,當我們在猜測方程式時,往簡單了猜是永遠有道理的。
不過,宇宙雖然有潛在的簡單性,卻並不能保證每次這麼猜測都對。
Guimerà 和 Sales-Pardo 最初構建了他們在數學上嚴格的算法,因為 Eureqa 有時會為相似的輸入找到截然不同的方程。然而,令他們沮喪的是,他們發現,即使是貝葉斯機器科學家有時也會為給定的數據集返回多個同樣好的模型。
兩人最近表明,原因在於數據本身。他們利用機器科學家探索了各種數據集,發現數據集分為兩類:乾淨的和有噪聲的。在乾淨的數據中,機器科學家總能找到生成數據的方程式。但超過一定的噪聲閾值,就不可能找到了。換句話説,噪聲數據可以很好地(或很差地)匹配任意數量的方程。因為研究人員已經證明了他們的算法總是能找到最好的方程,他們知道,如果算法失敗了,那就沒有任何人類或者機器能夠成功。
“我們發現這是一個基本的限制,”吉梅拉説。“所以我們需要機器科學家。”
參考鏈接:
https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20220510/
https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512
Marta Sales-Pardo (0000-0002-8140-6525)
Hod Lipson
https://www.science.org/doi/10.1126/science.1165893
https://laurezanna.github.io/
雷峯網