現代理論物理學中最具挑戰性的問題之一就是所謂的多體問題。典型的多體系統是由大量強相互作用的粒子組成的。很少有這樣的系統能夠被數學精確地處理。然而,由於指定一個通用多體量子態所需的資源以指數方式依賴於系統中粒子的數量(更準確地説,是自由度的數目),即使是當今最好的超級計算機也不具足夠的算力來精確編碼這些狀態(它們只能處理小於45個粒子的相對較小的系統)。
正如我們將看到的,機器學習技術(特別是人工神經網絡)的最新應用已被證明能夠提供這種複雜狀態的高效表示,使其易於計算。
在這篇文章中,我將討論如何應用人工神經網絡來表示多個粒子的量子態。從下面三個方面討論:
- 基本量子力學概念
- 機器學習概念的簡要描述,特別關注一種被稱為受限玻爾茲曼機器(RBM)的人工神經網絡
- 關於如何使用RBM來表示多粒子量子態的解釋。
愛因斯坦的科學合作者之一、波蘭物理學家利奧波德·因菲爾德(Leopold Infeld)在他的自傳中講述了一個引人入勝的故事。
- 愛因斯坦和因菲爾德在愛因斯坦的家裏
根據因菲爾德的説法,在他和愛因斯坦花了幾個月時間進行漫長而艱苦的計算後,愛因斯坦説了這樣的話:
上帝不在乎我們在數學上的困難。他集成了經驗。
愛因斯坦的意思是,人類必須依靠複雜的計算和推理來解決複雜的物理問題,而大自然不需要。
多體的問題正如前面提到的,理論物理學中一個眾所周知的難題是多體問題。這個問題已經在經典系統(基於牛頓三大運動定律及其改進的物理系統)和量子系統(基於量子力學定律的系統)中研究了很長時間。
第一個被廣泛研究的(經典的)多體問題是涉及地球、月球和太陽的三體問題。
- 等質量三體系統的簡單軌道
第一批攻克這一多體問題的科學家之一正是艾薩克·牛頓,他在其傑作《數學原理》中寫道:
每一顆行星的運行軌跡都是新的[…],而每一個軌道都依賴於所有行星的聯合運動,更不用説它們彼此之間的作用了[…]。除非我大錯特錯,在同一時間考慮這麼多運動的原因,並根據精確的定律來定義這些運動,使其易於計算,這將超過人類的智慧。
- 牛頓的《數學原理》可以説是歷史上最重要的科學著作。
因為本質上所有相關的物理系統都是由一系列相互作用的粒子組成的,所以多體問題是極其重要的。
定義我們可以把這個問題定義為“研究物體之間相互作用對多體系統行為的影響”。
- 金離子碰撞產生夸克-膠子等離子體,一個典型的多體系統
在這個語境中,“多”的意思可以是3到無窮之間的任何數字。在N=5的自旋激發下,已經發現了量子多體行為的特徵:
- 隨着自旋激發數從2個增加到5個,接近高斯分佈(典型的多體耦合系統)。
在這篇文章中,我將關注量子多體問題。
量子多體系統量子多體系統的複雜性早在20世紀30年代就被物理學家們發現了。當時,偉大的物理學家保羅·狄拉克(Paul Dirac)設想了量子力學的兩個主要問題。
- 英國物理學家保羅·狄拉克
根據他的説法,第一個問題是“與該理論與相對論思想的精確契合有關”。第二,“這些(量子)定律的精確應用,會導致過於複雜而難以解出的方程式”。第二個問題正是量子多體問題。
幸運的是,許多物理系統的量子態可以用比希爾伯特空間最大容量少得多的信息來描述。這一事實被一些數值技術所利用,包括著名的量子蒙特卡羅法(QMC)。
量子波函數簡單地説,量子波函數在數學上描述了量子系統的狀態。第一個得到精確數學處理的量子系統是氫原子。
- 在氫原子中找到電子的概率
一般來説,一個量子態用一個復概率振幅Ψ(S)表示,其中參數S包含了關於系統狀態的所有信息。例如,在自旋1/2鏈中:
- 一維自旋鏈,每個粒子在z軸有一個σ值。
從Ψ(S)可以導出與系統測量相關的概率。例如,正實數Ψ(S)的模方給出了與Ψ(S)相關的概率分佈:
哈密頓算符量子系統的性質由系統的哈密頓算符H封裝,後者是兩項的和:
- 系統中所有粒子的動能,這與它們的運動有關
- 系統中所有粒子的勢能,與粒子相對於其他粒子的位置有關。
量子系統的允許能級(它的能譜)可以通過求解所謂的薛定諤方程得到,這是一個描述量子力學系統行為的偏微分方程。
- 奧地利物理學家埃爾温·薛定諤,量子力學之父之一。
薛定諤方程的時間無關版本由下列特徵值系統給出:
特徵值和對應的特徵態為:
最低的能量對應於系統的“基態”。
一個簡單的例子為了具體起見,讓我們考慮以下例子——量子諧振子。QHO是經典諧振子(見下圖)的量子力學對應物,經典諧振子是一個系統,當它從初始位置被移到平衡位置時,會受到一個力的作用。
- 一種質量-彈簧諧振子
下面的動畫比較了簡諧振子的經典和量子概念。
- 描述量子諧振子的波函數
一個具有明確軌跡的簡單振動質量代表了經典系統(上圖中的A塊和B塊),而相應的量子系統則用一個復波函數來表示。在每個區塊中(從C開始)有兩條曲線,藍色的是Ψ的實部,紅色的是虛部。
量子自旋系統在量子力學中,自旋可以大致理解為粒子和原子核所攜帶的“角動量的內在形式”。雖然直覺上認為自旋是一個粒子圍繞自己的軸旋轉,但這並不完全正確,因為粒子會以比光速還快的速度旋轉,這違反了基本的物理原理。自旋是沒有經典對應物的量子力學物體。
- 多體系統的例子,自旋雜質通過原子鏈傳播
量子自旋系統與磁性現象密切相關。磁鐵是由原子組成的,原子通常是小磁鐵。當這些原子磁體變成平行定向時,就產生了我們所熟悉的宏觀效應。
- 磁性材料經常顯示自旋波,以磁性順序傳播擾動。
現在,我將簡要介紹機器學習算法的基本組成部分,以幫助讀者理解它們與量子系統的聯繫。
機器學習=機器+學習機器學習方法有兩個基本組成部分:
- 這個機器可以是一個人工神經網絡Ψ,具有參數:
- 使用隨機優化算法學習參數W。
人工神經網絡通常是非線性多維嵌套函數。它們的內部工作只是啓發式地理解,研究它們的結構並不能產生關於它所近似的函數的見解。
- 簡單的雙隱層人工神經網絡
由於網絡參數和被近似的數學函數之間缺乏明確的聯繫,神經網絡通常被稱為“黑盒子”。
有幾種類型的人工神經網絡,但本文將集中討論受限玻爾茲曼機(RBM)的具體情況。
什麼是受限玻爾茲曼機?受限玻爾茲曼機可以生成隨機神經網絡。它們有很多應用,包括:
- 協同過濾
- 降維
- 分類
- 迴歸
- 特徵學習
- 主題建模
受限玻爾茲曼機屬於一類基於能量的模型。它們不同於其他神經網絡,後者根據輸入估計一個值,而受限玻爾茲曼機估計輸入的概率密度(它們估計許多點,而不是單個值)。
受限玻爾茲曼機有以下屬性:
- 它們是淺層網絡,只有兩層(輸入/可見層和隱藏層)
- 它們的隱藏單位h和可見單位v通常是二進制值
- 有一個權重矩陣W與隱藏單位和可見單位之間的聯繫相關
- 有兩個偏置項,一個用於輸入單位,用a表示,另一個用於隱藏單位,用b表示
- 每個配置都有一個相關的能量函數E(v,h),在訓練過程中最小化
- 它們沒有輸出層
- 沒有內部層連接。對於一組已知的可見單元激活,隱藏單元激活是相互獨立的。這一性質極大地促進了分析。
最小化的能量泛函為:
- 式1:受限玻爾茲曼機最小化能量函數。
可見單元和隱藏單元的聯合概率分佈為:
- 式2:總概率分佈。
其中歸一化常數Z稱為配分函數。追蹤隱藏的單位,我們得到一個可見(輸入)向量的邊際概率:
- 式3:輸入單位邊際概率分佈。
因為,如前所述,隱藏(可見)單元激活是相互獨立的,給定可見(隱藏)單元激活可以寫作:
- 式4:條件概率由於相互獨立而變成乘積。
並且:
- 式5:與式4相同。
最後,激活概率為:
- 式6:激活概率。
其中σ為sigmoid函數。
訓練步驟如下:
- 我們首先將可見單位狀態設置為訓練向量。
- 隱藏單位的狀態,然後使用式6左邊的表達式計算。
- 選擇隱藏單元的狀態後,進行所謂的“重構”,根據式6右側的表達式將每個可見單元設置為1。
- 權值的變化由下式確定:
受限玻爾茲曼機執行一個稱為“重構”的無監督過程。它們通過在兩層之間進行長時間的連續傳遞來重構數據。在向後傳遞中,如下圖所示,隱藏層中節點的激活函數成為新的輸入。
這些輸入的乘積和各自的權重被求和,並且來自可見層的新的偏差b被添加到每個輸入節點。這種操作產生的新輸出稱為“重構”,因為它是原始輸入的近似。
自然,重構和原始輸入在一開始是非常不同的(因為w的值是隨機初始化的)。然而,由於誤差被重複反向傳播到w,它逐漸被最小化。
因此,我們認為:
- 在前向傳遞時,受限玻爾茲曼機使用輸入對節點的激活進行預測,並在加權輸入x的條件下估計輸出的概率分佈
- 在反向傳遞中,受限玻爾茲曼機試圖估計在激活a條件下輸入x的概率分佈
將兩個條件分佈連接起來,得到x和a的聯合概率分佈,即受限玻爾茲曼機學會了如何逼近原始數據(輸入的結構)。
如何將機器學習和量子系統連接起來?在《科學》雜誌上的一篇文章中,卡萊奧和泰勒提出可以把量子多體系統的量子波函數Ψ(S)當作一個黑盒,然後用受限玻爾茲曼機來近似它。通過優化受限玻爾茲曼機的參數,將其訓練成Ψ(S)。
- 卡萊奧和泰勒使用的RBM編碼自旋多體量子態。
問題是如何將(與時間無關的)薛定諤方程作為一個特徵值問題重新表述為一個機器學習問題。
變分法事實證明,答案早已為人所知,它基於所謂的變分法,這是波動方程的另一種形式,可以用來獲得量子系統的能量。利用該方法,我們可以將優化問題寫成:
其中 E[Ψ]是一個依賴於特徵態和哈密頓量的泛函。通過求解這一優化問題,我們得到了基態能量及其相應的基態。
量子態與受限玻爾茲曼機在卡萊奧和泰勒的論文中,受限玻爾茲曼機被用來表示量子態Ψ(S)。他們推廣了受限玻爾茲曼機以考慮複雜的網絡參數。
很容易證明能量泛函可以寫成:
其中,最後一個等號後的期望值的參數是局部能量。然後利用隨機重構方法對神經網絡進行訓練。相應的優化迭代為:
其中η是學習率,S是隨機重構矩陣,它依賴於特徵態及其對數導數。
受限玻爾茲曼機對自旋1/2的量子系統特別感興趣,他們將量子態寫成如下:
在這個表達式中,Ψ的W參數是一組參數:
其中a和b上的分量是實數,但W可以是複數。由於缺少層內交互作用,受限玻爾茲曼機架構的典型特點是允許隱藏變量消失,將上面的表達式大大簡化為:
要訓練量子波函數,必須遵循類似的過程。
結論在這篇簡短的文章中,我們看到限制玻爾茲曼機器(RBM),一種簡單的人工神經網絡,可以用來計算非常高精度的基態能量的多粒子量子系統。