人類試圖教AI如何造小太陽，結果是——

最近，在核科學領域有一個大新聞。就連取得這項成就的科學家自己，都覺得不可思議——amazing呀！

“這個時刻我等了好久啦——第一次在核聚變研究上演示深度強化學習！”來自DeepMind的科學家David Pfau激動的分享了自己的論文 | 機器之心

不知道多少朋友看過復仇者聯盟——裏面的鋼鐵俠，他之所以這麼牛，主要還是他鎧甲正中央有一個“小太陽”，在給他源源不斷的提供大量能量。這個小太陽不是別的，正是今天要談的主人公——之一——可控核聚變。雖然不知道漫威宇宙裏鋼鐵俠這個可控核聚變是怎麼實現的，但是目前為止，在人類世界，它還依舊只是一個夢想。

《鋼鐵俠3》海報 | www.sfs-cn.com

什麼是可控核聚變？

正如分子間進行放熱的化學反應可以產生能量，原子核（或中子）之間進行的放熱核反應也可以產生能量，而且這個能量要遠遠大於化學反應產生的能量。在目前的可控核聚變的方案中，人們採用的是氘氚反應：

核聚變反應原理圖（Deuterium氘與Tritium氚反應，產生Neutron中子與Helium氦，並釋放能量） | 文獻[2]

在氘核和氚核的聚變反應中，會釋放大量的能量，但是想讓氘核和氚核碰撞在一起卻並不是一件容易的事。

第一個問題是，氘核和氚核都帶正電，在自然界中會捕獲電子，形成原子。想要讓氘核和氚核反應，就需要剝離這些電子。

不止如此，原子核非常的小，如果把一個原子看成一個足球場，那麼原子核相當於足球場中的一個乒乓球，想讓在這麼大的空間中的兩個乒乓球相撞當然是難如登天。

科學家們採用了一個大力出奇跡的辦法，一次性解決了兩個問題——那就是加温加壓。加温首先能讓原子中的電子和原子核分離，形成等離子體，這一方面解決了第一個問題，同時也提升了原子核的動能，也就是乒乓球的速度；而加壓就是減小原子核之間的間距，也就是縮小了“足球場”的大小。這樣就能大大提升原子核相撞的概率。那麼要加熱到什麼程度呢，我們以太陽為參考，太陽的中心温度是1500萬攝氏度，壓強達到3000億倍大氣壓，這樣的壓強我們是很難實現了，於是我們只能用更高的温度，我國的EAST（全超導託卡馬克核聚變實驗裝置）的運行温度就高達一億度。

但這樣，新的問題也誕生了：怎樣才能裝下這樣的一個小太陽呢。針對這個問題，人們提出了各種可控核聚變方案，其中一種比較主流的方案就是利用洛倫茲力，進行磁約束。託卡馬克裝置就是一種磁約束裝置。

託卡馬克裝置示意圖（Coils：線圈，Plasma：等離子體） | 文獻[2]

它的主體結構是一個內部抽真空的圓環。在圓環周圍環繞着多個線圈，這樣的線圈能提供沿圓環切線方向的磁場；圓環中心也有多個線圈，這些線圈提供垂直於圓環所在平面的磁場，以及沿圓環切線方向的感應電場。在這樣的電磁場下，等離子體就可以被束縛在圓環中，並能為其進行歐姆加熱（有電阻的物質在通過電流時會產生熱量）。

實現可控核聚變的好處多多，一方面原材料豐富：每一公升海水中提取出來的氘參與聚變反應所釋放的能量與300公升汽油釋放的能量相當；氚則可以通過鋰原子裂變產生，而鋰在地殼和海水中都大量存在。可以説，一旦實現了可控核聚變，人類就很大程度上實現了“能源自由“。另一方面產物污染小，目前可控核聚變的首選方案是氘氚反應，它的產物只有中子和氦-4的原子核以及大量能量，不會產生有害氣體，也幾乎沒有放射性污染。

而且，最重要的是，同樣是核能，核聚變比核裂變更安全可靠。想要維持核聚變，等離子體必須達到上億度的高温並保持一定的密度，而維持這樣的温度和密度需要極為苛刻的條件，任何一點細微條件缺失，核聚變反應很快就會停止；此外，參與核聚變的等離子體處於真空中，其密度非常低，相對於空氣的密度小了若干數量級，因此不必擔心這些等離子體泄露後與空氣反應爆炸的問題。

然而，想要上手這種取之不盡又清潔環保的能源，並非易事。温度和壓強足夠高是可控核聚變的必要條件，根據之前的分析，温度和壓強的提高可以增加原子核相互碰撞的概率；可光有概率不夠，我們還必須讓這樣的温度和壓強持續足夠長的時間，這樣就能增加一次實驗中聚變反應發生的數目，從而提高產生的總能量。這個時間我們稱為能量約束時間，它與壓強、温度一起，共同構成了評估一次可控核聚變的三要素。

可控核聚變看重的竟然是…...

和人們認為“相由心生”“顏值即正義”一樣，可控核聚變也很看重等離子體的“外觀”——我們稱之為“構型”（configuration）。

這是因為，等離子體的橫截面積形狀能夠影響核聚變的各種參數。科學家們發現，有三個重要參數：離子平均密度，能量約束時間，離子温度。對一次可控核聚變實驗而言，這三個數的乘積越大越好，優化等離子體的橫截面形狀能夠提升這三個數中的能量約束時間。二十五年以來，科學家致力於提升這個乘積，現在已經提高了4個數量級。

在託卡馬克裝置中的等離子體（左），其截面構型示意圖（右） | 文獻[1]

雖然説，聰明的人類已經掌握了其中的一些規律，可以根據想要的等離子體構型去反推電流電壓等參數，就是……累了點。簡單來説，可以根據這些掌握的規律，先粗略創建一個控制系統——比如要讀取哪些傳感器的輸入數據啦，以及如何響應它們的變化啦；但是，在一個真實的核聚變過程中，等離子體的能量構型等總有一些奇奇怪怪的波動，所以還會有一個測量和建模相互迭代的過程，對原初系統進行實時調整，然後才產生了最終的控制系統。這樣產生的控制器不僅來之不易，還只能用於同一種等離子體構型。但凡想在託卡馬克中用一種截然不同的等離子體結構進行試驗，就很可能要對系統進行大修特修。

在託卡馬克中用一種截然不同的等離子體結構進行實驗，猶如甲方爸爸提出了一些小改動↑

要對系統進行大修特修的科學家，則戴上了痛苦面具↑

其實人類也並不想這麼辛苦，説到底，比起實現某種構型的具體方法，更有趣的難道不是構型本身嗎？所以，構型參數怎麼取，這麼枯燥燒腦的事情，就讓人工智能（AI）學去吧！

AI：是時候改變世界了——

於是，DeepMind，一個挑戰了從蛋白質摺疊到星際爭霸問題的明星企業，攜手瑞士洛桑聯邦理工學院等離子體中心，一起開啓了託卡馬克的馴服之旅。

強化學習：這題我會

第一步，制定目標

學習什麼的，當然是目標最重要啦。目標可以包含各種各樣期望的特徵，包括但不限於等離子體位置、電流的基本穩定、具有指定延伸率和X點位置等的精確形狀輪廓等等（如下表所示）。這些目標將組合成一個“獎勵函數”（Reward Function）,專門懲罰那些達不到目標的控制策略（就像學校的校規校紀）。儘管羅列了十多項特徵，但獎勵函數的設計確實已經是最小限度了，這樣可以保證強化學習的算法具有最大的靈活性。（DeepMind：這都是為師的良苦用心啊！

獎勵函數的組成成分。每個成分都會有一個目標值和實際值，並且許多都可以隨時間變化 | 文獻[1]

第二步，確定策略

用模擬器產生等離子體狀態演化的相關數據，讓強化學習算法收集這些數據，不斷地學習和積攢經驗，然後在獎勵函數的引導下尋找到“最優控制策略”。（其實這裏還有一個精心設計的“批評家”算法，專門用於訓練，詳細請見文獻[1]。）

第三步，實戰演練

如圖所示，託卡馬克的“實時控制系統”（Real-time control system）包含了兩部分——一個是傳統的控制器，另一個就是深度學習訓練得到的控制系統。每次實驗時，待產生一個標準等離子體後，首先出場的是傳統控制器，它的作用是保持等離子體的位置與總電流；當等離子體穩定後，就輪到深度學習的控制系統出場——它將通過每秒一萬次、每次92種測量數據來精確跟蹤等離子體，並根據之前學習的策略相應地調整反應堆的19個控制線圈，最終得到我們需要的等離子體形狀和電流。

控制系統包含兩部分：e為深度學習控制系統，f為傳統控制器。先由後者將等離子體穩定，再由前者調整線圈，得到目標等離子體構型等 | 文獻[1]

其實這三步裏面，前面兩步都像是在學校裏上課和練習模式，只有最後一步才是真正的考試。在第三步之前，用於訓練深度學習算法的，都是“練習題”和“往屆試題”。所以最後訓練得到的這個算法，在真正的考試中實際的物理環境中運行時，可以針對不同條件的實驗條件，保持等離子體的穩定，並且改變等離子體的幾何結構，甚至……可以在同一託卡馬克中同時產生兩個獨立的“水滴狀”等離子體結構！（下圖左一）

在科學家眼裏，每種構型都意味着完全不同的參數設置 | 文獻[1]

這在傳統控制器時代是無法想象的。如果説“等離子體構型控制”是一門課程，那麼人工智能顯然是這門課程中的天才學生！因為最複雜的系統之一——託卡馬克磁控問題，等離子體控制器的設計一直都是一道難題。不得不説，人工智能的這次了不起的嘗試為等離子體控制器設計帶來了新的希望和方向。這毫無疑問將加速託卡馬克磁控以及核聚變科學的發展。

這也是繼下棋（Alpha go）、遊戲（星際爭霸）以來，人工智能第一次在如此重要的領域大顯身手。我們在成長的同時，人工智能也在成長，下一次，它又會在何處帶給我們驚喜呢？讓我們拭目以待！

參考文獻

[1].Magnetic control of tokamak plasmas through deep reinforcement learning | Nature 即論文原文~

[2].Ariola, M., & Pironti, A. (2008). Magnetic control of tokamak plasmas (Vol. 187). London: Springer.

[3].可控核聚變_百度百科 (baidu.com)

[4].史上首次，強化學習算法控制核聚變登上Nature：DeepMind讓人造太陽向前一大步 (qq.com)

[5].New Fusion Reactor Doubles Energy Record From Fusing Atoms (sciencefriday.com)

[6].DeepMind's AI can now successfully control plasma in a fusion reactor – By Futurist and Virtual Keynote Speaker Matthew Griffin (fanaticalfuturist.com)

[7].可控核聚變應用，永遠“還要50年”？(baidu.com)

[8].“人造太陽”又進一步，可控核聚變技術再獲突破 (baidu.com)

[9].DeepMind_百度百科 (baidu.com)

[10].為什麼是氘和氚？一文通透了解聚變基本原理。- 知乎 (zhihu.com)

[11].可控核聚變 - 知乎 (zhihu.com)

[12].什麼是可控核聚變？- 知乎 (zhihu.com)

[13].鋰（金屬元素）_百度百科 (baidu.com)

[14].“人造太陽”離圓夢又近一步——揭秘中國可控核聚變-國家能源局電力可靠性管理和工程質量監督中心 (nea.gov.cn)

特別鳴謝：平平無奇小葉榕

表情包來源：網絡

封圖：sktfaker

本文經授權轉載自中科院物理所（ID：cas-iop），如需二次轉載請聯繫原作者。歡迎轉發到朋友圈。