5月31日,美國蘭德公司發佈研究報告《通過機器學習實現空中優勢:對人工智能輔助任務規劃的初步探索》。報告概述了研究團隊建立人工智能系統進行空戰任務規劃的方法以及得出的結論。
01 背 景
長期以來,美國的空中優勢一直是美國戰爭和威懾的基石,但競爭對手在這一領域的發展對美國構成了越來越大的挑戰。機器學習能夠為這一現狀的顛覆提供機會。更有效地使用自動化能夠幫助美國改進作戰並加強威懾,甚至可能將實現規劃和作戰概念發展的新辦法。通過試驗,美國國防部門能夠建立對人工智能輔助規劃的優勢和劣勢的基本理解,從而能夠更好地為戰略突襲和破壞做好準備。
02 研究方法
該報告提出了一個概念性人工智能系統的原型,以幫助開發和評估新的空中作戰概念。研究團隊測試了幾種學習技術和算法,以訓練能夠在與作戰相關的模擬環境中發揮作用的空戰計算實體。其目標是利用人工智能系統的能力,大規模地反覆進行模擬,從經驗中進行總結,並在一次次重複中進行改進,從而加速並豐富作戰概念的發展。
為完成這一任務,研究人員將開源深度學習框架與美國國防部標準的戰鬥模擬工具“先進仿真、集成和建模框架”(AFSIM)集成在一起。AFSIM為機器學習計算實體的學習提供了環境,而深度學習框架為測試最先進的學習算法(如生成對抗網絡(GANs)、Q學習算法、異步優勢動作評價(A3C),以及近端策略優化(PPO)等)提供了平台。由於訓練需要數千次模擬,研究團隊開發了一個快速、低保真的AFSIM版本“AFGYM”,以進行更快的環境模擬。
圖:PPO AFGYM-AFSIM轉移演示
03 研究結論
1. 儘管實現任務規劃較為困難,但研究團隊運用人工智能算法,成功實現了時間和空間協調的飛行路線的開發。如果對這種算法在規模等方面進行更好的調整,可能將對美國防部有實用價值。
2. 目前,能夠應對現實威脅的此類算法的計算能力和時間需求尚不清楚。但如果訓練完成,人工智能任務規劃工具相比現有的人工或自動規劃技術將在速度上具有極大優勢。
3. 在模擬中,回報函數往往能夠以意想不到的方式徹底改變人工智能的行為。在設計這類函數時,必須注意準確地捕捉風險與意圖。
4. 與用於訓練當代人工智能系統的數據量相比,現實世界的任務數據較為稀缺。在真實世界中,經過針對模擬訓練的完美算法也可能表現不佳(比如自動駕駛汽車)。在運用人工智能制定安全問題解決方案之前,必須在測試和算法可驗證性方面取得更多進展。