不用從零開始訓練融合離線/在線強化學習的新算法能更好控制機器人

2020-07-20 由展東明發佈於科技

近年來，越來越多的研究人員開發了基於人工神經網絡的模型，這些模型可以使用強化學習(RL)技術進行訓練。RL需要訓練人工智能體來解決各種各樣的任務，當它們表現良好，例如正確地對圖像進行分類時，給予它們“獎勵”。

到目前為止，大多數基於ANN的模型都是使用在線RL方法進行訓練的。在這種方法中，一個從未接觸過目標任務的Agent(能自主活動的軟件或者硬件實體)，通過與在線虛擬環境交互來學習。然而，這種方法相當昂貴、耗時且效率低下。

最近，一些研究探討了離線訓練模型的可能性。在這種情況下，Agent通過分析固定的數據集來學習完成給定的任務，因此不會主動與虛擬環境交互。而這種方法雖然在某些任務上取得了很好的效果，但它們不允許代理實時主動學習。

加州大學伯克利分校的研究人員最近引入了一種新的算法，融合了在線和離線RL方法對AI進行訓練。該算法是在arXiv上預先發表的一篇論文中提出的，它最初是在大量離線數據的基礎上進行訓練的，但同時也完成了一系列的在線訓練試驗。

在回顧過去的RL文獻時，研究人員意識到，以前開發的模型在離線訓練和在線微調時表現不佳，通常是因為他們學習太慢或在培訓期間沒有充分利用離線數據集。

他們指出，過去的一個問題是，工程師總是讓模型從零開始學習任務，而不是能夠利用現有的數據集進行RL，他們花費了太長的時間和太多的精力來評估機器人上在真實世界中的運行。新方法則是通過已有數據對模型進行預訓練，只進行少量額外的真實世界交互。

他們觀察到，在諸如優勢加權迴歸(AWR)和演示增強策略梯度(DAPG)等策略技術上，通常用於在線微調模型，與非策略方法相比，學習速度通常非常慢。

非策略方法，如軟角色批評(SAC)方法，在離線數據集上訓練時，通常沒有太大改善。

離線訓練模型的技術，如bootstrap錯誤累積減少(BEAR)、行為規則化演員批評(BRAC)和優勢行為模型(ABM)通常在離線預訓練階段效果良好，但在線訓練後，它們的表現並沒有太大改善，這主要是因為它們依賴於行為模型。

面對這些挑戰，研究人員開發了優勢加權Actor評價(AWAC)算法，這是一種非策略性的Actor評價算法，它不依賴行為模型來接近數據分佈。相反，它可以通過抽樣得出一種隱式地接近數據的算法。

研究人員評估了他們的算法在不同的操作任務中的性能，這些任務有三個關鍵方面，即複雜的不連續接觸、極稀疏的二進制獎勵和30個關節的控制。

更具體地説，他們的算法被訓練來控制機器人的運動，讓它旋轉手中的筆、打開門以及拿起一個球並將其移動到所需的位置。對於每一項任務，奈爾和他的同事們在一個離線數據集上訓練該算法，該數據集包含25個人類演示和500個非策略數據的軌跡，這些數據是通過行為克隆技術獲得的。

第1個任務筆旋轉相對來説比較簡單，很多方法最終都能解決這個問題，但AWAC是最快的，第2和第3個任務只有AWAC能解決了。老方法失敗的原因有很多，但主要是無法獲得合理的初始策略來收集良好的勘探數據，或者無法從交互數據中在線學習。

在9種方法中，AWAC是唯一一種能夠持續解決他們測試過的複雜操作任務的方法。

在未來，該算法可以使用RL在更廣泛的任務範圍內訓練模型。其他研究團隊也可以從他們的工作中獲得靈感，並設計出類似的RL方法，將離線和在線培訓結合起來。

編譯/前瞻經濟學人APP資訊組

參考資料:

[1]https://techxplore.com/news/2020-07-algorithm-merges-online-offline.html

[2]https://arxiv.org/abs/2006.09359