ICRA 2020最佳論文授予加州理工和清華：首個自適應外骨骼步態AI演算法

選自arXiv

機器之心編譯

機器之心編輯部

上週末，機器人領域頂級會議 ICRA 2020 放出了所有獎項的結果，來自加州理工和清華大學的 Maegan Tucker 等人的工作獲得了本屆大會最佳論文獎。本論文還同時獲得最佳人機互動論文獎（Best Paper Award on Human-Robot Interaction）。

論文連結：https://arxiv.org/abs/1909.12316

這項研究展示瞭如何利用「個人偏好」，來定製化提升人類使用下肢外骨骼的舒適感。以往，機械外骨骼一直被美國軍隊視為提升士兵作戰能力的工具，但加州理工和清華大學的這項研究在未來或許可為數千萬殘障人士帶來幫助。

該研究提出了一種叫做 COSPAR 的演算法，它可以將合作學習應用於下肢外骨骼操作時對人類偏好的適應，並在模擬和真人實驗中進行了測試。

論文參與方有Caltech的Aaron Ames組、Joel Burdick組和Yisong Yue組，以及清華大學的Yanan Sui組。

研究者表示，未來計劃將 COSPAR 用於最佳化規模更大的步態引數，但可能需要整合該演算法與更多可用於高維特徵空間學習的技術。這一方法還可以擴充套件到預計算步態庫以外的資料，進而生成全新的步態或者控制器設計。

從輔助移動到自動駕駛，從教育到對話系統，人機互動在多個應用領域得到了越來越多的關注。在這些領域中，為了使機器人系統和人類使用者的互動效果最最佳化，機器人系統必須根據使用者的反饋做出適應性調整。具體而言，機器人系統從使用者反饋中學習有助於改進機器人輔助裝置。

這項研究致力於最佳化下肢外骨骼 Atalante 的步態，以最大程度地提升使用者舒適度。

Atalante 是法國初創公司 Wandercraft 開發的第四代下肢外骨骼裝置，它使用 12 個驅動關節（actuated joint），來幫助下肢運動障礙的人恢復移動能力。利用 Atalante 進行的現有工作證明了，利用區域性混合零動態（partial hybrid zero dynamics，PHZD）方法可以實現動態穩定地行走，該方法最初是為雙足機器人設計的。

儘管 PHZD 方法能夠生成穩定的雙足移動，但目前仍沒有能夠提升舒適度的框架。然而，使用者舒適度應該是最佳化外骨骼行走步態的關鍵目標。現有方法能夠讓雙足機器人擁有和人類類似的行走步態，但它們無法滿足使用者的個人偏好。

就像涉及人類的很多現實世界設定一樣，對於外骨骼步態生成而言，可靠地指出數值分數或者提供 demo 都是有挑戰性的。在這樣的情況下，使用者的相關偏好（relative preferences）能夠更可靠地度量他們的舒適度。之前的研究已經發現，在資訊檢索和自動駕駛等多個領域中，使用者偏好比數值分數更可靠。

基於決鬥賭博機（dueling bandits）和合作學習（coactive learning），該研究提出了 COSPAR 演算法來學習使用者偏好的外骨骼步態。COSPAR 是一種混合驅動（mixed-initiative）方法，既可以查詢使用者的偏好，也允許使用者提出改進意見。研究者在模擬和真人實驗中進行了驗證。實驗表明，COSPAR 能夠在步態庫中找到使用者偏愛的步態。此過程不僅可以識別使用者偏好的行走軌跡，還可以洞悉使用者對某些步態的偏好。

基於使用者偏好的學習演算法

從人的主觀反應中學習時，偏好反饋比絕對反饋更加可靠，因此該研究利用「基於偏好的學習」（如使用者喜歡步態 A 還是步態 B？），來確定使用者最喜歡的步態引數。因此，該研究個性化外骨骼步態的目標可以被定義為決鬥賭博機和合作學習問題。

該研究基於 Self-Sparring 演算法構建。這是一種貝葉斯決鬥賭博機方法，既具備有競爭力的理論收斂保證，又擁有實證效能。Self-Sparring 演算法基於每個動作對使用者的效用來學習貝葉斯後驗，並透過偏好誘導從模型的後驗中抽取多個樣本進行決鬥。

Self-Sparring 演算法可以迭代地執行以下操作：a）從動作效用的後驗模型中提取多個樣本；b）對於每個樣本模型，用最高的取樣效用執行動作；c）在已執行動作之間查詢偏好反饋；d）根據獲取的偏好資料更新後驗。

為了收集更多的反饋資訊，研究者允許使用者在試用期間提出改進建議。這種方法類似於合作學習框架，即使用者將改進的動作作為對每個動作的反饋。

合作學習已經應用於機器人軌跡規劃，但尚未用於機器人步態生成或與偏好學習相結合。

COSPAR 演算法

為了最佳化步態庫內的外骨骼步態，研究者提出了一種混合驅動學習方法 COSPAR 演算法，該演算法擴充套件了 Self-Sparring 演算法，將主動反饋融入其中。

和 Self-Sparring 類似，COSPAR 維護基於可能動作的貝葉斯偏好關係函式，該函式用於觀察到的偏好反饋。COSPAR 基於使用者反饋更新模型，並用它來選擇新試驗的動作，並誘導反饋。

該研究首先定義了貝葉斯偏好模型，然後細化了演算法 1 的步驟。

COSPAR 演算法。

模擬實驗

研究者在兩種模擬環境中對 COSPAR 的效能進行評估。

圖2。

然後透過對比 COT 值來確定偏好。COT 值是透過模擬多個步長的步態來計算的，每個步長均保持固定 0.2 m/s 的髖關節速度。這些模擬步態是透過 single-point shooting 區域性混合零動態方法合成的。

真人實驗

在模擬實驗之後，研究者將 COSPAR 部署在下肢外骨骼裝置 Atalante 上，進行了兩項人類受試者的個性化步態最佳化實驗。這兩項實驗的目的是，確定使使用者舒適度最大化的步態引數值，比如偏好和合作反饋。

第一個實驗針對三個健康的受試者，用 COSPAR 來確定受試者的偏好步長，也就是在一維特徵空間中進行最佳化。

第二個實驗展示了 COSPAR 在二維空間中的有效性，並在兩個不同的步態特徵對上同時進行了最佳化。重要的是，COSPAR 不依賴於步態特徵的選擇。

參考內容：

https://venturebeat.com/2020/06/03/caltech-ai-lab-optimizes-exoskeleton-gait-for-human-comfort/

原標題：《ICRA 2020最佳論文授予加州理工、清華大學：首個自適應外骨骼步態AI演算法》