ICRA2020最佳論文授予加州理工，清華：首個自適應外骨骼步態AI算法

選自arXiv

機器之心編譯

機器之心編輯部

上週末，機器人領域頂級會議 ICRA 2020 放出了所有獎項的結果，來自加州理工和清華大學的 Maegan Tucker 等人的工作獲得了本屆大會最佳論文獎。本論文還同時獲得最佳人機交互論文獎（Best Paper Award on Human-Robot Interaction）。

論文鏈接：https://arxiv.org/abs/1909.12316

這項研究展示瞭如何利用「個人偏好」，來定製化提升人類使用下肢外骨骼的舒適感。以往，機械外骨骼一直被美國軍隊視為提升士兵作戰能力的工具，但加州理工和清華大學的這項研究在未來或許可為數千萬殘障人士帶來幫助。

該研究提出了一種叫做 COSPAR 的算法，它可以將合作學習應用於下肢外骨骼操作時對人類偏好的適應，並在模擬和真人實驗中進行了測試。

論文參與方有Caltech的Aaron Ames組、Joel Burdick組和Yisong Yue組，以及清華大學的Yanan Sui組。

研究者表示，未來計劃將 COSPAR 用於優化規模更大的步態參數，但可能需要集成該算法與更多可用於高維特徵空間學習的技術。這一方法還可以擴展到預計算步態庫以外的數據，進而生成全新的步態或者控制器設計。

從輔助移動到自動駕駛，從教育到對話系統，人機交互在多個應用領域得到了越來越多的關注。在這些領域中，為了使機器人系統和人類用户的交互效果最優化，機器人系統必須根據用户的反饋做出適應性調整。具體而言，機器人系統從用户反饋中學習有助於改進機器人輔助設備。

這項研究致力於優化下肢外骨骼 Atalante 的步態，以最大程度地提升用户舒適度。

Atalante 是法國初創公司 Wandercraft 開發的第四代下肢外骨骼設備，它使用 12 個驅動關節（actuated joint），來幫助下肢運動障礙的人恢復移動能力。利用 Atalante 進行的現有工作證明了，利用局部混合零動態（partial hybrid zero dynamics，PHZD）方法可以實現動態穩定地行走，該方法最初是為雙足機器人設計的。

儘管 PHZD 方法能夠生成穩定的雙足移動，但目前仍沒有能夠提升舒適度的框架。然而，用户舒適度應該是優化外骨骼行走步態的關鍵目標。現有方法能夠讓雙足機器人擁有和人類類似的行走步態，但它們無法滿足用户的個人偏好。

就像涉及人類的很多現實世界設置一樣，對於外骨骼步態生成而言，可靠地指出數值分數或者提供 demo 都是有挑戰性的。在這樣的情況下，用户的相關偏好（relative preferences）能夠更可靠地度量他們的舒適度。之前的研究已經發現，在信息檢索和自動駕駛等多個領域中，用户偏好比數值分數更可靠。

基於決鬥賭博機（dueling bandits）和合作學習（coactive learning），該研究提出了 COSPAR 算法來學習用户偏好的外骨骼步態。COSPAR 是一種混合驅動（mixed-initiative）方法，既可以查詢用户的偏好，也允許用户提出改進意見。研究者在模擬和真人實驗中進行了驗證。實驗表明，COSPAR 能夠在步態庫中找到用户偏愛的步態。此過程不僅可以識別用户偏好的行走軌跡，還可以洞悉用户對某些步態的偏好。

基於用户偏好的學習算法

從人的主觀反應中學習時，偏好反饋比絕對反饋更加可靠，因此該研究利用「基於偏好的學習」（如用户喜歡步態 A 還是步態 B？），來確定用户最喜歡的步態參數。因此，該研究個性化外骨骼步態的目標可以被定義為決鬥賭博機和合作學習問題。

該研究基於 Self-Sparring 算法構建。這是一種貝葉斯決鬥賭博機方法，既具備有競爭力的理論收斂保證，又擁有實證性能。Self-Sparring 算法基於每個動作對用户的效用來學習貝葉斯後驗，並通過偏好誘導從模型的後驗中抽取多個樣本進行決鬥。

Self-Sparring 算法可以迭代地執行以下操作：a）從動作效用的後驗模型中提取多個樣本；b）對於每個樣本模型，用最高的採樣效用執行動作；c）在已執行動作之間查找偏好反饋；d）根據獲取的偏好數據更新後驗。

為了收集更多的反饋信息，研究者允許用户在試用期間提出改進建議。這種方法類似於合作學習框架，即用户將改進的動作作為對每個動作的反饋。

合作學習已經應用於機器人軌跡規劃，但尚未用於機器人步態生成或與偏好學習相結合。

COSPAR 算法

為了優化步態庫內的外骨骼步態，研究者提出了一種混合驅動學習方法 COSPAR 算法，該算法擴展了 Self-Sparring 算法，將主動反饋融入其中。

和 Self-Sparring 類似，COSPAR 維護基於可能動作的貝葉斯偏好關係函數，該函數用於觀察到的偏好反饋。COSPAR 基於用户反饋更新模型，並用它來選擇新試驗的動作，並誘導反饋。

該研究首先定義了貝葉斯偏好模型，然後細化了算法 1 的步驟。

COSPAR 算法。

模擬實驗

研究者在兩種模擬環境中對 COSPAR 的性能進行評估。

圖2。

然後通過對比 COT 值來確定偏好。COT 值是通過模擬多個步長的步態來計算的，每個步長均保持固定 0.2 m/s 的髖關節速度。這些模擬步態是通過 single-point shooting 局部混合零動態方法合成的。

真人實驗

在模擬實驗之後，研究者將 COSPAR 部署在下肢外骨骼設備 Atalante 上，進行了兩項人類受試者的個性化步態優化實驗。這兩項實驗的目的是，確定使用户舒適度最大化的步態參數值，比如偏好和合作反饋。

00:00/00:00倍速

第一個實驗針對三個健康的受試者，用 COSPAR 來確定受試者的偏好步長，也就是在一維特徵空間中進行優化。

第二個實驗展示了 COSPAR 在二維空間中的有效性，並在兩個不同的步態特徵對上同時進行了優化。重要的是，COSPAR 不依賴於步態特徵的選擇。

參考內容：

https://venturebeat.com/2020/06/03/caltech-ai-lab-optimizes-exoskeleton-gait-for-human-comfort/