人類高層次的感知任務(如思考、計劃和靈感等)依賴於人體多個器官的感覺信息的協同集成與整合。其中,手勢識別可以看作是一種相對簡單的高層次感知任務,它可以被廣泛地用於機器人和醫療保健等領域。目前,手勢識別主要通過使用機器學習方法對一些視覺信息(如照片、視頻等)進行算法的處理來實現。這類方法主要受限於視覺信息,容易受到一些不可預期的環境因素的干擾,例如遮擋或者變化的光線。為解決這個問題,多模態識別(融合視覺和其它感覺模態)的方法已被提出。這類方法大多借助於當前市場上的一些可穿戴傳感器來獲取其它模態的一些信息,來提高識別精度,但是它仍然存在兩個關鍵問題:1)傳統的可穿戴傳感器大多是塊狀的、堅硬的,不能與人體表面形成緊密的接觸,從而影響了人體運動信息採集的精度,尤其是在動態的場景下;2)由於不同模態數據在維度和稀疏度上的嚴重不匹配,造成多模態融合的困難。
鑑於此,新加坡南洋理工大學陳曉東教授團隊和澳大利亞悉尼科技大學路節教授團隊合作,從人腦內部的多模態信息融合的學習機制出發,利用皮膚狀可拉伸應變傳感器獲取人體運動信息,開發了一種新的視覺和體感融合學習方法,實現了高精度的手勢識別。相關成果發表在Nature Electronics,題目為“Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors”,其共同第一作者為南洋理工大學博士後王明和澳大利亞悉尼科技大學閆正。這種新學習方法在定製的視覺-體感數據集上實現了100%的識別精度,並在視覺信息有噪音、曝光不足或曝光過度等非理想環境條件下仍然保持較高識別精度。該體系架構可用手勢來進行機器人導航,結果表明在正常照明下的識別誤差為1.7%,而在黑暗環境下的識別誤差也僅為3.3%。
1、生物啓發的視覺和體感融合的學習架構
受人腦內部的多模態信息融合的學習機制的啓發,該團隊開發了一種新的視覺和體感融合學習方法(圖1)。該方法主要包括三個神經網絡,第一個是卷積神經網絡,用於處理早期的視覺信息;第二個神經網絡用於處理早期的體感信息;第三個稀疏神經網絡用於高效低能耗地融合視覺和體感信息。整體和局部的過程都儘可能地模擬着人腦的多模態信息融合的機制。圖1 生物啓發的視覺和體感的融合學習架構
2、皮膚狀可拉伸應變傳感器
設計並製備了一種透明的、可粘貼的皮膚狀可拉伸應變傳感器來獲取手指的體感信息(圖2)。該可拉伸應變傳感器呈現層狀的堆疊結構,具有良好的透明度,並且可以直接粘貼在皮膚上,保證了在精確採集體感信息的同時使傳感器本身對視覺圖片信息的影響達到最小化。該傳感器同時具有很好的拉伸性以及穩定性。
圖2 皮膚狀可拉伸應變傳感器的結構及性能
3、基於定製化的視覺-體感數據集的手勢識別
為了驗證生物啓發的視覺和體感融合的學習架構,文中構建了一個新的視覺-體感數據集。並用該學習架構進行機器學習訓練與識別。此外,文中還提出了一種基於弗羅貝尼烏斯(Frobenius)條件數的新的剪枝策略,用於獲取稀疏神經網絡來實現更加高效地數據融合。最終,該生物啓發的視覺和體感的融合學習方法在定製化的視覺-體感數據集上實現了100%的識別精度(圖3)。對比於單一模態識別和其它的多種多模態識別方式,該生物啓發的融合學習方法可以得到最好的識別精度,並且當圖片信息帶有噪音、曝光不足或曝光過度等非理想因素時,仍然可以維持較高的精度。這種學習架構可以用手勢來實現機器人導航,即便是在黑暗環境下(10 lux),識別誤差也僅為3.3%。圖3 手勢識別結果和性能對比
鑑於此,新加坡南洋理工大學陳曉東教授團隊和澳大利亞悉尼科技大學路節教授團隊合作,從人腦內部的多模態信息融合的學習機制出發,利用皮膚狀可拉伸應變傳感器獲取人體運動信息,開發了一種新的視覺和體感融合學習方法,實現了高精度的手勢識別。相關成果發表在Nature Electronics,題目為“Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors”,其共同第一作者為南洋理工大學博士後王明和澳大利亞悉尼科技大學閆正。這種新學習方法在定製的視覺-體感數據集上實現了100%的識別精度,並在視覺信息有噪音、曝光不足或曝光過度等非理想環境條件下仍然保持較高識別精度。該體系架構可用手勢來進行機器人導航,結果表明在正常照明下的識別誤差為1.7%,而在黑暗環境下的識別誤差也僅為3.3%。
1、生物啓發的視覺和體感融合的學習架構
受人腦內部的多模態信息融合的學習機制的啓發,該團隊開發了一種新的視覺和體感融合學習方法(圖1)。該方法主要包括三個神經網絡,第一個是卷積神經網絡,用於處理早期的視覺信息;第二個神經網絡用於處理早期的體感信息;第三個稀疏神經網絡用於高效低能耗地融合視覺和體感信息。整體和局部的過程都儘可能地模擬着人腦的多模態信息融合的機制。圖1 生物啓發的視覺和體感的融合學習架構
2、皮膚狀可拉伸應變傳感器
設計並製備了一種透明的、可粘貼的皮膚狀可拉伸應變傳感器來獲取手指的體感信息(圖2)。該可拉伸應變傳感器呈現層狀的堆疊結構,具有良好的透明度,並且可以直接粘貼在皮膚上,保證了在精確採集體感信息的同時使傳感器本身對視覺圖片信息的影響達到最小化。該傳感器同時具有很好的拉伸性以及穩定性。
圖2 皮膚狀可拉伸應變傳感器的結構及性能
3、基於定製化的視覺-體感數據集的手勢識別
為了驗證生物啓發的視覺和體感融合的學習架構,文中構建了一個新的視覺-體感數據集。並用該學習架構進行機器學習訓練與識別。此外,文中還提出了一種基於弗羅貝尼烏斯(Frobenius)條件數的新的剪枝策略,用於獲取稀疏神經網絡來實現更加高效地數據融合。最終,該生物啓發的視覺和體感的融合學習方法在定製化的視覺-體感數據集上實現了100%的識別精度(圖3)。對比於單一模態識別和其它的多種多模態識別方式,該生物啓發的融合學習方法可以得到最好的識別精度,並且當圖片信息帶有噪音、曝光不足或曝光過度等非理想因素時,仍然可以維持較高的精度。這種學習架構可以用手勢來實現機器人導航,即便是在黑暗環境下(10 lux),識別誤差也僅為3.3%。圖3 手勢識別結果和性能對比