處於嬰兒時期的服務機器人 亟須掌握正確學習方法
本文轉自【科技日報】;
“服務機器人是人工智能的一個載體,針對不同的場景,比如工業場景、養老場景、特種場景等,具有不同的功能。”在近日舉辦的第二十二屆中國科協年會機器人與人工智能產業發展論壇上,澳門科技大學教授、澳門人工智能與機器人學會理事長韓子天表示。
“在我讀書的時候,一個機器人的售價約是60萬元到80萬元,10年以前30萬元,現在變成了15萬元,國內的售價多少呢?大概在8萬元左右。”北京航空航天大學機器人研究所名譽所長王田苗表示,機器人的普及腳步已經越來越快。
據億歐《2020中國服務機器人產業發展研究報告》,人工智能技術的突破、核心零部件成本的下降,加速了服務機器人在各領域的滲透。近五年,中國服務機器人行業增速高於全球平均增速,市場規模佔全球比例超25%,同時在產業鏈、產業環境等方面都具備全球競爭優勢,在疫情催化之下以及數年的持續高速增長基礎上,中國服務機器人產業未來仍將迅速擴張且潛力巨大。
但專家們也普遍表示,目前的服務機器人在智能化水平、尤其是自主交互方面還相當於嬰幼兒,這既是機器人產業化的障礙,也是未來應該主要發力的地方。
交互性差限制服務機器人發展
王田苗例舉了未來人工智能機器人可能應用前景廣闊的幾個方向:如企業服務領域中的機器人代理;醫療健康領域中養老、手術機器人,智能假肢等;智慧城市領域中的安防、消防、環保,以及物流、無人駕駛、金融科技等。“大量應用人工智能的機器人將支撐高效豐富的物質生產活動和生產要素的重構。在這種背景下,我們再來討論人工智能和機器人未來發展的格局是什麼。”王田苗説。
“機器人最大的優點是可以做一些重複性、危險性或者人類厭惡的工作,比如安防工作,人不願意在晚上巡邏或者值班,這些崗位就可以由服務機器人去替代。所以不能説服務機器人是完全來跟人類競爭的,服務機器人更多的是對人類工作的補強、增強。”韓子天説。
但在王田苗看來,目前適合服務機器人的工作,環境還是比較固定的,作業流程標準化,工作比較繁重、單調、枯燥;而在幼兒教育和護理、老人的護理等方面,服務機器人還“愛莫能助”。在荷蘭代爾夫特理工大學副教授詹斯·科伯(Jens Kober)看來,機器人利用人工智能能做的事情,主要與認知和高級推理有關,但是目前機器人還不具備這些能力,此外,在實際的運動方面和與環境的交互方面還需要進一步發展。
韓子天同樣表示,機器人目前並沒有思想,也沒有自主意識。雖然它可以進行視覺感知、語音感知等,但是歸根結底,目前的機器人沒有自主思想,也沒有辦法進行很好的自主決策,沒有思想和知識體系,不能和人類很好地交互。
嬰兒期服務機器人更依賴場景
“服務機器人就像剛出生的嬰兒。在很多新的技術比如視覺技術、語言技術發展比較成熟的時候,才會有比較好的服務機器人出現。”韓子天説,而通用型服務機器人目前是很難實現的。
“所以,服務機器人的發展,到目前為止,更依賴場景。這和工業機器人很像,工業機器人在生產流程定義清楚的情況下才能用,服務機器人也是一樣,也要把它的服務場景定義清楚,做一個工作規劃,服務機器人才能投入到工作的場景裏面去使用。”韓子天説。他強調,這就是服務機器人的場景依賴。人把場景定義清楚,把機器人的行為定義清楚,才能做出比較有用的服務機器人。
曠視科技副總裁王銀學舉了個AI堆垛機的例子,在立體倉庫裏,貨碼得再整齊,也不可避免會掉下來,這往往會導致貨被壓碎。而在堆垛機上裝一個攝像頭後,不僅僅能觀察貨物掉落情況,AI系統還可以通過運行軌跡反算出是從什麼地方掉下來的,並預判掉落情況。此外,堆垛機上不僅裝了攝像頭,還裝了遠紅外探測設備,隨時巡邏,如果局部温升超過一定程度就會報警,預防火災發生。此類固定場景、固定模式的人工智能機器應用,效果立竿見影。
“機器人跟智能設備重要的區別在於機器人有行為,我們甚至希望它以後有自主行為。”韓子天表示,我們所説的場景依賴,比如養老場景、車載場景、醫療場景、安防場景等,這些場景就相當於機器人服務的邊界,重要的是它在這個服務邊界裏面有什麼行為。
強化學習可提升機器人智能水平
“過往的很多設計裏面,機器人都是很被動的,用語音問詢機器人一些情況,或者與機器人一些特定場景的問答,機器人的回答流程標準化。現在機器人社交方面的功能越來越多,在一些場景比如服務於養老院,或者與兒童交互,主動交互成為新熱點。”詹斯·科伯介紹説,所謂主動交互,是希望機器人該講話就講話,該不講話就不講話,做一個懂你的機器人,主動交互的設計因此成為一個非常重要的內容。
“機器人是擬人化的設備,它的社交性非常重要,機器人跟機器人之間是不需要語音的,但是跟人的交互是需要語音交流的,語音的交互或者説行為的主動交互,它的邊界在哪裏,它的適度在哪裏,都是近幾年業界比較關注的。”詹斯·科伯表示。
而難點也在於此。“是什麼導致機器人很難完成複雜任務?很大一部分原因在於複雜的動力學,即機器人如何與周圍的環境交互。與物體、環境和任務交互中會出現很多不確定性和變化,如果機器人要與人類交互,情況可能會更復雜。”詹斯·科伯説。
那麼機器人是怎麼學會一項新技能的呢?詹斯·科伯表示,通常來説,機器人學習新事物有兩種不同但互補的方式。第一種是模仿學習,即老師示範一項技巧,然後學生試着模仿,這種方式適用於簡單的學習,但對於更復雜的任務,機器人更需要強化學習,強化學習是一種以“試錯”的方式進行的學習方法,其目標是讓人工智能在特定環境中能夠採取回報最大化的行為。如果機器在學習的過程中做對了就會得到相應獎勵,錯了則無獎勵,這種學習方法可以讓機器在和環境的互動中明白什麼是對的行為,什麼是錯的行為,而不是通過大數據讓機器“死記硬背”。詹斯·科伯強調,強化學習能讓機器加快學習過程,從而能完成更復雜的任務,對人類來説,通過這種方式進行教學也相當直觀。這也是未來機器人加強學習和交互能力的可行路徑。