清華大學領銜，99 頁報告揭秘人機交互的發展狀況及未來發展趨勢 | 人工智能人機交互報告

2020-06-11由納喇傲兒發佈於科技

第一次使用手機語音助手的時候，它總是會在我興沖沖地問一個問題之後，令人失望地回答一句：“我好像聽不懂你在説什麼……”

後來技術演進，它終於能夠通過我的一些關鍵詞，聽懂我説什麼了。但一板一眼，一字一句，程式化十足。

不可否認，人工智能正在變得越來越“聰明”，也越來越貼近人類，未來它會是什麼樣子呢？

近日，清華由清華大學人工智能研究院、北京智源人工智能研究院和清華-中國工程知識智能聯合研究中心發佈了《人工智能之人機交互》報告（以下簡稱《報告》），《報告》梳理了其概念定義和發展歷程，重點研究了主要技術的發展情況、領域專家現狀和應用領域，並探討了人機交互未來發展趨勢。

如果您想獲得本報告的全文pdf，請在雷鋒網(公眾號：雷鋒網)(公眾號：雷鋒網)(公眾號：雷鋒網(公眾號：雷鋒網))微信（leiphone-sz）回覆關鍵詞“609報告”提取。

文檔來源：清華大學人工智能研究院

人機交互（Human-Computer Interaction, HCI），作為一個術語，首次使用是在由 Stuart K. Card，Allen Newell 和 Thomas P. Moran 撰寫的著作“The Psychology of Human-Computer Interaction”裏，它是一門研究系統與用户之間的交互關係的學問。系統可以是各種各樣的機器，也可以是計算機化的系統和軟件。

人機交互界面通常是指用户可見的部分，用户通過人機交互界面與系統交流，並進行操作。人機交互技術是計算機用户界面設計中的重要內容之一，它與認知學、人機工程學、心理學等學科領域有密切的聯繫。

人機交互技術的發展與國民經濟發展有着直接的聯繫，它是使信息技術融入社會、深入羣體，達到廣泛應用的技術門檻。任何一種新交互技術的誕生，都會帶來其新的應用人羣、新的應用領域，帶來巨大的社會經濟效益。

從企業的角度，改善人機交互能夠提高員工的生產效率，學習人機交互能夠降低產品的後續支持成本。

在個人的角度，可以幫助用户有效地降低錯誤發生的概率，避免由於錯誤引發的損失。

在現代和未來的社會里，只要有人利用通信、計算機等信息處理技術進行社會活動，人機交互都是永恆的主題，鑑於它對科技發展的重要性，人機交互是現代信息技術、人工智能技術研究的熱門方向。

過去的幾十年間，人機界面經歷了從命令行界面到圖形用户界面兩個主要發展階段的演變；近年來，人機界面的發展越來越強調交互的自然性，即用户的交互行為與其生理和認知的習慣相吻合，隨之出現的主要的交互界面形式為觸摸交互界面和三維交互界面。

命令行界面

基於命令行界面（Command-line Interface, CLI），用户使用鍵盤按照一定的規則輸入字符，以形成可供機器識別的命令和參數，並觸發計算機進行執行。

其優點是由於鍵盤輸入相對較高的準確率，以及幾乎不需要冗餘的操作，所以熟練的用户可以達到非常高的交互效率，同時，通過規則的設計，命令行界面也能支持豐富靈活的指令形式。

命令行界面的缺點在於交互非常不直觀，由於機器命令與自然語言的構造規則往往相去甚遠，所以用户需要記憶大量的指令，有時甚至需要具備計算機領域的專業知識和技能，才能達到較高的使用效率。這對於新手用户而言大大提升了學習成本，也顯著影響了普通用户使用命令行界面時的體驗。

圖形用户界面

圖形用户界面一般包括窗口（Window）、圖標（Icon）、菜單（Menu）和指針（Pointer）這四類主要的交互元素。用户通過控制指針來對窗口、圖標和菜單等顯示元素進行指點（Pointing）操作，從而完成交互任務。廣義的圖形用户界面泛指一切用圖形表徵程序命令和數據的界面系統，但在狹義上，圖形用户界面一般指個人電腦（PC）上的二維 WIMP 界面。此時，用户與界面交互的設備一般是鍵盤和鼠標。

圖形用户界面的一大優勢是擺脱了抽象的命令，通過利用人們與物理世界交互的經驗來與計算機交互，從而顯著降低了用户的學習和認知成本。然而，由於圖形用户界面的基本操作是指點，即用户需要使用指針來選擇交互目標，因而其往往對用户指點操作的精度有較高的要求。此外，由於鼠標設備所在的控制域（Motor Space）與界面顯現的顯示域（Visual Space）是分離的，因而用户需要對目標進行間接的交互操作（Indirect Manipulation），從而更加增加了交互的難度。

觸摸交互界面

觸摸交互界面一般包括頁面（Page）、控件（Widget）、圖標（Icon）和手勢（Gesture）這四類主要的交互元素。用户通過觸摸、長按、拖拽等方式直接操控手指接觸的目標，或者通過繪製手勢的方式觸發交互指令。

目前，觸摸界面主要存在於智能手機和可穿戴設備（如智能手錶）等設備上。觸摸交互界面的優勢是充分利用了人們觸摸物理世界中物體的經驗，將間接的交互操作轉化為直接的交互操作（ Direct Manipulation），從而在保留了一部分觸覺反饋的同時，進一步降低了用户的學習和認知成本。

然而，觸摸操作受困於著名的“胖手指問題”，即由於手指本身的柔軟，以及手指點擊時對於屏幕顯示內容的遮擋，在觸屏上點擊時往往難以精確地控制落點的位置，輸入信號的粒度遠遠低於交互元素的響應粒度。同時，由於觸摸交互界面的形態仍然為二維界面，所以這限制了一些與三維交互元素的交互操作。

三維交互界面

用户一般通過身體（如手部或身體關節）做出一些動作（如空中的指點行為，或者肢體的運動軌跡等），以與三維空間中的界面元素進行交互，計算機通過捕捉用户的動作並進行意圖推理，以觸發對應的交互功能。

目前，三維交互界面主要存在於體感交互、虛擬現實、增強現實等交互場景中。

三維交互界面的優勢是進一步突破了二維交互界面的限制，將交互擴展到三維空間中。因此，用户可以按照與物理世界中相同的交互方式，與虛擬的三維物體進行交互，從而進一步提升交互自然度，降低學習成本。

不過，三維交互的挑戰在於由於完全缺乏觸覺反饋，所以用户動作行為中的噪聲相對較大，而且交互動作與身體的自然運動較難區分，因而輸入信號的信噪比相對較低，較難進行交互意圖的準確推理，限制了交互輸入的準確度。

此外，由於相對於圖形用户界面和觸摸交互界面，動作交互的幅度一般較大，所以交互的效率也較低，同時更容易讓用户感到疲勞。

目前，人機交互技術主要發展方向包括以下幾個類別：

觸控交互、聲控交互、動作交互、眼動交互、虛擬現實輸入、多模式交互以及智能交互等。

顯示器從僅向用户輸出可視信息到成為一種交互界面裝置主要是歸因於觸控功能與顯示器的一體化模式，尤其是在移動裝置上的使用。

目前有四種技術方式能實現觸控交互。

電阻式觸控技術

電阻觸摸屏通過壓力感應原理來實現對屏幕進行操作和控制。當手指觸摸屏幕時，薄膜下層的 ITO 會和玻璃上層的 ITO 有一個接觸點，在 X 軸方向就其中一面導電層導通了 5V 均勻電壓場，此時採樣得到的電壓由零變為一個正電壓值，感應器檢測到電壓導通，傳出相應的電信號，進行模/數轉換，最終將轉換後的電壓值與 5V 相比，即可計算出觸摸點的 X 軸座標值。同理可以計算出 Y 軸的座標值，這樣就完成了點選的動作，並呈現在屏幕上。

電容式觸控技術

當手指觸摸電容式觸摸屏時，在工作面接通高頻信號，此時手指與觸摸屏工作面形成一個耦合電容，這相當於導體，因為工作面上有高頻信號，手指觸摸時在觸摸點吸走一個小電流，這個小電流分別從觸摸屏的四個角上的電極流出，流經四個電極的電流與手指到四角的直線距離成比例，控制器通過對四個電流比例的計算，即可得出接觸點座標值。

紅外觸控技術

當手指觸摸屏幕時，紅外光線將被阻斷，依次選通紅外發射管及其對應的紅外接收管，在屏幕上方形成一個紅外線矩陣平面，從而致使紅外接收端的電壓產生變化，紅外接收端的電壓經過 A/D 轉換送達控制端，控制端將據此進行計算得出觸摸位置。

表面聲波觸控技術

表面聲波式觸摸屏主要依靠安裝在強化玻璃邊角上的超聲波換能器來實現觸摸控制的。當手指觸摸顯示屏時，手指阻擋了一部分聲波能量的傳播，此時接收波形將會發生變化，在波形圖上可以看見即某一時刻波形發生衰減，通過這個衰減信號控制器就可以計算出觸摸點位置。

語音識別

語音識別是將音頻數據轉化為文本或其他計算機可以處理的信息的技術。主要由 4 個部分組成：特徵提取、聲學模型、語言模型和解碼器搜索。

語音合成

語音合成就是將一系列的輸入文字信號序列經過適當的韻律處理後，送入合成器，產生出具有儘可能豐富表現力和高自然度的語音輸出，從而使計算機或相關的系統能夠發出像“人”一樣自然流利聲音的技術。

語音合成的發展經歷了機械式語音合成、電子式語音合成和基於計算機的語音合成發展階段。語音合成具體分為規則驅動方和數據驅動方。

目標獲取是人機交互過程中的最基本的交互任務，用户向計算機指明想要交互的目標，其他的交互命令均在此基礎上完成。隨着交互界面的發展，在很多自然交互界面上，如遠距離大屏幕，虛擬現實和增強現實設備等，傳統的交互設備（如鼠標，鍵盤）無法繼續用來完成目標獲取任務。

因此，在這些界面上，研究者探索使用動作交互完成目標獲取任務的可能方式。主要的輸入方式分為直接和間接兩種。

直接的動作選取要求用户通過接觸目標位置的方式對其進行選取，例如在增強現實應用中，用户通過以手部接觸的方式完成虛擬物體的選取。

間接的目標選取方式則需要用户通過身體部分的位置和姿態來控制和移動光標，再借助光標指示目標的位置進行選取。其中，一個廣泛應用的光標控制方法是光線投射。

手勢識別

手勢可定義為人手或者手和手臂相結合所產生的各種姿態和動作，它分為靜態手勢（指姿態，單個手形）和動態手勢（指動作，由一系列姿態組成），前者對應模型空間裏的一個點，後者對應一條軌跡。相應地，可以將手勢識別分為靜態手勢識別和動態手勢識別。

姿勢識別

姿勢識別常用的算法有三類：（1）基於模板匹配的身體姿勢識別方法；（2）基於狀態空間的身體姿勢識別方法；（3）基於語義描述的身體姿勢識別方法。

利用人工智能技術提高眼動計算的精度和效率，對人的感知和認知狀態進行深入理解，構建“人在迴路”的智能人機交互框架，實現用户主導的自動化系統、基於人機共生的 AI 系統。

常用的幾種眼動交互方式主要有一下幾種：

駐留時間觸發

駐留時間觸發是指當注視點的駐留時間達到一定程度後，可以利用視線代替鼠標點擊或鍵盤按鈕等傳統輸入設備，觸發相應的執行操作。駐留時間觸發多用於控制圖形界面或定位鼠標光標等，是一種較為流行的眼動交互方式，它也能夠反映用户有意識的控制意圖，以更好地完成交互。

平滑追隨運動

平滑追隨運動多發生於觀察場景中有緩慢移動的物體或目標，視線會產生平滑追隨的運動狀態。平滑追隨運動是一種連續反饋的狀態，眼睛捕捉運動目標的信號，將目標運動速度、方向、角度等信息反饋給大腦，再控制眼球跟隨目標物體發生相對運動。在此過程中也會存在一些無意識眼跳等其他行為，在沒有運動目標的場景下，一般不會產生該眼動行為，因此平滑追蹤觸發一般不是一種常用的眼動交互方式。

眨眼

使用眨眼行為進行交互時，需要識別有意識的眨眼，例如眨眼頻率超過一定程度，或一次眨眼過程中眼睛閉合的時間超過某個閾值。眨眼觸發較為簡單，但是當人眼處於長時間閉合狀態時，由於眼動追蹤儀無法捕捉瞳孔，可能會導致注視點的丟失，在一定程度上會影響眼控系統精度。

眼勢

眼勢是在眼跳的基礎上提出的，但與眼跳的不同之處在於，眼跳往往是人在觀察場景或對象時發生的一種無意識的視線轉移，其眼跳的起點和終點都未知，依賴於人的視覺注意。而眼勢被定義為一系列有序的視線行程，每一個行程是兩個固定注視點或注視區域的有意的視線移動。因此，眼勢作為一種新的眼動交互方式，可以反映人的有意識觸發意圖。不同路徑的行程可以定義不同的眼勢，不同的眼勢可以映射為不同的交互指令。眼勢可以分為單行程眼勢和多行程眼勢。

文本輸入作為應用中重要的交互技術，為應用提供了重要的交互體驗。目前已經開發了多種適用於虛擬現實的文本輸入技術，現有的 VR 文本輸入技術主要有實體鍵盤技術、虛擬鍵盤技術、新型輸入技術（手部輸入技術、圓形鍵盤輸入技術、立體輸入技術）。

不同形式的輸入組合（例如，語音、手勢、觸摸、凝視等）被稱為多模態交互模式，其目標是向用户提供與計算機進行交互的多種選擇方式，以支持自然的用户選擇。相比於傳統的單一界面，多模態界面可以被定義為多個輸入模態的組合，這些組合可以分為 6 種基本類型：

互補型：當兩個或多個輸入模態聯合發佈一個命令時，它們便會相得益彰。

重複型：當兩個或多個輸入模態同時向某個應用程序發送信息時，它們的輸入模態是冗餘的。通過讓每個模態發出相同的命令，多重的信息可以幫助解決識別錯誤的問題，並加強系統需要執行的操作。

等價型：當用户具有使用多個模態的選擇時，兩個或多個輸入模態是等價的。例如，用户可以通過發出一個語音命令，或從一個虛擬的調色板中選擇對象來創建一個虛擬對象。這兩種模態呈現的是等效的交互，且最終的結果是相同的。

專業型：當某一個模態總是用於一個特定的任務時它就成了專業的模態，因為它是比較合適該任務的，或者説對於該任務來説它是當仁不讓的。

併發型：當兩個或多個以上的輸入模態在同一時間發出不同的命令時，它們是併發的。例如，用户在虛擬環境用手勢來導航，與此同時，使用語音命令在該環境中詢問關於對象的問題。併發型讓用户可以發出命令並執行命令，其體現為在做晚餐的同時也可也以打電話的真實世界的任務。

轉化型：當兩個輸入模態分別從對方獲取到信息時它們就會將信息轉化，並使用此信息來完成一個給定的任務。多模態交互轉化的最佳例子之一是在一鍵通話界面裏，語音模態從一個手勢動作獲得信息，告訴它應激活通話。

信息無障礙（information accessibility）是一個學科交叉的技術和應用領域，旨在用信息技術彌補殘障人士生理和認知能力的不足，讓他們可以順暢地與他人、物理世界和信息設備進行交互。

從研究和應用水平上看，信息無障礙總體還處於比較初步的狀態。

在應用上，針對信息訪問和設備使用，具有基本功能的技術可以被應用，但效果和效率等可用性指標都不高；在現實生活中，針對聽障人士與他人交流、盲人獨立出行等，能支撐的新技術還處於原型和概念階段。

技術趨勢分析描述了技術的出現、變遷和消亡的全過程，可以幫助研究人員理解領域的研究歷史和現狀，快速識別研究的前沿熱點問題。通過技術趨勢分析可以發現當前該領域的熱點研究話題 TOP10 是：Virtual Reality、 Augmented Reality、Social Media、Social Interaction、Interaction Design、Mobile Device、Social Network、Ubiquitous Computing、Mobile Phone、Interaction Technique.

國家趨勢分析顯示當前人機交互領域研究熱度 TOP10 的國家分別是：United States、United Kingdom、Germany、Canada、China、Japan、South Korea、Australia、France、Netherla.

機構趨勢分析顯示當前人機交互領域研究熱度 TOP10 的機構分別是：Carnegie Mellon University、Washington College、University of California、Stanford University、University of Michigan、Massachusetts Institute of Technology、Georgia Institute of Technology、Cornell University、Seoul National University、Yonsei University.

人機交互作為終端產品引領技術，其作用已經為產業界所普遍認識，多種自然交互技術和新型交互終端相繼面世，但圖形用户界面仍是交互的主導模式。計算無所不在，人機交互的研究和開發空間很大，自然高效的交互是發展趨勢，需要綜合地探索自然交互技術的科學原理，建立明確的優化目標，結合智能技術，發展高效可用的自然交互技術。

雷鋒網雷鋒網雷鋒網