楠木軒

Alexa首席科學家:圖靈測試對AI沒啥意義了

由 費玉榮 發佈於 科技

近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章(原文鏈接在最後),做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。

“機器能否思考?”這是加密學和人工智能先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。他在論文中提出了一個思想實驗,叫做“模仿遊戲”(imitation game),用於檢測計算機是否能表現出與人等價或無法區分的智能。

測試的內容,簡單來説是這樣的:如果一個測試者對無法確認身份的兩個對象(一人、一機器)提出相同的一系列問題,得到的答案讓他無法區分究竟誰是機器,誰是人,那麼則認定機器通過圖靈測試。當然在實際中測試規則更加複雜,比如需要引入更多的測試者等等。

這個思想實驗被後人歸納為圖靈測試,也成為了衡量人工智能的“智能性”的最常用標準。“機器能否思考”這個問題,也橫跨了一整個世紀,指導了後世的計算機和人工智能技術革新。

但為什麼在今天,有人要站出來説圖靈測試已經失去意義?

首先,Prasad 指出,圖靈在他的論文中就曾經預測,到2000年,一個普通人能夠在圖靈測試中正確區分出人和機器的可能性將降到70%甚至更低。然而現在2021年都快要來了,雖然我們經常看到“某 AI 通過了圖靈測試,分數取得新高”之類的報道,圖靈當年的預測並沒有應驗。

(所以也可以説,AI 研究者們讓圖靈老爺子失望了……)

AI 研究者們也有話要説:你們能不能別光看圖靈測試了?那完全沒有意義啊!

圖靈測試無法體現AI進步

Prasad 表示,自己相信圖靈當年提出的這個目標對於像他這樣的 AI 科學家來説,並不是很有意義。AI 派上更大用場的地方是植入到手機、汽車和家裏,人們更關心的是 AI 能夠帶來哪些更新的交互體驗和技術進步,而不是通過測試的分數有多高。

從根本上,強行追求機器和人類無差別的概念,已經過時了。

機器和人有着天生的差別。人能夠隨機應變,舉一反三,都是機器普遍缺乏的能力。但機器也有它的長處,也就是快速計算和信息查詢的能力遠強於人類,而 Prasad 指出正是這些能力構成了現代 AI 的核心。

計算機不如人類的地方,它用自己的長處去彌補,也能夠取得不錯的結果。我們已經看到,在諸如視覺、自然語言處理等領域,最強的算法已經取得遠超人類的結果。

很多 AI 科學家都發現,其實讓 AI 在圖靈測試裏取得更好成績,要做的很簡單,只是讓計算機給出的答案儘量像人的答案就行了。比如在回答時插入停頓,優化語法等等。

正如剛才提到的,計算機的長處就是快速計算和信息查詢。這些毫無難度的問題,計算機不到一秒鐘就已計算出或者查到答案。只是回答的如果慢一點,甚至故意答錯,也許就通過測試了……Prasad 認為,圖靈測試所追求的,並非對 AI 長處的最佳利用。AI 明明可以被用來做更多的事情去幫助人類,為何還要限制自己,去強行追求和人無差別呢?

以及,圖靈測試在這麼多年裏都是基於文本的,而機器學習各領域的技術進步已經讓 AI 在視覺、聽覺、多傳感器融合、決策規劃等諸多方面取得了長足發展。一個最經典的例子就是以 AlphaGo 為代表的,足以在各種高難度博弈項目上擊敗最頂級人類選手的AI。這些重大進展,很難在一成不變的圖靈測試當中得到體現。

新的衡量標準應該如何設計?

有了前面這些鋪墊,Prasad 進一步指出,新的衡量標準應該體現機器在效率上的優勢,比如計算、搜索、代人完成任務等等,綜合評價 AI 對人類智能帶來的幫助,而不是執迷於抹平 AI 和人的區別。

比如亞馬遜舉辦的 Alexa 大獎賽,該獎項考察的是參選者(社交機器人)在一些社會層面熱門話題上和人類進行連貫、有價值對話的能力。一個社交機器人的對話連貫性、自然程度越高,讓人類評委接下來更願意繼續對話,得到的分數就越高。在所有的評判標準中,如果 AI 能夠表現出同理心和幽默,那麼可能會得到加分;但不論如何,AI 都不需要假裝成人類。

另一個例子是機器學習算法平台 Kaggle 的“抽象和推理挑戰”,它考察的是參賽算法解決前所未有的推理任務的能力,也體現了 AI 在知識儲備、學習、決策推理等方面的長處。

當然,每年都會召開的眾多 AI 領域學術會議,特別是這些會議的獎項,也可以幫助人們評價一篇論文的優劣。

Prasad 指出,以 Alexa 為例,作為一個虛擬助手,它正在超越對話式的基礎,朝着環境 AI (ambient AI) 的方向前進。當需要時,AI 可以回答人類的請求,當不需要時,AI 可以消失在背景當中,但仍在主動地工作着,完成一些人類可能意識到或者意識不到的重要任務,比如基於多傳感器融合的安防監控等等。

在眾多科幻電影的烘托下,人們嚮往着更加強大的“通用人工智能”。不過隨着 AI 技術進步和更多被應用到現實生活中,人們一邊對 AI 改善自己生活有了更多的期待,另一邊又對 AI 的使用甚至濫用所造成的道德困境提高了警惕。

正因為此,新的 AI 衡量標準,也應該在道德、公平層面有所顧及。畢竟,如果固化地遵從圖靈測試的標準的話,那麼 DeepFake 可能是全世界最優秀的 AI 了。

Prasad 最後強調,他並不想詆譭圖靈的初衷。但人們需要明白的是,被稱為圖靈測試的“模仿遊戲”,從始至終都是一個思想實驗,而非作為實用性人工智能的終極測試。在今天,圖靈測試已經成為老古董,被過度使用的弊端已經顯現,是時候把它放在一邊了。