Alexa首席科學家：圖靈測試對AI沒啥意義了

近日，亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章（原文鏈接在最後），做出了一項大膽的表態：圖靈測試已經失去了意義，是時候建立一個新的 AI 衡量標準了。

“機器能否思考？”這是加密學和人工智能先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。他在論文中提出了一個思想實驗，叫做“模仿遊戲”(imitation game)，用於檢測計算機是否能表現出與人等價或無法區分的智能。

測試的內容，簡單來説是這樣的：如果一個測試者對無法確認身份的兩個對象（一人、一機器）提出相同的一系列問題，得到的答案讓他無法區分究竟誰是機器，誰是人，那麼則認定機器通過圖靈測試。當然在實際中測試規則更加複雜，比如需要引入更多的測試者等等。

這個思想實驗被後人歸納為圖靈測試，也成為了衡量人工智能的“智能性”的最常用標準。“機器能否思考”這個問題，也橫跨了一整個世紀，指導了後世的計算機和人工智能技術革新。

但為什麼在今天，有人要站出來説圖靈測試已經失去意義？

首先，Prasad 指出，圖靈在他的論文中就曾經預測，到2000年，一個普通人能夠在圖靈測試中正確區分出人和機器的可能性將降到70%甚至更低。然而現在2021年都快要來了，雖然我們經常看到“某 AI 通過了圖靈測試，分數取得新高”之類的報道，圖靈當年的預測並沒有應驗。

（所以也可以説，AI 研究者們讓圖靈老爺子失望了……）

AI 研究者們也有話要説：你們能不能別光看圖靈測試了？那完全沒有意義啊！

圖靈測試無法體現AI進步

Prasad 表示，自己相信圖靈當年提出的這個目標對於像他這樣的 AI 科學家來説，並不是很有意義。AI 派上更大用場的地方是植入到手機、汽車和家裏，人們更關心的是 AI 能夠帶來哪些更新的交互體驗和技術進步，而不是通過測試的分數有多高。

從根本上，強行追求機器和人類無差別的概念，已經過時了。

機器和人有着天生的差別。人能夠隨機應變，舉一反三，都是機器普遍缺乏的能力。但機器也有它的長處，也就是快速計算和信息查詢的能力遠強於人類，而 Prasad 指出正是這些能力構成了現代 AI 的核心。

計算機不如人類的地方，它用自己的長處去彌補，也能夠取得不錯的結果。我們已經看到，在諸如視覺、自然語言處理等領域，最強的算法已經取得遠超人類的結果。

很多 AI 科學家都發現，其實讓 AI 在圖靈測試裏取得更好成績，要做的很簡單，只是讓計算機給出的答案儘量像人的答案就行了。比如在回答時插入停頓，優化語法等等。

正如剛才提到的，計算機的長處就是快速計算和信息查詢。這些毫無難度的問題，計算機不到一秒鐘就已計算出或者查到答案。只是回答的如果慢一點，甚至故意答錯，也許就通過測試了……Prasad 認為，圖靈測試所追求的，並非對 AI 長處的最佳利用。AI 明明可以被用來做更多的事情去幫助人類，為何還要限制自己，去強行追求和人無差別呢？

以及，圖靈測試在這麼多年裏都是基於文本的，而機器學習各領域的技術進步已經讓 AI 在視覺、聽覺、多傳感器融合、決策規劃等諸多方面取得了長足發展。一個最經典的例子就是以 AlphaGo 為代表的，足以在各種高難度博弈項目上擊敗最頂級人類選手的AI。這些重大進展，很難在一成不變的圖靈測試當中得到體現。

新的衡量標準應該如何設計？

有了前面這些鋪墊，Prasad 進一步指出，新的衡量標準應該體現機器在效率上的優勢，比如計算、搜索、代人完成任務等等，綜合評價 AI 對人類智能帶來的幫助，而不是執迷於抹平 AI 和人的區別。

比如亞馬遜舉辦的 Alexa 大獎賽，該獎項考察的是參選者（社交機器人）在一些社會層面熱門話題上和人類進行連貫、有價值對話的能力。一個社交機器人的對話連貫性、自然程度越高，讓人類評委接下來更願意繼續對話，得到的分數就越高。在所有的評判標準中，如果 AI 能夠表現出同理心和幽默，那麼可能會得到加分；但不論如何，AI 都不需要假裝成人類。

另一個例子是機器學習算法平台 Kaggle 的“抽象和推理挑戰”，它考察的是參賽算法解決前所未有的推理任務的能力，也體現了 AI 在知識儲備、學習、決策推理等方面的長處。

當然，每年都會召開的眾多 AI 領域學術會議，特別是這些會議的獎項，也可以幫助人們評價一篇論文的優劣。

Prasad 指出，以 Alexa 為例，作為一個虛擬助手，它正在超越對話式的基礎，朝着環境 AI (ambient AI) 的方向前進。當需要時，AI 可以回答人類的請求，當不需要時，AI 可以消失在背景當中，但仍在主動地工作着，完成一些人類可能意識到或者意識不到的重要任務，比如基於多傳感器融合的安防監控等等。

在眾多科幻電影的烘托下，人們嚮往着更加強大的“通用人工智能”。不過隨着 AI 技術進步和更多被應用到現實生活中，人們一邊對 AI 改善自己生活有了更多的期待，另一邊又對 AI 的使用甚至濫用所造成的道德困境提高了警惕。

正因為此，新的 AI 衡量標準，也應該在道德、公平層面有所顧及。畢竟，如果固化地遵從圖靈測試的標準的話，那麼 DeepFake 可能是全世界最優秀的 AI 了。

Prasad 最後強調，他並不想詆譭圖靈的初衷。但人們需要明白的是，被稱為圖靈測試的“模仿遊戲”，從始至終都是一個思想實驗，而非作為實用性人工智能的終極測試。在今天，圖靈測試已經成為老古董，被過度使用的弊端已經顯現，是時候把它放在一邊了。