AI閱卷“翻車” 其實是“翻”在了自然語言處理

本文轉自【科技日報】；

開學季，美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑，學生們只要藉助系統漏洞，輸入相應關鍵詞，即使關鍵詞之間並無關聯，也能輕易獲得高分。

隨著人工智慧的發展，不少教育App都應用了智慧評分系統，評分系統閱卷迅速，及時出分，受到不少師生的歡迎。但同時，也有不少家長吐槽智慧評分系統，像英語跟讀App的評分系統，有時候即使擁有英語專業八級水平的人，測試得分也只有80分。

除了應用於英語口語的智慧評分系統，人工智慧還被應用於判捲上。不過這種智慧閱卷系統也時有“翻車”現象。據報道，在開學季，一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑，學生們藉助它的漏洞，“裸考”就能輕鬆及格。之所以被學生們鑽了空子，是由於該系統只是透過關鍵詞進行評分，學生們只要輸入相應關鍵詞，即使幾個關鍵詞之間沒有關係，也能順利過關甚至獲得高分。

閱卷前需先設定評判標準

“自動測評打分系統一般需要先設定評測的標準，而後根據設定的標準去設計合適的評測演算法與模型。”天津大學智慧與計算學部教授、博士生導師熊德意介紹，比如像口語測評打分，就需要機器去評判人的發音是否標準，所讀句子的重音是否正確，讀出的語句是否連貫流暢，連讀部分是否準確等。

AI閱卷系統則涉及到對語言文字的評判，涵蓋很多方面，如語法、語義等，會大量運用到自然語言處理技術。

“自然語言處理技術是人工智慧的一個重要分支，研究利用計算機對自然語言進行智慧化處理，基礎的自然語言處理技術主要圍繞語言的不同層級展開，包括音位（語言的發音模式）、形態（字、字母如何構成單詞、單詞的形態變化）、詞彙（單詞之間的關係）、句法（單詞如何形成句子）、語義（語言表述對應的意思）、語用（不同語境中的語義解釋）、篇章（句子如何組合成段落）7個層級。”熊德意強調，這些基本的自然語言處理技術經常被運用到下游的多種自然語言處理任務（如機器翻譯、對話、問答、文件摘要等）中，自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

設計自動評測指標的方法有多種，通常會根據不同的評判型別去選擇適合的方法。“比如閱卷系統若要進行翻譯題的自動評判，可以讓老師事先寫好多個參考譯文答案，然後把學生的答案和參考答案進行類比，計算它們的相似度作為學生答案好壞的評測指標。”熊德意舉例說，機器翻譯常用的評測指標BLEU，就是基於參考譯文和機器譯文之間的N-grams（N元）匹配度計算相似度的。

一個單詞是一元，兩個相連的單詞是二元，還有三元、四元，如果答案中有一個單詞與參考答案中的單詞一致，那麼就會給出一個一元評分，類似的可以計算二元、三元、四元的評分。研究人員為不同元設定不同權重，然後把得分統籌起來變成一個客觀值，得分越高就說明兩者之間的相似性越高。

不同AI評分系統結果相差甚遠

此次AI閱卷系統“翻車”的導火索是一位美國曆史系教授的兒子在進行歷史考試的時候只得到了50%的分數，而她對兒子的答案進行評測後，覺得孩子的回答基本沒有問題。

同樣的答案，人工評價和機器評價為何有如此大的出入？

“這就是基於AI演算法的自動評測面臨的最大挑戰：如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準，主觀題進行自動評測必須要有合適的評測標準和規範；比如如何應對語言的千變萬化，語言的多樣性是自然語言處理技術的主要挑戰之一，語言的自動測評和自動處理都要面對多樣性的挑戰；比如如何設計一個綜合性的評測指標，雖然目前有各種各樣的指標，但是很少有指標綜合考慮語言文字的方方面面，例如作文自動閱卷，可能要考慮用詞是否合理（詞彙）、句子是否流暢（句法）、段落組織是否有條理（篇章）、內容是否扣題（語義、語用）等。”熊德意說，上面提到的BLEU就是隻考慮了單詞形式的嚴格匹配，沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

“遵循的評測規則、評判的出發點不同，相應的演算法模型都不一樣，因此最後的結果也會相差甚遠。”熊德意說。

因此僅僅利用一種評測方法顯然是不全面的，這也就解釋了當孩子的母親嘗試在答案里加入“財富、商隊、中國、印度”等題目中的關鍵詞時，即使這些關鍵詞之間沒有任何串聯，她也得了滿分。“可能這個AI閱卷系統只使用了簡單的關鍵詞匹配，因此會出現‘關鍵詞沙拉’也能矇混過關的情況。”熊德意解釋。

此外，口語的人工測評與機器測評也存在較大出入。“近年來，語音識別效能雖然在深度學習技術的推動下取得了顯著的提升，但是在開放環境、噪音環境下，這種識別率就會下降很多。”熊德意解釋，如果機器“聽”錯了一個單詞，而後機器進行測評，就會形成一個錯誤傳播，也就是上游系統的錯誤會導致下一系統錯誤，錯上加錯，越錯越離譜，測評結果也會大相徑庭。

“目前有很多設計評測指標的方法，還有很多改進的方法，如在計算準確率的同時也計算召回率等。另外，還有對評測指標進行評測的，即評測的評測，看看哪個評測指標更完善，更和人的評價一致。”熊德意感嘆，很多時候，自動評測的難度和對應的自然語言處理任務的難度，從技術層面來說是一樣的，比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似，用機器評判一個文件摘要的好壞與用機器生成一個摘要的難度也差不多。

可結合人工評測讓系統更智慧

“傳統的自動評測指標通常是基於符號進行計算的，現在深度學習等AI技術也越來越多地應用於測評工具中。”熊德意介紹，使用深度學習，可以把語言符號對映到實數稠密向量的語義空間，利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣，但只要語義是一致的，機器就可以進行精準的評價。因此，基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題，就是需要大量的資料讓機器進行學習。

基於自監督學習的預訓練語言模型，近幾年，在語言表示學習中，取得了突破性的進展。“OpenAI的預訓練語言模型GPT-3，在5000億單詞的海量語料上訓練了一個帶有1750億個引數的神經網路，透過大量學習網路上各種語言的文字，GPT-3形成了強大的語言表示能力，可以進行多種任務，比如自動翻譯、故事生成、常識推理、問答等，甚至可以進行加減法運算，比如其兩位數加減法正確率達到100%，五位數加減法正確率接近10%。”熊德意介紹，不過，這麼龐大的神經網路，如果用單精度浮點數儲存，需要700G的儲存空間，另外模型訓練一次就花費了460萬美元。因此，即使GPT-3具有較好的零樣本、小樣本學習能力，其高昂的成本使其離普遍可用還有很遠的距離。

但是AI作為閱卷評測“老師”，其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快，老師不可能一次記住所有的多項選擇題答案，需要不斷檢查標準答案，這是很費時的，自動批閱系統幫助老師大大提高了效率；另外，自動批閱系統更加理性，不受外界條件干擾，不會因疲勞等原因導致誤判。即使在複雜的干擾環境中，仍然可以得到正確的結果；AI閱卷系統還可以在評分後直接做好學情分析，統計出考試資料、錯題資料等教學材料，幫助老師減負增效，幫助學生提高學習效率。

“將主觀題合理地客觀化，可以降低自動閱卷的難度。”熊德意表示，對無法客觀化的主觀題，雖然設定全面的評測標準比較難，但是設定某一方面的評測標準還是可行的，比如針對單詞詞法、句子語法的評判，目前準確率還是挺高的，這類技術可以從實驗室走向產品應用。

也可以引入人工評測，對AI閱卷系統打分進行復核與修正，透過這種反覆的修正，累積大量的評測訓練資料，讓機器評分變得更加智慧。

“利用自然語言處理等人工智慧技術，進一步完善主觀智慧評分系統，將是未來教育領域的一個非常重要的課題。”熊德意說，以後的AI自動批閱系統肯定會越來越“聰明”，人工智慧與教育的結合也會越來越緊密。