AI 與人文共舞!DeepMind 用神經網絡修復古希臘銘文,登頂Nature最新封面
作者 | 西西
今天,人工智能領軍團 DeepMind 又爆出了一項重要成果:用深度神經網絡修復古希臘受損的石碑銘文,號稱「Predicting the Past」(預測過去),在以Nature為首的科學媒介上掀起了一番熱烈關注。
他們以古希臘的島嶼名為該模型命名——「Ithaca」(伊薩卡島),以表對古希臘文明的神往。在荷馬史詩《奧德賽》中,伊薩卡島是英雄奧德修斯(Odysseus)的故鄉。傳聞,公元前1183年,國王奧德修斯在特洛伊戰役中取得勝利後,歷經十七年的艱險鬥爭,戰勝無數困難,最終回到伊薩卡島,與妻兒幸福團聚。
「伊薩卡」也從此成為古希臘文明中「家」的象徵。這可能也是 DeepMind 迄今為止被賦予了最浪漫名義的 AI 模型。
在官方推特中,他們也稱,希望能夠「幫助歷史學家,更好地理解古代歷史」,馬上就收穫了過千的點贊:
作為「AI for Science」的著名代表,顯然,DeepMind 祭出的深度神經網絡 Ithaca 打破了外界對它的「純理工科」誤解。在官方博客中,DeepMind 也解釋,這次的成果符合他們「實現智能、促進科學與人文發展」的使命。
Ithaca 是 DeepMind 在「AI for Humanity」(用人工智能研究人文社科)的第一個里程碑。那麼,這是否意味着:DeepMind 的野心不僅是「AI for Science」,還有「AI for Humanity」?
科學與人文從來便是人類文明的兩大黃金分支。歷史的前進,從來離不開這兩個車輪。往後回看,Ithaca 的出現,或許正是 AI 進軍人文社科的起點。
3月9日,Nature最新封面發佈,Ithaca登頂。古老的土黃銘文與酷炫的深藍編碼交織,完美寫就了 DeepMind與威尼斯 Ca' Foscari 大學人文系、牛津大學經典學院和雅典經濟大學信息系學者的研究成果:
用神經網絡修復、破解幾千年前的古希臘銘文,不僅有歷史的滾滾黃塵,還有最新的時代印記——人工智能。
相關論文也以“Restoring and attributing ancient texts using deep neural networks”為題發表在了 Nature 上(如下圖):
一個字:秀!?
文字是文明的載體。從兩千多年前開始,古希臘人便在石頭、陶器和金屬上書寫文字,以記錄租約、法律、日曆、神諭等社會生活的內容。但由於年代久遠,許多銘文經過風雨摧殘,已被損壞,並從原來的位置移走。
在文物修復一塊,現代的測年技術(如放射性碳測年)並不能用於研究刻在石頭、陶瓷和金屬等材料上的銘文,使得這些銘文難以解讀或解讀十分耗時。因此,DeepMind 的團隊開始思考:是否可以用人工智能幫助歷史學家解釋銘文?
於是,他們與歷史學家們合作,推出了 Ithaca——據稱,這是第一個可以恢復受損銘文的缺失文本,識別銘文在載體上的初始位置、以確定書寫年限的深度神經網絡。
Ithaca 的架構如下:文本的損壞部分用破折號“-”表示;此外,DeepMind 研究團隊還人為地破解了字符“δημ”。提供輸入後,Ithaca 會自動恢復文本,並識別文本的編寫時間和地點。
據介紹,Ithaca 在帕卡德人文學院(Packard Humanities Institute)最大的希臘銘文數字數據集上進行訓練。
通常來説,自然語言處理模型是使用單詞進行訓練,因為它們在句子中出現的順序以及單詞之間的關係提供了額外的上下文背景和含義。但由於許多銘文都處於損壞狀態,並且經常有大塊的文字丟失。因此,為了確保模型適用於文字損失狀態,他們使用了單詞和單個字符作為輸入來訓練。模型核心的稀疏自注意力機制會並行評估這兩個輸入,以更好地評估銘文。
圖注:Ithaca 的輸出。(a) 雅典銘文 (IG II² 116) 中 6 個缺失字符(用「-」表示)的恢復預測。綠色的頂部修復是正確的(συμμαχία,「聯盟」的意思)。注意紅色部分的假設(ἐκκλησία,「集會」和 προξενία,「國家與外國人之間的條約」)常出現在雅典的政治法令中,這也揭示了 Ithaca 對上下文的接受度。(b) Amorgos 銘文的地理歸屬 (IG XII 7, 2)。Ithaca 的頂部預測是正確的,最接近的預測是相鄰區域。(c) Delos 銘文的日期分佈 (IG XI 4, 579)。灰色部分是真實日期公元前300-250年,而 Ithaca 的預測分佈為黃色,平均值為公元前 273 年(綠色),準確率極高。
為了最大限度地發揮 Ithaca 的價值,DeepMind 團隊還創建了許多視覺輔助工具,以確保 Ithaca 的研究結果容易被歷史學家解讀:
恢復假設:Ithaca 為文本恢復任務生成了幾個預測假設,供歷史學家使用他們的專業知識進行選擇。
地理歸因:Ithaca 通過為歷史學家提供所有可能預測的概率分佈(而不僅僅是單個輸出)來顯示其不確定性。它會返回代表其確定性水平的 84 個不同古代區域的概率。它在地圖上將這些結果可視化,以闡明古代世界可能存在的潛在地理聯繫。
年代歸屬:在對文本進行年測時,Ithaca 會生成從公元前 800 年到公元 800 年所有十年的預測日期分佈。這可以使歷史學家對特定日期範圍的置信度可視化,可能會提供有價值的歷史見解。
顯着性映射:為了將結果傳達給歷史學家,Ithaca 使用計算機視覺中常用的一種技術來識別哪些輸入序列對預測的貢獻最大。輸出以不同顏色強度突出顯示導致 Ithaca 預測缺失文本、位置和日期的單詞。
圖注:這段文字(IG II² 116,Athens 361/0 BCE)記錄了雅典人和色薩利人的聯盟。通過使用顯着映射,他們可以在恢復損壞的單詞「alliance」時將 Ithaca 「關注」上下文重要的詞「Athenians」和「Thessalians」可視化。
據 DeepMind 介紹,經評估表明:Ithaca 在恢復受損文本方面的準確率達到了 62%,在識別其原始位置方面的準確率達到 71%,並且可以將文本的日期確定在其真實日期範圍的 30 年內。
DeepMind 還説:與他們合作的歷史專家在單獨修復古代文本時準確率只有 25%,但當他們與 Ithaca 合作修復時時,準確率提高到了 72%,超過了模型的個人性能,體現出了人機協作在歷史解釋、建立歷史事件的相對年代上的優勢。
通過 Ithaca,歷史學家們重新評估了希臘歷史上的多個重要時期。用一個誇張點的説法是:Ithaca 「改變」了歷史;四捨五入,人工智能「改變」了歷史。
圖注:歷史學家們用 Ithaca 修復了記錄雅典衞城法令的銘文 (IG I3 4B) ,日期為公元前 485/4 年
目前,Ithaca已開源,供歷史學家們按需使用。
DeepMind 認為,Ithaca 的出現有助於歷史學家對歷史事實的辯論。
目前歷史學家們在蘇格拉底等人物生活的時代制定的一系列重要的雅典法令的日期上有爭議。長期以來,人們一直認為這些法令是在公元前 446/445 年之前制定的,但新的證據表明其日期是公元前 420 年代。雖然這些差異看起來很小,但對人類理解古典雅典的政治史至關重要。
圖注:Ithaca 的預測與帕卡德人文學院(PHI)數據集的基本事實與最近的歷史重新評估相比。PHI 標籤平均距離重新評估的日期是 27 年,而 Ithaca 的預測平均距離新提出的日期是 5 年,準確率更高。
不過,也有網友指出:Ithaca 的性能指標似乎單單聚焦在「準確率」上,並不足以測出有説服力的年份。
事實上,「AI for Humanity」也並不是一個新鮮的話題。中國人民大學的高瓴人工智能研究院自成立之初,就將「用人工智能促進人文學科研究」作為主要的方向之一,此前 AI 科技評論就報道過《人大:和清、北做不一樣的 AI》。
對於 DeepMind 來説,AI 進軍人文社科是第一次,但此前已有許多學者用神經網絡進行文字修復。此次登 Nature 封面,究竟是工作夠強,還是 DeepMind 的 IP 號召力夠大,仍有待商榷。
不過,不可否認,用 AI 幫助人文學科研究,總歸利大於弊!值得喝彩!
參考鏈接:1.https://deepmind.com/blog/article/Predicting-the-past-with-Ithaca
2.https://www.nature.com/articles/s41586-022-04448-z
3.https://github.com/deepmind/ithaca
雷峯網雷峯網