智東西(公眾號:zhidxcom)
編 | 子佩
智東西10月23日訊息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語資料而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型效能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
傳統機器翻譯演算法透過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語資料作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。
為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯資料集,再透過Fairscale等擴充套件技術建立具有150億個引數的通用翻譯模型,使M2M-100可以從大量語言資料庫中學習,並反映出更加多樣化的語言文字和詞法。
論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation
專案地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100
一、多種技術融合,反向尋找海量資料多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量資料來訓練。由於小語種本身缺少可直接使用的大量資料,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的資料量會隨語言對數量呈二次增長。
為此,Facebook在XLM-R,一種可以從單語資料中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的資料。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式原始碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的“十億規模” bitext資料集CCMatrix以及跨語言Web文件對的集合CCAligned。
除此之外,Facebook還使用反向翻譯(back-translation)來補充資料較少的語料資料:如果目標是訓練一箇中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語資料譯成中文。在 M2M-100的開發過程中,反向翻譯得到的資料會被新增到挖掘的並行資料中。
在得到的資料中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準資料的語言,以便更輕鬆地量化模型的效能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的資料集。
“多年來,人工智慧研究人員一直在努力構建一個單一的、跨語言的通用模型。”Facebook的資料科學家Angela Fan在部落格中寫道,“支援所有語言、方言的統一模型將幫助我們更好地為更多的人服務,併為數十億人創造新的翻譯體驗。”
二、“橋接策略”構建語群,節約算力最大化但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了“橋接策略”,即根據分類、地理和文化相似性將語言分為14個族。
因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。
為了滿足14個語群之間可能存在的互譯需求,Facebook研究人員還確定了少數“過渡語言”,即每個語族中一到三種主要語言會作為橋樑轉化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋樑語言。
研究人員會為橋樑語言的所有可能組合挖掘訓練資料,從而獲得上述資料集中的75億個句子。
三、154億引數,只為模型容量最最佳化在解決了如何獲取資料和如何有效利用資料後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字資訊,這時候就需要擴充套件模型的容量及新增特定語言引數用以處理更多語言資料。
M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網路中的層數以及每層的寬度。基於Zero最佳化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定引數集來共同訓練模型。
多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴充套件到10億引數還不能滿足處理大量資料的需要,最後當將模型規模密集擴充套件到12億個引數時,才能得到所有語言方向上1.2BLEU的平均提升。
最後當模型引數達154億時,M2M-100可以針對最多的資料訓練額外的模型容量。 “透過將模型容量的密集縮放與特定語言引數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。”Fan說到。
結語:母語者質量評估,消除“偏見”在路上縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。
在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。
除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習演算法能防止偏見的產生,且這個問題在資料量少的小語種模型中更加明顯。
Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加“公平公正”,但這個過程仍需要時間。
來源:VentureBeat、Facebook