智東西(公眾號:zhidxcom)
編 | 子佩
智東西10月23日消息,Facebook近期開源其M2M-100源代碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。
為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯數據集,再通過Fairscale等擴展技術建立具有150億個參數的通用翻譯模型,使M2M-100可以從大量語言數據庫中學習,並反映出更加多樣化的語言文字和詞法。
論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation
項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100
一、多種技術融合,反向尋找海量數據多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數據來訓練。由於小語種本身缺少可直接使用的大量數據,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數據量會隨語言對數量呈二次增長。
為此,Facebook在XLM-R,一種可以從單語數據中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的數據。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式源代碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的“十億規模” bitext數據集CCMatrix以及跨語言Web文檔對的集合CCAligned。
除此之外,Facebook還使用反向翻譯(back-translation)來補充數據較少的語料數據:如果目標是訓練一箇中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數據譯成中文。在 M2M-100的開發過程中,反向翻譯得到的數據會被添加到挖掘的並行數據中。
在得到的數據中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數據的語言,以便更輕鬆地量化模型的性能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的數據集。
“多年來,人工智能研究人員一直在努力構建一個單一的、跨語言的通用模型。”Facebook的數據科學家Angela Fan在博客中寫道,“支持所有語言、方言的統一模型將幫助我們更好地為更多的人服務,併為數十億人創造新的翻譯體驗。”
二、“橋接策略”構建語羣,節約算力最大化但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了“橋接策略”,即根據分類、地理和文化相似性將語言分為14個族。
因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。
為了滿足14個語羣之間可能存在的互譯需求,Facebook研究人員還確定了少數“過渡語言”,即每個語族中一到三種主要語言會作為橋樑轉化不同語羣語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語羣中的橋樑語言。
研究人員會為橋樑語言的所有可能組合挖掘訓練數據,從而獲得上述數據集中的75億個句子。
三、154億參數,只為模型容量最優化在解決了如何獲取數據和如何有效利用數據後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數用以處理更多語言數據。
M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網絡中的層數以及每層的寬度。基於Zero優化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定參數集來共同訓練模型。
多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴展到10億參數還不能滿足處理大量數據的需要,最後當將模型規模密集擴展到12億個參數時,才能得到所有語言方向上1.2BLEU的平均提升。
最後當模型參數達154億時,M2M-100可以針對最多的數據訓練額外的模型容量。 “通過將模型容量的密集縮放與特定語言參數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。”Fan説到。
結語:母語者質量評估,消除“偏見”在路上縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。
在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。
除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習算法能防止偏見的產生,且這個問題在數據量少的小語種模型中更加明顯。
Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加“公平公正”,但這個過程仍需要時間。
來源:VentureBeat、Facebook