思必馳榮獲IWSLT 2022英中同聲傳譯冠軍

【獵雲網北京】6月10日報道

在2022年國際口語機器翻譯評測比賽（簡稱IWSLT）中，思必馳-上海交大聯合團隊(AISP-SJTU)憑藉卓越的技術優勢，獲得“英-中同聲傳譯”（Speech-to-Text）賽道冠軍。

2022年第十九屆國際口語機器翻譯大會（International Conference on Spoken Language Translation ，簡稱 IWSLT）在愛爾蘭都柏林落幕。IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一，今年設置了同聲傳譯、離線語音翻譯等7個任務。思必馳-上海交大聯合團隊(AISP-SJTU)本次參加英-中同聲傳譯任務，以優異的成績獲得Speech-to-Text賽道第一名。

論文標題：The AISP-SJTU Simultaneous Translation System for IWSLT 2022

論文鏈接：https://aclanthology.org/2022.iwslt-1.16.pdf

任務和背景

同聲傳譯是僅在部分語音或文本輸入的情況下，逐步生成翻譯結果的任務。同聲傳譯包含兩個子任務：

1）Text-to-Text，將流式語音識別（ASR）系統的輸出文本實時從英語翻譯成中文普通話；

2）Speech-to-Text：將英文語音實時翻譯成中文普通話文本。

目前同聲傳譯任務主要有兩種技術路線：

1）級聯技術。即整個系統由ASR系統和翻譯（MT）系統組成，輸入源語言音頻信號，先經過ASR系統轉寫成源文本，再經過MT系統翻譯為目標語言。

2）端到端技術。即系統直接將源語言音頻翻譯為目標語言文本，不生成中間字符。相對於級聯繫統上億的數據規模，端到端系統的訓練數據極其匱乏，導致其效果遠低於級聯繫統。

級聯語音翻譯

端到端語音翻譯

同聲傳譯的系統通過兩種方式進行評估：

1）翻譯質量，使用標準BLEU指標評估；

2）翻譯延時，使用流式翻譯的標準指標進行評估，包括平均比例（AP）、平均滯後（AL）、可微平均滯後（DAL）。

最後，比賽主辦方根據不同延時範圍的翻譯質量對提交的同聲傳譯系統進行排名。對於英-中同聲傳譯系統，延時範圍設置為：

1）低延時，AL

2）中延時，AL

數據和數據處理文本數據預處理

比賽方提供大量的雙語語料和單語語料，通過規則過濾和匹配模型篩選出優質的文本數據。規則過濾包括：太長的單詞，長度嚴重失衡的中英雙語句子，過濾帶HTML標籤的句子，刪除重複等等。另外，訓練一個分類模型，過濾語義不匹配的真實雙語和偽雙語數據。

文本數據擴增

數據增強是提升模型效果行之有效的方案。首先使用真實雙語數據訓練中-英和英-中離線模型。然後這兩個離線模型分別生成中文單語和英文單語的偽雙語數據，用於回譯和知識蒸餾。最後，讓翻譯模型在ASR生成的偽雙語數據上進行微調，來提升翻譯模型的魯棒性。文本數據統計如下：

MT訓練數據

語音數據處理

比賽主辦方提供了6個英文語音數據集，共3000小時。採用傳統的語音特徵提取方法FBank，特徵維度設置為80，每幀窗口大小25毫秒，窗口滑動步長10毫秒。

語音數據擴增

通過增加音頻擾動的方法來獲得擴增音頻，包括聲音大小、速度、基線擾動等。除了CoVoST2這個數據集擴增1/3，其他數據集的音頻數據擴增3倍。音頻數據統計如下：

ASR訓練數據

技術解讀

思必馳-上海交大團隊首次參加這類語音翻譯比賽，在充分總結前人經驗的基礎上，積極開拓創新，下面對其關鍵技術進行解讀。

技術1：引入預訓練語言模型，大幅提升ASR性能

近年來，預訓練語言模型（LM），例如BERT，在NLP領域大放異彩，尤其在低資源場景，LM作用更加明顯。如何將語言模型引入ASR模型呢？首先看一下ASR的模型結構，如下圖：

ASR模型和E2E模型結構

ASR模型整體是transformer架構，但是Decoder拆分為Jointer和Predictor，其中，Predictor僅包含6層單向自注意力機制，Jointer僅包含6層交叉注意力機制。預訓練語言模型可以替代Predictor，從而ASR的解碼端可以充分利用大數據的優勢，提升解碼能力。與傳統的預訓練語言模型BERT相比，這裏的語言模型需要做兩方面的改變：

1）將傳統的雙向自注意力機制改為單向注意力機制；

2）預測目標改為預測下一個token。用表1中的數據訓練分別訓練一箇中文語言模型和英文語言模型，並分別用於端到端模型（E2E）和ASR模型，實驗表明，增加LM後對二者均有大幅提升。

預訓練語言模型效果

技術2：無限左看，隨機右看

流式翻譯模型的編碼端一般使用單向注意力機制，進一步地，可以設定一個固定的右看窗口，實現部分雙向注意力機制，來提升編碼能力，如圖4，每個token都可以“看”到所有左側內容，即無限左看，但只能往右看到2個token。本次比賽在CAAT[1]模型的基礎上做了更進一步的改進，提出Dynamic-CAAT，即在訓練過程中，將固定的右看窗口設為隨機取值，在預測過程中，當有新token輸入時，使用雙向注意力機制重新計算所有token編碼。

翻譯模型編碼端注意力機制

實驗表明，Dynamic-CAAT在各類延時級別上都有效果。這樣整個系統只需要一個翻譯模型，而不是訓練多個模型來適應不同的延時範圍。

Dynamic-CAAT的效果

評測結果

IWSLT 2022綜述文章中[2]，主辦方給出的英-中評測結果顯示思必馳-上海交大團隊(AISP-SJTU)提交的系統在低、中、高三個延時範圍內，都超過第二名約2BLEU(具體實驗數據見綜述文章143頁)。

speech-to-text英-中評測結果

總結

本次比賽，結合各種技術手段打造了英-中同聲傳譯最優基線，也對端到端模型做了初步探索。端到端模型在速度和誤差傳導上比級聯模型更佔優勢，因此，未來我們希望進一步研究有效的數據擴增手段，來提升端到端模型的翻譯效果。

引用

[1] Dan liu, Mengge Du, Xiaoxi Li et al., Cross attention augmented transducer networks for simultaneous translation

(https://aclanthology.org/2021.emnlp-main.4.pdf)

[2] Antonios Anastasopoulos et al., FINDINGS OF THE IWSLT 2022 EVALUATION CAMPAIGN

(https://aclanthology.org/2022.iwslt-1.10v2.pdf)