近日,騰訊科技(深圳)有限公司公佈“一種文本翻譯模型的訓練方法、文本翻譯的方法及裝置”專利,該專利於2020年11月13日申請,2021年1月22日公開,公開號為CN112257472A。
根據專利摘要,本申請公開了一種基於人工智能技術實現的文本翻譯模型訓練方法和文本翻譯方法,具體涉及自然語言處理領域以及機器學習領域,文本翻譯模型訓練方法包括:獲取第一文本以及第二文本;若第一文本以及第二文本滿足文本對齊條件,則獲取第一待訓練平行文本;基於第一待訓練平行文本所包括的第一句子,通過文本翻譯模型獲取第一翻譯文本;根據第一翻譯文本以及第二句子,對文本翻譯模型進行訓練。
本申請實施例還提供了一種相關裝置,本申請能夠將自動抓取到的文本進行對齊處理,從而生成用於模型訓練的平行語料,由此實現模型的自我訓練。