智東西(公眾號:zhidxcom)文 | 韋世瑋
智東西6月23日消息。搜狗翻譯推出了國內首個AI寫作助手。在準確糾正英語寫作的語法和拼寫錯誤之外,還能識別中式英語表達,並對語句進行智能優化和潤色,使英語寫作更加規範和地道。
同時,該AI寫作助手還能幫助用户從容應對跨境商務、英文面試、演講稿、線上交友和升學應試等多樣挑戰,全方位提升英語寫作和交流能力。
為此,智東西與搜狗翻譯負責人魯濤進行了一場深入對話,在瞭解搜狗翻譯AI寫作助手各項特色功能的同時,進一步探究其背後的技術優勢,共同探討搜狗翻譯到底是如何一步步落地AI能力,讓跨語言交流更簡單、更智能。
如今國人在英語寫作時,除了容易出現語法和拼寫錯誤外,亦存在 “容易寫出中式英語、難以寫出高級表達”的痛點。
搜狗翻譯AI寫作助手則針對這些問題“對症下藥”,開發了 “語法與拼寫準確糾錯”、“語句智能潤色優化”和“糾錯潤色前後對照”三大特色功能。
1、語法與拼寫準確糾錯
搜狗AI寫作助手能夠準確識別輸入文章在語法、拼寫和邏輯關係上的問題,包括動詞變化、名詞單複數和主謂一致等語法現象的常見錯誤,單詞字母和大小寫等拼寫錯誤,以及語句轉折、遞進和讓步等連接詞錯誤。
2、語句智能潤色優化
針對國人英語寫作容易出現的“中式英語”,搜狗AI寫作助手可以幫助用户消除文章中出現的語序、結構和語法上的中文表達痕跡。同時,它還能提供多達8種英文表達升級的方案,讓表達更地道。
3、糾錯潤色前後對照
糾錯潤色後,用户還能通過對比文章修改前後的不同,加深自己對某一地道表達的印象,逐步提升寫作能力。
目前市面上部分產品在批改用户作文並進行反饋時,常常會使用較多的專業術語,如“主謂一致錯誤”和“獨立主格錯誤”等,這對初學者或語法知識薄弱的用户來説,增加了理解成本。“我們的定位比較清晰,研發AI寫作助手的目的並不是讓AI當老師,而是打造一個跨語言交流的智能助手。”魯濤談到。
在搜狗翻譯AI寫作助手的一系列技術背後,糾錯模型和潤色模型是其中的兩大亮點。
糾錯模型是NLP(自然語言處理)領域的熱門任務。針對中國用户的表達特點,搜狗翻譯團隊對數百萬句國人真實英語寫作語料進行分析,總結出數十種中國用户常見錯誤,對比業內經典糾錯算法,發現傳統的糾錯方法多是針對文章的某個特定語法錯誤進行糾錯,無法很好地解決多種語法錯誤同時出現時,多模型糾錯子任務衝突與融合問題。
對此,搜狗翻譯團隊首先將糾錯問題定義為序列到序列的生成問題,利用深度學習中的Transformer框架,融合拷貝網絡,讓模型能夠將輸入句子中的人名、時間等關鍵信息拷貝到糾錯後的句子中,降低了句子和語義的遷移風險。
其次,研究人員引入遷移與對抗學習方法,模擬真實用户錯誤分佈的近千萬糾錯句,對模型進行訓練。訓練完成後,再與國外英語寫作專家合作審校數十萬句國人真實英語寫作語料,對搜狗模型糾錯效果進行優化,最終得到一個專為中國用户“定製化”的寫作糾錯模型。
第三方評測機構透露,在同樣召回結果的基礎上,搜狗AI寫作糾錯模型的糾錯準確率高達96.83%, 誤糾率對比同類最優競品減少47.6%。
比寫的“正確”更難的,是寫的“地道”。國人受到漢語影響,寫作經常出現中式英語,比如“開運動會”寫成了“Open a sports meeting”。另外,在特定考試場景和商務表達中,還會有寫出“高級表達”的訴求。
對此,搜狗翻譯團隊與清華大學“天工研究院”聯合開發了具有文章語句自動潤色功能的SGPolish模型,該模型主要解決了當前業內面臨的三大寫作升級難題:如何找到句子可以被優化的部分?如何優化這個部分?優化後,如何保證句子意思不改變?
為了找出並優化句子中需要被潤色的部分,研發人員首先要找到海量的訓練數據。
搜狗翻譯團隊利用“NAT生成模型”將搜狗英文搜索中過億級權威、純正、時效性強的英語語料放入該模型,模擬出海量與中國英語寫作用户結果一致的“待潤色數據集”。接着,利用已有的數十萬句國人真實寫作語料對“待潤色數據集”進行調整。調整完成後,與搜狗英文搜索的英語語料組成“潤色訓練集”,有效解決了深度學習需要的海量數據集難題。
搜狗翻譯團隊和清華大學“天工研究院”將“潤色數據集”、“NAT模型”和基於attention的Transformer框架進行訓練,生成了SGpolish模型。與糾錯模型結構相似,研發團隊也融合了拷貝網絡來減少句子語義遷移風險。
其實搜狗在早年已積累了許多行業領先的AI算法能力。
2017年,搜狗翻譯團隊利用搜狗搜索億級權威語料,訓練出領先行業的搜狗神經網絡翻譯模型,獲得了WMT中英和英中翻譯雙向世界冠軍,並於2018年獲得IWSLT國際頂級口語機器翻譯評測大賽Baseline Model(基線模型)賽道世界冠軍。
結合搜狗OCR、文檔解析以及ASR等優勢AI能力,搜狗翻譯相繼推出了拍照翻譯、菜單翻譯、AR翻譯、文檔翻譯和語音對話翻譯等口碑功能,切實幫助國人表達與獲取信息更簡單。2018年底,搜狗翻譯團隊開始進行AI寫作助手的研發和技術儲備,以打造跨語言交流智能VPA。
寫作助手作為NLP領域中較為小眾又難做的一個場景,搜狗為何決定佈局於此?
如果從互聯網應用規模角度看,寫作助手確實是一個量不算大的市場,但如果我們迴歸用户視角,則大有不同。
據國家統計局數據,從2014年起,國內初高中招生增長速率約為5%-10%,到2019年,初高中生在校人數達7859萬人。與龐大的初高中在校人數形成鮮明對比的是,我國初高中所有學科的教師人數只有560萬人,同時國家統計局數據顯示,初高中師生人數比例為1:14,聚焦在英語學科上,師生比將擴大數倍。
值得注意的是,英語老師批改作業的時間和精力成本非常大,老師精力有限,面對大量學生作文,往往只能給出分數和簡短評語,難以詳盡指出具體問題。
這在一定程度上導致了學生寫作能力提升慢,練習英文寫作的積極性受挫。因此,很多學生通常都是在考前突擊背誦範文和模板,寫作水平難以實現本質提升。
面對這一境況,AI寫作助手的開發不僅僅能解放英語老師批改作文的壓力,把更多的精力用於打磨教學,同時還能幫助學生在提交作業前進行自我檢查和文章優化,利用前後對照完成“自練自查自學”的自主學習閉環,真正達到英語輸出能力的提升。
與此同時,這個集“糾錯-潤色-對照學習”於一體的AI寫作助手,還能夠幫助到近八千萬中學生羣體、三百餘萬研究生和留學生羣體,尤其是教育資源十分稀缺的偏遠地區同學。
相對國外某些每個月需要近30美元(約212元人民幣)的主流糾錯產品,搜狗翻譯的AI寫作助手選擇免費開放,對於需要提升英文寫作能力的學生,以及在意產品性價比的跨語言表達用户來説,是一個非常實在的智能助手。
“搜狗整體戰略是讓表達與獲取信息更簡單,除了英文寫作助手,我們也在考慮嘗試更多語言的糾錯潤色能力。”魯濤説,這意味着搜狗要幫助用户實現表達更智能化、更多樣化和更個性化。
談及AI寫作助手及搜狗翻譯的發展,魯濤表示,當前AI寫作助手上線了1.0版本,聚焦“作文批改”,已在搜狗翻譯APP和搜狗搜索免費上線,今年下半年還有可能在搜狗輸入法及其他產品上線。
未來,AI寫作助手將滿足用户精細化需求,區分考試等級、商務交流、口語表達等場景,提供多樣化糾錯潤色結果,更好地服務用户,智能化支持用户跨語言表達。
同時,搜狗翻譯也將進一步打磨拍照翻譯和多語種翻譯等特色口碑功能,進一步將AI技術更廣泛地普及和應用,讓用户表達和獲取信息更加簡單。
語言作為人們生活交流和溝通中最為重要的表達方式,以“語言”為發展核心之一的搜狗也不斷通過長期積累的AI技術優勢,為教育、媒體和商務等各行各業提供行之有效的解決方案和創新動力。
AI語言應用爆發的當下,搜狗在未來還將繼續為我們帶來哪些創新和驚喜?我們拭目以待。