魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
這位道友,不知嗑鹽途中,你是否也有閲讀英文論文效率低下的煩惱?
作為一個arXiv天天見的英語渣,本蒟蒻反正是在挖掘論文閲讀神器的道路上不能自拔。
這不最近,就又被網友們種草了一款桌面翻譯軟件。
淺試一下,翻譯PDF的效果是醬嬸的:
還有逐句對照功能:
如果只是想看一眼摘要,隨手截屏就OK,同樣有中英文對照:
媽媽再也不用擔心我刪回車刪到手抽筋(手動狗頭)。
△PDF中直接複製出的文本有多餘換行,影響翻譯效果
這樣的功能,來自最近更新升級的網易有道詞典9。有一説一,一眼看去效果確實有點頂~
進一步翻翻有道詞典官網,就會發現此番進化,這個工具強調的就是提高“學術生產力”。
至於究竟是不是那麼回事,咱們不妨一起仔細試上一試。
從論文檢索到論文寫作全流程可用讀英文文檔,翻譯PDF是剛需。
此前,學術好幫手谷歌翻譯就有PDF文檔翻譯功能。
不過,谷歌的文檔翻譯總有那麼點小毛病。
比如,容易出現版面錯亂的問題,導致你似乎每個字都能看懂,湊一起就不知道啥意思了。
舉個例子,原文的表格長這樣:
用谷歌翻譯,你會得到這樣一個文字錯位、多少有點影響理解的結果:
相比之下,有道給出的結果長這樣:
可以説在版面保持這方面,有道詞典明顯勝過一籌。
而比谷歌翻譯更加方便的是,有道詞典還有直觀的雙語對照功能。
畢竟雖然機翻能夠提高閲讀效率,但完全脱離英文原文看論文還是不太現實的。
相比兩個文檔來回倒這樣手忙腳亂的操作,直接同屏對照方便許多。
更妙的一點是,有道詞典此次“學術進化”,對計算機、醫學、金融經濟學等專業領域進行了針對性優化,能夠提升術語翻譯的準確性。
還支持自定義術語表。
比如説,你發現文章self-attention這個詞沒有翻譯出來,可以直接選中這個詞並選擇術語矯正,將其加入到術語庫。應用術語庫之後,有道詞典再遇上同樣的術語,就都能保持一致的翻譯。
除了把本職的翻譯工作整得更加方便準確,與其他翻譯工具不同的是,有道詞典9這回甚至還打算包辦科研黨的寫論文全流程。
他們直接和ReadPaper、Aminer合作,內置論文檢索服務,官方説法是:
覆蓋40種以上專業領域,包含3億文獻資料。
△亮點自尋
搜索的過程中,也可以打開雙語對照按鈕,快速閲讀摘要。
就這還沒完,甚至在你寫論文的時候,有道詞典9也能派上用場:其“AI英文寫作批改”功能,能夠智能識別語法錯誤、提供例句參考、“母語級”句子潤色,還能自動標註引用來源、生成參考文檔信息……
“學術”詞典背後的技術秘籍有道詞典9這一條龍學術服務,説得上是直奔科研黨心巴而來。
而這些緊貼學術需求的功能背後,技術挑戰也很值得説道説道。
PDF文檔翻譯:基於視覺技術的PDF解析算法
先説説最亮眼的PDF文檔翻譯功能。
PDF文檔翻譯本身是一個比較複雜的問題,涉及多個處理環節,包括PDF文檔解析、Word文檔渲染、翻譯策略、翻譯結果回填等等。
尤其對於不可解析的PDF(掃描PDF)而言,頁面中的文字、矢量、圖片等要素其實都包含在同一張圖片內,無法直接解析獲得。
這時,就需要先通過OCR技術,識別出其中的各種基本要素,再轉換得到可編輯的文檔。
這裏面的難點在於,相較於單純的文字識別,OCR識別論文文檔任務會更重。因為不只是文字,論文中表格、圖像、公式,如果不能被精準識別出來,會很容易出現內容丟失、排版錯亂的問題。
此外,為了讓版面與原文保持一致,頁面的單欄、多欄、頁眉、頁腳等信息,AI都需要準確判斷出來,這樣才可能在可編輯文檔中恢復出原有版面和內容。
針對不可解析PDF,有道主要從兩個方面進行了改進。
文字識別方面,有道自研的OCR算法集成了業內領先的文字檢測和識別模型,能達到更高的文字召回率,同時能覆蓋幾十種主要語種。
版面識別方面,採用“分而治之”的策略。
具體而言,在通過版面分析模型得到版面基本信息之後,AI會根據不同的組成結果,採取不同的提取策略。
舉個例子,在遇到以文字為主、富含表格的常見版面時,有道詞典會主要採取文字組段算法和表格分析算法來處理文檔。
而以圖像為主、背景構成複雜的特殊版面,則原樣保留原有版面的所有要素,集中注意力處理文字,最後進行多層疊加渲染。
除此之外,在許多細節上,有道也進行了優化,以使最終呈現給用户的版面更加準確規整。
比如文本框的透明化處理、換行符的插入規則處理等。
專業領域翻譯模型
前面提到,除了通用翻譯,在有道詞典9中,用户還可以選擇醫學、計算機等專業領域,來進一步提高翻譯的準確性。
每一個專業領域背後,其實都對應着一個獨立翻譯模型。
具體而言,技術團隊收集了大量不同專業領域的數據,對神經網絡翻譯模型進行了定製化訓練和增強。
這樣一來,即使是Pneumonoultramicroscopicsilicovolcanoconiosis這樣的術語,也能夠被準確翻譯出來。
除此之外,一般在線機器翻譯算法都是以句子為單位翻譯的,而針對文檔翻譯的需求,有道詞典9這次引入了篇章算法。也就是説,AI在進行翻譯時,會聯合上下文句子來改進翻譯質量。
如此看來,網易有道詞典9這波號稱“最強桌面翻譯軟件”,並不是瞎吹牛,而是有備而來。
事實上,除了技術細節上的新嘗試,有道詞典化身“科研神器”背後,也有着更長期的技術積累。
比如在神經網絡翻譯技術方面,網易有道在2016年已着手自研神經網絡翻譯模型YNMT,是國內最早開展自研機器翻譯技術的團隊之一。
在OCR技術方面,2017年,網易有道就上線了卷積神經網絡 + 循環神經網絡的OCR引擎,到現在已經能支持100多語種的識別,還具備語種自動判別和混合識別的能力。
當然啦,對咱們來説,最關鍵的還是免費好用,入股不虧。
9月13號開始,文檔翻譯免費版面向所有用户上線。
最後的最後,如果你還有什麼別的寶藏科研神器,評論區大力種草走起呀~
— 完 —
量子位 QbitAI · 頭條號簽約