不拆分單詞也可以做NLP，哈工大最新模型在多項任務中打敗BERT

2022-02-28 由顓孫佳悦發佈於經典

豐色發自凹非寺

量子位 | 公眾號 QbitAI

眾所周知，BERT在預訓練時會對某些單詞進行拆分（術語叫做“WordPiece”）。

比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。

目的是縮減詞表、加快訓練速度，但這樣一來，在某些時候反而會阻礙模型的理解能力。

比如把”lossless”分成”loss”和”less”的時候。

現在，來自哈工大和騰訊AI Lab的研究人員，嘗試利用不做單詞拆分的詞彙表開發了一個BERT風格的預訓練模型——WordBERT。

結果，這個WordBERT在完形填空測試和機器閲讀理解方面的成績相比BERT有了很大提高。

在其他NLP任務，比如詞性標註(POS-Tagging)、組塊分析(Chunking)和命名實體識別(NER)中，WordBERT的表現也都優於BERT。

由於不用分詞，這個WordBERT還可以直接進行中文訓練。

更值得一提的是，它在性能提升的同時，推理速度並沒有變慢。

可謂一舉多得。

NO WordPieces

與BERT類似，WordBERT包含兩個組件：詞向量（word embedding）和Transformer層。

和以前的模型一樣，WordBERT採用多層雙向Transformer來學習語境表示（contextualized representation）。

word embedding則是用來獲得單詞向量表示的參數矩陣，與把單詞分成WordPiece的BERT相比，WordBERT的詞彙由完整的單詞組成。

他們用自然語言處理軟件包Spacy處理數據，生成了兩個詞彙表，一個規模為500K，一個為1M。

詞彙表中還被單獨添加了5個特殊單詞：[PAD]、[UNK]、 [CLS]、[SEP]和[MASK]。

通過不同的詞彙表規模、初始化配置和不同語言，最後研究人員一共訓練出四個版本的WordBERT：

WordBERT-500K、WordBERT-1M、WordBERT-Glove和WordBERT-ZH。

它們的配置如上，嵌入參數都是隨機初始化的，嵌入維數和基準BERT保持一致。

其中WordBERT-Glove用的詞彙表是現成的Glove vocabulary，裏面包含約190萬個未編碼的單詞，該模型由相應的單詞向量（word vectors）在WordBERT之上初始化而來。

WordBERT-ZH則是用中文詞彙訓練出來的WordBERT，它也保持了768的詞嵌入維數。

性能與速度兼具

在測試環節中，完形填空的測試數據集來自CLOTH，它由中學教師設計，通常用來對中國初高中學生進行入學考試。

其中既有隻需在當前句子中進行推理的簡單題，也有需要在全文範圍內進行推理的難題。

結果如下：

△ M代表初中，H代表高中

WordBERT-1M獲得了最佳成績，並接近人類水平。

它在高中題比BERT高了3.18分，初中題高了2.59分，這説明WordBERT在複雜任務中具有更高的理解和推理能力。

在詞性標註、組塊分析和命名實體識別（NER）等分類任務中，WordBERT的成績如下：

相比來看，它在NER任務上的優勢更明顯一些（後兩列）。

研究人員推測，這可能是WordBERT在學習低頻詞的表徵方面有優勢，因為命名實體（named entities）往往就是一些不常見的稀有詞。

對於“中文版”WordBERT-ZH，研究人員在CLUE benchmark上的各種任務中測試其性能。

除了BERT，對比模型還包括WoBERT和MarkBERT，這也是兩個基於BERT預訓練的中文模型。

結果，WordBERT-ZH在四項任務中都打敗了所有其他對比模型，在全部五項任務上的表現都優於基線BERT，並在TNEWS（分類）、OCNLI（推理）和CSL（關鍵字識別）任務上取得了3分以上的差距。

這説明，基於詞的模型對中文也是非常有效的。

最後，實驗還發現：

性能不差的WordBERT，在不同任務上的推理速度也並未“落於下風”。

關於作者

一作為哈工大計算機專業在讀博士生馮掌印，研究方向為NLP、文本生成。

他曾在微軟亞研院自然語言計算組、哈工大和科大訊飛聯合實驗室實習，在NLP領域的頂會ENNLP發表過一篇一作論文。

通訊作者為史樹明，來自騰訊AI Lab。

論文地址：

https://arxiv.org/abs/2202.12142

— 完 —

量子位 QbitAI · 頭條號簽約

轉載請註明：不拆分單詞也可以做NLP，哈工大最新模型在多項任務中打敗BERT - 楠木軒

“哈工大課堂”邀請小朋友們週日來上課，預約看這裏

發佈於: 經典2023-11-12標籤: 哈工大中心哈工大小朋友們科研項目

本文轉自：人民日報客户端劉夢丹11月12日本週日，哈工大中心“哈工大課堂”第一百二十二期，推出“北斗衞星導航的前世今生”講座，一起來探索北斗系統的奧秘。北斗衞星導航系統是我國自主建設運行的全球衞星導航

哈工大修建暖廊：對學生好一點又何妨？ | 媒體札記

發佈於: 綜合2023-11-11標籤: 哈工大學生暖廊校園

隨着寒潮來襲，東北地區已經進入冬季。近日，哈爾濱工業大學校園暖廊二期開放試通行，哈工大官方發文稱，同學們可以穿着單衣從容地在一校區、二校區暖廊穿行，5分鐘內可直達教室、圖書館、食堂、公寓、體育館……根

院士班主任+1！哈工大新設人工智能院士特色班

發佈於: 經典2023-10-12標籤: 人工智能 2023級哈工大院士

本文轉自：人民日報客户端自2020年開始哈工大創新推出由院士領銜或擔任班主任的小衞星班、智能機器人班永坦班、善義班等特色班成為學校人才培養的“金字招牌”當前人工智能已成為引領新一輪科技革命和產業變革的

哈工大將全面開放校園，校方：帶身份證就行

發佈於: 經典2023-08-14標籤: 哈工大校園公共衞生間任何地方

哈爾濱工業大學宣佈，自2023年8月28日（星期一）8:00起全面開放校園。校園全面開放之後，參觀無需預約、不限名額、不收費用，攜帶有效身份證件從指定入校通道進入即可。而且，校園內的部分公共衞生間對外

打破“畢業前答辯”模式，哈工大本科生可提前申請畢業設計(論文)答辯

發佈於: 經典2023-08-01標籤: 哈工大哈爾濱工業大學中國青年報論文

學生進行科創活動。哈爾濱工業大學供圖中國青年報客户端訊（通訊員商豔凱中青報·中青網記者葉雨婷）近日，記者從哈爾濱工業大學獲悉，今年4月，學校以部分學院為試點，以能力和水平為標準，打破傳統本科畢業

教育個性化革命國內首個教育大模型“子曰”發佈

發佈於: 經典2023-07-27標籤: 模型場景技術 Transformer

　　7月26日，教育科技公司網易有道（NYSE: DAO）舉辦了“powered by 子曰”教育大模型應用成果發佈會，會上推出了國內首個教育領域垂直大模型“子曰”，併發布了基於“子曰”大模型研發的

宇宙級浪漫！這所學校的高考錄取通知書科技感十足

發佈於: 經典2023-06-14標籤: 錄取通知書哈工大哈工大全媒體中心哈爾濱工業大學

　　新華社哈爾濱6月14日電（記者楊思琪）登上火星的“超級塗層”，精美的盲盒胸章，專屬的數字藏品……全國高考剛剛落下帷幕，哈爾濱工業大學2023年高考錄取通知書帶着“宇宙級浪漫”驚豔亮相，吸引不少關注

高考分還沒出，錄取通知書先出了！比往年更酷了

發佈於: 經典2023-06-14標籤: 錄取通知書哈工大哈爾濱工業大學五星紅旗

2023年高考結束不到一週，已有高校公佈錄取通知書！6月13日晚，哈爾濱工業大學發文：2023年高考錄取通知書來了！據瞭解，今年哈工大錄取通知書共有3個亮點，既硬核又浪漫↓登上火星的“超級塗層”每位收

高考分還沒出，錄取通知書先出了！比往年更酷了......

發佈於: 經典2023-06-14標籤: 錄取通知書哈工大天問一號火星探測器

本文轉自【中國青年報】；2023年高考結束不到一週，已有高校公佈錄取通知書！ 6月13日晚，哈爾濱工業大學發文： 2023年高考錄取通知書來了！據瞭解，今年哈工大錄取通知書共有3個亮點，既

志願者將考研試卷袋拍圖上網，哈工大：擬邀上級主管部門開展調查

發佈於: 經典2022-12-14標籤: 瀟湘晨報哈工大志願者 xxcbbaoliao

近日，網傳哈工大一名志願者將考研試卷袋拍照上傳網絡，該行為引發網友熱議，有網友質疑考試公平合理性。12月14日，瀟湘晨報（報料微信：xxcbbaoliao）記者從哈爾濱工業大學研招辦瞭解到，該志願者工

什麼是感知架構“XNet”？飛行汽車何時量產？小鵬1024科技節告你答案

發佈於: 綜合2022-10-25標籤: 小鵬汽車城市 Transformer

【EV視界報道】記得在去年的小鵬1024科技日的時候，小鵬稱要實現城市NGP智能導航輔助駕駛。而就在前不久，隨着小鵬汽車城市NGP正式在廣州上路，小鵬可以説兑現了這個諾言。在10月24日舉辦的2022

高校思政課，哈工大老師這樣講

發佈於: 經典2022-10-11標籤: 哈工大姜昱子學生姜老師

本文轉自：人民日報客户端方圓“這是美麗的祖國，是我生長的地方……”百年黨史專題結課那天，姜昱子從歌曲《我的祖國》的歌詞談起，這首熟悉的老歌將學生們的思緒一下子吸引了過來。時針撥回到2019年，哈爾濱工

首次！哈工大助力我國在標準化領域取得突破！

發佈於: 綜合2022-10-05標籤: 標準哈工大光學共焦共焦顯微鏡Sinc2法軸

本文轉自：人民日報客户端張藝開9月26日至28日，ISO TC213（國際標準化組織第213技術委員會）WG16（第16工作組）年會於線上舉行，來自多個國家的40餘位代表參加會議。會議通過決議，聘請哈

一個AI玩41個遊戲，谷歌最新決策Transformer綜合表現分超DQN一倍

發佈於: 科技2022-07-23標籤: Transformer 谷歌遊戲智能體

Alex 發自凹非寺量子位 | 公眾號 QbitAI谷歌AI宣佈，在多任務學習上取得了巨大進展：他們搞出一個會玩41款雅達利遊戲的AI，而且採用的新訓練方法比起其他算法，訓練效率大大提升！此前會玩星

已有考生收到！各高校錄取通知書都長啥樣？哈工大的藏着“寶石”

發佈於: 經典2022-07-09標籤: 錄取通知書哈工大南開大學中國藥科大學

本文轉自：光明網8日上午，今年四川高考首封錄取通知書從四川大學發出。昨日，北京高考首封錄取通知書也送達考生手中。隨着高考錄取工作逐漸展開，各高校今年的錄取通知書也都對外公佈，一起來看看長啥樣↓↓↓北京