據品玩了解,4月19日阿里巴巴達摩院正式發佈了中文語言模型 PLUG(Pre-training for Language Understanding and Generation)。這個模型參數規模達 270 億,是目前全球最大規模的中文文本預訓練語言模型。
最近幾年,AI 領域興起了大規模預訓練模型浪潮。業界有相當的研究者認為,這是邁向通用 AI 的一條可行路徑。2020 年發佈的 GPT-3,最具代表性。這個模型擁有 1750 億參數,訓練費用預估為 1200 萬美元。它具備極強的通用性,問答、寫文、翻譯都不在話下,甚至還能寫代碼、算公式、做表格、畫圖標。它甚至被稱為“萬能語言模型”。
這之後,業界一直有討論,中文版 GPT-3 什麼時候會誕生。2021 年 3 月 20 日,在智源研究院和清華大學推動下,中國第一個大規模 AI 模型系統“悟道 1.0”發佈。“悟道 1.0”系統包括 4 個大模型研發項目,分別面向中文、多模態、認知和蛋白質預測,對應的名字是文源(26 億參數)、文瀾(10 億)、文溯(2.8 億)和文匯( 113 億)。
而聚焦於中文文本領域的 PLUG,擁有更大的參數量:270 億。
PLUG 集語言理解和生成能力於一身,且兩方面表現都不錯。在語言理解任務上,PLUG以80.614分刷新了CLUE分類榜單記錄。CLUE(中文語言理解評測基準)是中文社區目前權威的預訓練語言模型評測的benchmark,背後有阿里、騰訊、華為、美團、搜狗等國內企業的參與。
(注:4月19日,PLUG刷新CLUE分類榜單紀錄,排名僅次於“人類”)
而在語言生成任務上,PLUG多項應用數據較業內最優水平提升了8%以上,可以進行創作小説、詩歌和智能問答等任務。
達摩院披露了更多訓練細節。訓練模式上,PLUG採用encoder-decoder的雙向建模方式,在傳統的零樣本生成表現上,無論是生成的多樣性,領域的廣泛程度,還是生成長文本的表現,較此前的模型均有明顯的優勢。
事實上,PLUG 誕生在達摩院此前自研的兩個語言模型(StructBERT 和 PALM)的基礎上。
StructBERT是NLU(自然語言理解)模型,通過加強句子級別和詞級別兩個層次訓練目標中對語言結構信息的建模,增強了模型對於語法的學習能力。
而PALM是NLG(自然語言生成)模型,結合了Autoencoding和Autoregression兩種預訓練方式,引入Masked LM目標來提升encoder的表徵能力,同時通過預測文本後半部分來提升decoder的生成能力。
PLUG 汲取二者所長,提出了一個簡單的框架,用來進行NLU&NLG聯合訓練。相比於GPT系列模型,該大規模生成模型以StructBERT作為encoder,有着更強的輸入文本雙向理解能力,從而可以生成和輸入更相關的內容。
算力方面,PLUG 背後是阿里雲EFLOPS 高性能AI計算集羣。這是阿里雲 2020 年 3 月公佈的新型 AI 計算架構,通過EFLOPS高性能RDMA網絡技術實現無擁塞通信,加快了 AI 計算速度。
PLUG研發人員告訴品玩:“訓練PLUG模型使用了128張A100顯卡,訓練了35天,參與團隊除達摩院機器智能實驗室外,還包括阿里雲內部超大規模訓練引擎團隊、異構計算團隊,以及高性能AI計算集羣團隊等。”
這再次證明了,大規模AI模型的競爭,背後要有龐大的團隊和資源做支撐。
訓練數據上,PLUG採用了1TB以上高質量的中文文本,涵蓋新聞、小説、詩歌、問答等廣泛類型及領域。同時,PLUG 可為目標任務做針對性優化,通過利用下游訓練數據精調模型,使其在該特定任務上生成質量達到最優,彌補之前其它大規模生成模型少樣本推理的生成效果不足,適於應用在實際生成任務。
從測試頁面可以看到,PLUG 具備執行多種不同類型任務的能力,既有常見的生活常識回答,也有小説續寫和專業文稿撰寫等難度比較高的任務。
下面可以看看一些測試案例:
達摩院表示,PLUG將擴大參數規模至2000億級,並進一步提升文本生成質量。值得一提的是,阿里巴巴達摩院在大規模預訓練模型領域的投入,不止於 PLUG。上文提到的 113 億參數的認知模型“文匯”,達摩院也參與研發。
對於AI模型的發展趨勢,達摩院語言技術實驗室研究員黃非説:“現在預訓練語言模型的發展趨勢包括更多的訓練數據、更廣的數據領域、跨模態信息的融入等。模型能力正變得越來越強大,在生成理解等方面也正逐步接近人類水平。但在邏輯推理、情感表達方面,語言模型的能力還有待進一步提升。後續期待語言模型融合除文本信息以外更廣泛的人類知識,能作為認知智能的技術基座,在更多場景中得到廣泛應用。”
達摩院深度語言模型團隊負責人黃松芳也表示,“大規模模型一方面將從數據驅動(Data-driven)逐步發展到知識驅動(Knowledge-driven),探索數據和知識深度融合的預訓練語言模型;另一方面將不僅僅追求模型參數規模擴大,而會更關注超大模型的落地應用實踐,探索低碳、高效、業務可用的預訓練語言模型。”