改革開放之初,有一句膾炙人口的口號叫作“要致富先修路”。
這句話很好理解,簡單來説,人們想要致富,需要把本地的資源變成財富,這就需要和外界交流溝通,外界的資金、人才能通過一條條路走進來,本地的資源、商品也能通過一條條路運輸出去,所以要打通本地與外界聯繫的關鍵就在於修路。
過去全國還沒有高速公路,普通的公路也通行條件不足,一直到八十年代道路基建才在全國各地大規模展開,我國的經濟也隨之迅猛增長,將城市、鄉村相互連接起來的萬千道路使得各區域間互聯互通,商品流通更加便捷,大大推動了地方經濟的發展和羣眾生活的改善。
如果説一條條公路的建成是經濟騰飛的大動脈,那麼在信息化時代,互聯網技術則是數字經濟發展的重要樞紐。如今,隨着移動互聯紅利的消退,元宇宙、Web3.0、人工智能、量子信息等各類新老概念提法湧出,人們迫切想搶先一步抓住下一個世代技術發展的關鍵要素,換一句話説,面向未來的技術發展中,“路”是什麼呢?
知識增強大模型讓AI走向通用性
《奇點臨近》的作者雷·庫茲韋爾曾在書中表示:“2045年左右,人工智能將會來到一個'奇點',跨越這個臨界點,人工智能將超越人類智慧,人類歷史將會徹底改變。”12月27日,百度創始人、董事長兼CEO李彥宏在百度Create 2021(百度AI開發者大會)演講中表示,“人機共生”時代,中國將迎來AI黃金十年。
人工智能的“奇點”將給人類帶來什麼現在不得而知,但人工智能確實在當今人類社會扮演的角色愈加重要,其背後的關鍵原因正是人工智能正變得越來越“聰明”,這種“聰明”不僅指的是AI背後的模型更加智能,而且代表AI具備了一定的自主學習和推算功能,能在更廣闊的範圍內得到應用。
簡單來説,決定一個人工智能模型是否“聰明”好用的關鍵一個在於算法本身,另一個則是算法背後用於訓練算法的數據廣度和深度。這就客觀要求如今的AI模型有着更廣的數據來進行訓練,同時通過系列知識圖譜來保證單純追求參數量基礎上模型的學習效率和質量。
AI過去在各行各業落地週期長的的一個原因就在於,傳統AI模型泛化性差、依賴昂貴的人工標註數據、落地成本高等問題,如果想要擴大一個模型的應用範圍,時常會出現如A模型往往專用於特定A領域,將A模型應用到領域B時效果並不好這樣的問題。
大模型的出現提供了一種“預訓練大模型+下游任務微調”的方式,來有效擴展模型的通用性。這也是為何大型模型近年來越來越受歡迎,如OpenAI就推出1750億參數的AI模型GPT-3,GPT-3耗費了千萬美元對人類的詩歌、小説、新聞等海量自然語言進行訓練(主要是英語),也因此GPT-3對自然語言具備了一定程度的理解能力。
不久前,百度發佈文心繫列產業級知識增強大模型,並聯合鵬城實驗室重磅發佈雙方共同研發的全球首個知識增強千億大模型——鵬城-百度·文心,該模型參數規模達到2600億,相比GPT-3的參數量提升50%。是目前全球最大中文單體模型,在60多項NLP任務中取得世界領先效果。
除了在中文世界首屈一指高達2600億的參數訓練規模,“知識增強”是文心大模型的核心特色。如今的AI在某些領域上獲取知識的速度和廣度都已遠超人類,但這是否代表着AI能如同人類一樣認識世界、感知世界並能舉一反三對世界做出反饋呢?這是人工智能領域數十年來一直在爭論的問題。
如果想讓計算機像人類一樣理解和認知世界,首先需要讓計算機具備獲取、運用知識的能力。傳統的大模型雖然參數量很大,但只是死記硬背海量文本的規律,這些模型並不能從本質上理解世界是怎樣運行的,僅僅解決了一些文本表象上的問題。
百度知識增強大模型能夠從大規模知識和海量無結構數據中融合學習,學習效率更高、效果更好,具有良好的可解釋性。某種意義上來説,通過知識增強,使模型能夠在一定程度上更好地理解世界是怎麼運行的,也就更加智能。
這背後,是百度在知識圖譜領域的十餘年積累。百度早在2011年就開始研發知識圖譜技術。截至目前,構建了包含5500億知識的大規模知識圖譜,覆蓋生活的方方面面,也包括製造、醫療、法律、 金融、科技、媒體等領域的專業知識。
此外,人類的歷史上有成千上萬種語言,機器要想理解真實世界,也需要學習和理解多種語言的能力。人類是通過語言、語音、視覺等多種模態獲得對真實世界的統一認知,機器如果想要理解真實世界也需要聽懂語音、看懂圖像視頻,這就需要突破不同模態、異構信息的語義融合統一難題。可以簡單理解為,機器需要綜合理解文字、語言、圖像、視頻等不同媒介的信息。
百度文心能夠實現跨語言、跨模態的學習,讓百度大腦更好地支持各種AI應用,滿足各種場景需求。百度的知識增強跨語言大模型ERNIE-M可同時從多種語言中學習,提升跨語言理解能力;知識增強跨模態理解大模型ERNIE-ViL在視覺常識推理任務榜單獲得第一名;知識增強跨模態生成大模型ERNIE-ViLG實現文圖雙向生成,是全球規模最大中文跨模態生成模型。
在百度Create 2021大會上,百度首席技術官王海峯便現場展示了百度的知識增強大模型的跨模態理解與生成能力,王海峯在現場説了一句:“百度大腦,我們一起創作一幅水墨畫吧。這邊是連綿的山脈,山上雲霧繚繞,山腳下有一座草堂建在江邊,江上有 一條船,一個人站在船頭;然後這邊有一行飛鳥掠過天空。”百度大腦即刻便將王海峯語言文字的描述轉換為一幅頗有意境的中國畫來展現。
在知識增強大模型的支撐下,百度大腦更好地支持金融、醫療、保險、證券、辦公、互聯網、物流等各種AI應用,滿足各種場景需求。
降低AI使用門檻,在AI時代打造自主的底層系統
百度知識增強大模型等技術能加速創新的背後,離不開國產自主的AI深度學習平台飛槳和強大算力底座在背後的支撐。
計算機編程的產品是“程序”,深度學習研究的產品是“模型”,深度學習平台及其背後的深度學習框架,就如同不同品牌的積木,積木的各個組件相當於不同的模型或算法的一部分,開發者可以根據自己的不同需求選擇各深度學習框架來進行產品模型的研發。
用一個不算準確的比喻來簡單説明,深度學習框架在AI領域的重要程度,可能相當於PC時代的操作系統。雖然不同的深度學習框架、不同的“操作系統”都能實現某一深度學習目標,但在人工智能時代提前做好AI的底層操作系統——深度學習框架,對我國在芯片、光刻機、手機電腦的操作系統等方面遭人“卡脖子”的當下異常重要。
深度學習和國有自主的深度學習框架也是推動人工智能進入工業大生產階段的關鍵。早在2017年國務院就印發了《新一代人工智能發展框架》,明確提出在2030年中國要成為世界主要人工智能創新中心。面向技術和產業發展需求的AI大生產平台可以讓AI技術以標準化、自動化和模塊化的方式輸出給千行百業,實現規模化應用,同時以平台為基礎促進融合創新、共同發展。也因此,中國更需要本土的AI創新基礎來為龐大的中國AI產業與開發集羣服務。
其實深度學習框架本身的搭建並不算難,很多研究人員或公司都會自己搭建一個深度學習平台,但要想搭建一個通用性廣的深度學習框架卻是一件不容易的事。好的深度學習框架源於產業實踐,一個深度學習框架只有參與過千行百業的AI模型部署實踐,見過無數種千奇百怪的硬件組合,最後能使用於各種情況能搭配各類方案,像USB插口一般“即插即用”,使得讓模型上線工作事半功倍,才能叫“產業級”的深度學習框架。
能做到這一點的深度學習框架並不多,如今全世界最為流行的深度學習框架有PaddlePaddle、Tensorflow、PyTorch、Caffe、Theano、MXNet、Torch等,前三者號稱三大主流框架。其中PaddlePaddle飛槳便是百度自主研發的國內首個開源開放的產業級深度學習平台。
面向開發、訓練和推理部署的全流程,飛槳提供了一整套降低門檻的技術和服務。在開發階段,飛槳在業內率先實現了“動靜統一”的核心框架,兼顧科研開發的靈活和產業開發的高效。飛槳提供豐富的API,支持開發者便捷、高效地開發深度學習模型。飛槳推出的系列科學計算API,支持量子計算、生命科學、計算流體力學、分子動力學等應用,助力中國科研實力的提升。
在訓練階段,飛槳發佈了自適應大規模分佈式訓練技術,針對模型特點和硬件特點,搜索最優的機器組合和模型切分策略,並採用異步流水運行機制,以及高通信和高併發的方式,使大模型訓練效率達到最優。百度文心知識增強大模型,正是基於這一核心技術訓練的。
在推理和部署階段,飛槳打造了推理部署工具鏈,使得高速推理引擎的多端多平台部署更加便捷。飛槳提供的模型壓縮等輔助工具,將大模型參數規模壓縮至1/1000,得到滿足產業實際應用需求的小模型,幫助開發者加速業務落地。
如今,百度飛槳通過技術開源、零門檻開發等不斷降低AI技術的應用門檻,讓開發者甚至無須從第一行算法代碼寫起,就能進行技術創新和業務拓展,讓工程師可以更專注於應用本身的開發,加速AI創新應用落地。
此外,百度飛槳已經建立起成熟完善的產業級複合型AI人才培養體系,包括面向一線算法工程師的“AI快車道”,面向技術負責人的“AI私享會”和麪向CTO、架構師層級的“AICA首席AI架構師培養計劃”,為產業界輸送了大量AI人才。截至目前,百度飛槳已匯聚了來自於各行各業的406萬開發者,創建了47.6萬個AI模型,累計服務15.7萬企事業單位,中國深度學習平台綜合市場份額第一。
打造綠色算力底座
AI的快速發展離不開算力的支撐。同時,達成“雙碳”目標已是社會共識,打造綠色低碳的算力底座,勢在必行。
百度的綠色算力底座,包括了自主研發的AI芯片、高智能的計算架構,以及綠色節能的數據中心,有力支撐AI技術研發及大規模應用。百度自主研發了通用AI芯片百度崑崙,今年8月,國內首款採用GDDR6顯存的崑崙2代芯片實現量產,性能比1代芯片提升2-3倍。同時,崑崙芯片與百度飛槳等多款深度學習框架完成端到端適配,具備軟硬一體的全棧國產化AI能力。
計算平台方面,百度打造了AI異構計算平台百舸。百舸平台由AI計算、AI存儲和AI容器組成,具備大算力、大吞吐、極致彈性的特性,支持超大數據、超大模型的訓練,同時崑崙芯片也已應用於百舸平台。
數據中心是算力傳輸與存儲的關鍵設施,通過極簡供電、高效製冷、智能控制等多項技術,百度的數據中心實現了從硬件、電氣、動力系統等多方位節能減排,單體數據中心年均PUE低至1.08,PUE (Power Usage Effectiveness,電源使用效率)是衡量數據中心電力能源利用率的國際通用指標,越接近1表示數據中心對電能的利用效率越高。百度單體數據中心年均PUE1.08的數值已遠遠低於1.59的全球數據中心平均水平。在2020年時,百度陽泉數據中心榮獲國內首個5A低碳數據中心認證。
如今,百度在AI核心技術、AI底層平台系統以及綠色算力底座上均取得了不錯的成績,可以説百度已為加速發展的AI時代搭好橋、造好路,無論是在前沿技術研究領域,還是廣泛的產業應用方面,百度的AI技術已走進千行萬業。
在前沿技術方面,百度推出業界首個mRNA疫苗序列設計算法,可以在短短十分鐘內找出穩定的疫苗序列,百度已經和中國疾病預防控制中心開展科研和應用合作,正加速推動疫苗和藥物研發。在量子計算領域,百度打造了百度量子平台,這是國內首個提供從應用到量子處理器一站式服務的量子計算雲平台,它降低了量子計算學習與應用的門檻,推動量子計算在化學、 金融、材料等領域的廣泛應用。
在能源領域上,百度智能雲與國家電投集團東方能源共同打造了“智慧數字熱網”, 建設綜合智慧能源生態圈,協調企業、社區、用户三方共同助力“雙碳”目標達成,如今已在石家莊落地應用。
在智慧城市方面,百度與北京海淀區合作,基於百度AI、大數據、雲計算等技術,通過對城市全要素全狀態的全景洞察,提升城市管理效率和效果,為城市的發展賦予新動能。在“中國蔬菜之鄉”山東壽光,百度用AI技術加持蔬菜大棚,只需兩個工作人員加一個APP,就可以管理數十個蔬菜大棚。
AI作為前沿科技並不是遠在天邊,技術算法雖然看不見、摸不着,但AI已如同千萬條道路般,從城市到鄉村、從辦公室裏的智能手機到田間的瓜果蔬菜,遍佈於人類工業、農業以及生活的方方面面。