國產替代背景下,數據庫和數據分析行業的發展和投資機會
國產自主可控是最近非常熱門的話題,從2018年開始啓動到2019年已經有眾多的廠商加入了實現國產自主可控的行列,並且隨着疫情的發展、中美貿易戰的摩擦,國產自主可控已經是一個核心話題。鈦資本投研社邀請了投資人黨成磊,分享國產替代背景下數據庫與數據分析行業的發展和投資機會。
黨成磊畢業於上海財經大學,擁有電子信息工程學士和經濟學碩士學位,曾就職於海航、復星集團、德邦證券直投子公司,有多年的產業經驗,主要從事大數據、雲計算、AI、安全、物聯網、芯片等技術領域和技術驅動相關的金融、零售、工業互聯網領域的研究和投資工作。
01 數據庫市場分析
操作系統、中間件、數據庫是基礎架構軟件領域開發難度最大的三個部分,替代週期非常長,因此國產數據庫會有很大替代的機會。
數據庫首先從OLTP和OLAP説起。如下圖所示,OLTP聯機事務數據庫一直由Oracle、IBM DB2、MySQL、SQL Server等佔據主導地位,而國內阿里的OceanBase、騰訊的TBase、達夢數據庫、PingCAP才剛剛起步。
2018年商業數據庫市場規模147億,Oracle在電信、金融、能源、電力領域佔據主導地位,MySQL在互聯網行業應用廣泛,同時這個行業存在一個較大的的缺點,就是價格比較昂貴,且都基於傳統的集中式架構。
根據第三方統計數據,以傳統集中式數據庫市場為例,Oracle佔比40.9%、IBM DB2佔比11.9%、SQL Server佔比6.7%、SAP佔比5.9%,其餘廠商佔比分散。該市場以跨國巨頭為主,國產替代安全自主可控下的國產數據庫在未來將有很大的市場空間。
接下來再到OLAP聯機分析的數據庫。OLAP從最早的數據庫一體機,逐漸演變到MPP數據庫和Hadoop數據庫。數據庫一體機價格非常昂貴,國產替代有南大通用、人大金倉、天璣、雲和恩墨等;而MPP數據庫的實時性非常強,現在主要是Vertica、Greenplum;最後是Hadoop數據庫,有星環、中興、華為等傳統的硬件廠商在搭建Hadoop數據倉庫。根據第三方數據統計,2018年OLAP的市場規模大概在70億左右。
數據庫佔整個IT基礎架構軟件的高市場份額。根據Gartner統計,2017年全球數據庫管理軟件的規模達到388億美元,其中數據庫軟件佔到整個IT基礎架構軟件的20%。數據庫主要分兩個維度:第一個維度是關係型、非關係型,例如Oracle、MySQL、DB2、SQL Server等都屬於關係型數據庫,MongoDB、Tigergraph、neo4j、TITAN等則屬於時序數據庫即非關係型數據庫;第二個維度是OLTP和OLAP,就是聯機事務處理和聯機分析。以後的趨勢是更加關注OLAP與非關係型數據庫。
02 數據庫簡史
談及數據庫的發展歷史,就不得不提及三位數據庫領域的開拓者,分別是Frank、Micheal和Jim Gray,他們為數據庫理論奠定了堅實的基礎,都獲得了圖靈獎。早在1972年,Micheal最早提出了Ingres數據庫,於2014年獲得圖靈獎,Ingres數據庫最後分化衍生為Sybase與Postgres兩部分。其中Postgres數據庫有大量分析函數,適用於分析型事務,尤其是OLAP。1972年,埃裏森在硅谷開發了Oracle數據庫,再到1983年IBM開發了DB2數據庫,同年Tdata誕生,直到1995年MySQL數據庫誕生。而如今的Oracle於2009年收購了MySQL,這樣一來就同時擁有了Oracle和開源的MySQL兩套數據庫,MySQL的創始人在離開後又開發了一套數據庫MariaDB,現在國內有很多銀行,像億聯銀行等新的銀行都在使用MariaDB。
在此先回顧一下OLTP數據庫的發展歷程。2003-2006年,谷歌發佈了幾篇關於分佈式關係型數據庫的論文,以此為基礎2012年開發了谷歌F1作為內部自用數據庫;2014年CockroachDB研發分佈式關係型數據庫,2017年國內的劉淇團隊也成功開發了PingCAP數據庫;到了2015年,阿里巴巴的OcenaBase經過內部多年打磨最終對外推出使用。
然後是OLAP數據庫的發展歷程。OLAP最早為數據庫一體機,由IBM Netezza、Oracle Exadata、Teradata應用於高端存儲上,對於硬件要求非常高。到2000年後MPP數據庫大規模應用,成功實現了軟硬件分離,數據不再需要存儲在專有服務器上。2006年到2008年期間,隨着Hadoop的大規模普及出現第三代分析型數據庫,數據存儲與HDFS之上,能夠存儲、計算分離、實現各節點間的訪問,具有很強的擴展性能。之後在Handoop的基礎上進一步完善優化數據庫性能,稱之為最新一代數據倉庫,代表的有HAWQ、Hive、Impala等。
03 數據庫相關概念
關於最早的數據庫一體機,Oracle在收購了SUN之後開始推廣軟硬件一體機,開發了一款叫Oracle Exadata的產品,是由數據庫服務器Database Machine和存儲服務器Storage Server組成,最核心的技術是Exadata Cell,用於數據的存儲和調度,現在國內的天璣雲和恩墨也在做數據庫一體機,是通過浪潮、曙光、聯想、華為做軟硬件適配。
數據倉庫的概念。現在有許多大中型企業都在搭建數據倉庫,數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於做決策管理和全局信息共享,主要功能是將OLTP聯機事務處理產生的大量數據,通過數據挖掘、通過聯機分析,通過OLAP來幫決策者進行統計分析。
數據湖的概念。數據湖是一個存儲整個企業各種各樣原始數據的數據倉庫,其中數據可供提取、處理、分析、傳輸,數據湖可以包括來自關係數據庫的結構化數據,半結構化數據(CSV、日誌、XML、JSON),非結構化數據(電子郵件、文檔、PDF)和二進制數據(影音材料)。
數據中台的概念。數據中台是將企業內外部多源異構的數據進行採集、治理、建模、分析、應用,使得數據提升內部的優化管理,數據中台是企業數字化轉型的第一步。國內大量的企業由於系統建設的煙囱式導致了各個系統存在數據孤島,後端的精英決策層無法實時的掌握前端業務的變化,因此需要一套統一的數據中台來整合數據、整合產品,形成數據共享,為敏捷型業務提供快速決策的支持,這套方法論其實最早由阿里巴巴從國外引進並應用在整個體系中,之後才得以在國內推廣。
下圖是一個典型的數據中台的架構,按照從本地的硬件存儲和雲服務的存儲層—>計算層->數據治理層->數據應用層->業務應用層逐層上升的模式架構而成。
詳細解釋一下Hadoop和MPP的概念。Hadoop最早是Apache基金會開發的一個分佈式的系統架構,它實現了分佈式文件系統,簡稱HDFS,最大的特性是利用計算機集羣來進行高速計算和存儲,其核心是HDFS和MapReduce,HDFS是海量數據的存儲、MapReduce是海量數據的計算。
Hadoop技術的開發初衷是雅虎、谷歌等互聯網公司為了做海量的互聯網數據處理而設計的。2005年將之開源,很多公司例如MapR、Cloudera以及星環等都是利用Hadoop技術做商業化的應用。
接下來是MPP數據庫,MPP的字面意思就是大規模並行處理,主要用於實時計算場景,它和Hadoop最大的區別在於Hadoop是存儲和計算都徹底分佈,MPP則是計算分佈、存儲集中。MPP數據庫分為兩個流派:一個是有主節點的,以Greenplum為主;第二個流派是無主節點的,以Vertica為主。
簡單比較一下MPP和Hadoop:MPP是將任務並行的分散到多個服務器和節點上,每個節點各自計算,然後彙總一個結果;Hadoop應用在海量數據進行非實時的計算,它支持結構化和非結構化的數據,像互聯網公司以及數據量巨大的跨國集團,都非常適用。二者相比,MPP更加強調的實時計算,它其實是中型規模的數據運算,主要支持結構化數據,尤其是像銀行、證券、保險、基金等金融機構,強調數據計算實時性,普遍都會用Vertica和Greenplum。
04 數據庫發展趨勢
首先,由於 MPP和Hadoop各有優劣勢,於是有創業公司嘗試把MPP和Hadoop結合在一起使用。例如偶數科技利用了Hadoop的海量結構化和非結構化的特性,同時又利用了MPP實時性的優勢。
第二個趨勢是數據庫都在從集中式逐漸轉到分佈式。Gartner的報告中指出以下三點原因:第一點,隨着數據量的增加,硬件性能的瓶頸,尤其是摩爾定律的限制,傳統的集中式架構完全無法滿足客户的要求,不論是數據庫還是整個應用軟件,都有從集中式轉分佈式的趨勢;第二點,由於數據庫設計的理論存在CAP理論,即數據庫的一致性、可用性、容錯性三者不可兼得,那麼未來數據庫一定是一個分散的市場,每家的數據庫一定是各有側重點;第三點,隨着業務的發展變化,未來交易型數據庫和分析型數據庫會逐漸融合, AP和TP在融合,所以HTAP必定是數據庫的一個未來的發展方向。
第三個發展趨勢是從SQL到NoSQL。Oracle、MySQL、SQL Server大部分是二位表結構,使用SQL語言,但是隨着數據量的爆發式增長,像影音、文檔、流媒體大幅度增加,Gartner認為數據未來一定是從SQL到NoSQL的方向發展,包括:文檔數據庫、健值數據庫、圖數據庫和時序數據庫。
第四是關於NoSQL的發展趨勢,根據DB Engines第三方的統計,圖數據庫是發展最快的,搜索數據庫緊隨其後,第三是文檔數據庫,第四是健值數據庫。在圖數據庫領域有兩家明星公司——硅谷的Tigergraph和Neo4j,Tigergraph上一輪估值三億美金,由百度華創投資;還有就是文檔數據庫,代表性公司MongD已經是上市公司,估值92億美金,收入2.6億,可以看到在這個領域存在能夠實現國產替代的機會。
對數據庫發展進行總結和回顧:首先,做數據庫行業需要長時間的積累,例如Oracle從1978年開始至今已有40多年的歷史,才發展成如今的規模;第二,做數據庫一定要有一個生態,自從X86替換小型機,DB2的市場份額逐漸下降以及軟硬件分離的趨勢,導致Intel、微軟的操作系統得以普遍應用,在此生態下才有Oracle、MySQL發展壯大的機會;第三,做數據庫需要長時間的持續性投入,要幾十年如一日,例如螞蟻金服的Oceanbase、華為的高斯、騰訊的TBASE都做了很大的投入。
關於數據庫行業的探討:第一,在數據庫領域,國產數據庫發展還比較緩慢,在黨政軍領域應用較多,而在金融機構領域應用較少。國產數據庫長期被Oracle、IBM、MySQL這類產品擠壓,隨着中美貿易戰的升級、國家鼓勵軟件國產化,國產軟件將會越來越被重視,這將是一大轉變契機;第二,在國產數據庫的OLTP領域,華為、阿里、騰訊等廠商有技術優勢和資金優勢,同時也有生態和渠道的優勢;第三,創業公司進入OLTP領域門檻非常高,而在 OLAP領域,建立新一代數字據倉庫以及NoSQL數據庫方面,未來會湧現更多的創業公司,這塊可能是很多投資機構接下來要重點關注的方向。
05 數據庫和數據分析領域的優秀標的
數據庫和數據分析行業有幾家比較優秀的標的公司。
第一個是偶數科技,常雷博士最早在EMC、Pivotal做MPP數據庫研發,後來他在Apache基金會做了一個HAWQ開源的項目,成功結合了MPP的實時並行計算技術優勢和Hadoop的可擴展性,最後將其進行商業化,成立了偶數科技。全球很多大型金融傳統行業都在用其技術,偶數科技成功拿到了紅杉紅點的A輪融資並且已經融到了B輪。
Kylingence是韓卿的創業項目,他最早是eBay中國區的員工,後來在Apache基金會做開源的Kylin項目,具有相當成熟的項目經驗,該公司已經融到了C輪,
巨杉數據庫2011年成立,總部在廣州,王濤來自IBM DB2核心團隊,主要做金融級分佈式數據庫,已經進入了500多家的企業,其中包括50家的大型金融機構,恆豐、廣發、民生等很多金融機構都在用巨杉數據庫。
通過公開資料可以瞭解到,目前國內比較好的數據庫公司包括:實時數據、流數據處理比較好的有巨杉、柏睿、人大金倉、南大通用、達夢、熱璞數據庫;分析型OLAP有星環、偶數、Kyligence,創鄰科技;數據中台則有數瀾、吉貝克、御數坊、智領雲、聚雲位智;數據庫服務領域有云和恩墨、天璣、愛可生。
大數據公司列表(公開資料整理)
如下圖,是對標的已經上市的大數據公司估值和融資情況,這些都是國產數據庫未來的標杆:例如MongoDB是一個商業化公司主導的項目,同時做開源和商業化的版本;Mongo2007年成立,現在已經估值達到超過77億美金,收入2.67億;Oracle是一個長牛股,市值過千億並且還在快速發展,國內的做基礎架構軟件的公司都在分析學習Oracle;最後是圖分析領域,前文提到的Tigergraph和neo4j兩家明星公司,現在中國銀聯、VISA、Mastcard很多金融機構都在用圖分析做風控、做反欺詐,這個領域在未來有很大機會能夠實現國產替代。
對標的大數據公司估值情況(公開資料整理)
Q&A;
Q:中國的國產數據庫很多是源於開源的數據庫,中國數據庫能不能發展出比較大的開源生態?
黨成磊:首先中國有全球最大的消費市場,有PC互聯網、移動互聯網的人羣,不論2B還是2C,我認為未來數據庫一定有發展的土壤和前提條件;其次,從現狀來看,像PingCap等很多創業公司,以及華為、阿里騰訊等大型公司和越來越多的金融機構都在使用數據庫;三是IBM、Oracle、MySQL、SQL Server等外資大廠為中國培養了大量的數據庫研發人員,再加上國家層面對國產數據庫的扶持政策,相信中國數據庫能發展出比較大的開源生態,生態會越來越完善。
Q:現階段這些創業公司有沒有機會去挑戰大廠,突破以前國產數據庫廠商的天花板?
黨成磊:首先還是回到業務場景上來,先説金融機構,電信、電力、能源、交通、鐵路這些數據密集型的行業,這幾年都在幹一件事——從大型機、小型機往X86遷移,在這個過程中不管是Oracle還是IBM的DB2,分佈式將是一個必然趨勢,例如巨杉、PingCap等公司都在做分佈式關係型數據庫,這是一個技術發展的必然趨勢。
另外隨着數據量的增大,尤其是銀行,原來銀行業務主要是存款取款,現在銀行還有理財、買基金、買電影票、交水電煤氣費,信用卡分期等業務,傳統Oracle集中式關係型數據庫並不能很好滿足的業務場景,創業公司從分析型數據庫切入,是逐漸蠶食Oracle的一個方法。這次中美貿易戰,自從去年Oracle把很多美國敵對國家的數據庫服務停掉以後,這給國內數據庫廠商很大警醒,長遠來講中國肯定還是要有自己的數據庫。
Q:Oracle、DB2被替換掉以後,國內自研OceanBase、高斯、TIDB和MySQL生態的競爭會如何?自研生態中大廠和創業公司的競爭會如何?
黨成磊:這是兩個應用場景, OceanBase現在所有的客户全是金融客户,是金融關係型分佈式數據庫;而高斯其實是從開源上重構而成,在電信和金融行業應用得比較多;TIDB目前是在互聯網行業應用較多。第二個方向其實是MySQL生態,互聯網公司更傾向於使用MySQL,國內廠商做實施、集成、應用和服務。
從競爭角度來講,自研生態的技術壁壘更高,商業化和用户付費的意願更強,所以自研生態的大廠像華為、阿里、騰訊有天然的優勢。創業公司需要把產品做得足夠好,還有大量的數據場景限制,大廠綜合實力上比較強也有渠道銷售優勢,創業公司一定是自己的產品過硬,比如像PingCap或者巨杉這樣解決了客户的痛點,在大廠綜合實力沒有那麼強的時候,創業公司才能勝出。所以這個領域,我覺得確實是大廠拼綜合實力,創業公司拼技術。
Q:CAP理論是否可能被衝擊?雲數據庫未來的發展,怎麼看?
黨成磊:以阿里為例,有足夠多的技術積累也有足夠多的資金支持,在滿足一致性和容錯性的時候並沒有犧牲高可用,而是用其它軟硬件方案彌補。而CAP理論是整個數據庫設計的基礎,至少説這幾年內在數據庫設計原理方面還沒有特別大的突破。
雲化會不會對傳統數據庫的理論、架構造成衝擊,這方面多多少少是有的。首先看到現在AWS雲和谷歌雲上都有很多數據庫,雲化是一個未來,雲化也會蠶食傳統數據庫很大一部分的市場份額,但是從技術上能不能去顛覆,還有待進一步觀察和研究。
鈦資本研究院觀察
數據庫的研發與應用場景密切相關。今天,中國數字經濟規模已經達到32萬億,相當於GDP的1/3,湧現了大量新零售、新金融、新制造等數字業務場景,而這些場景從創新程度、創新規模和用户體量來看,都居世界前列。
隨着消費互聯網向產業互聯網的推進,消費互聯網的數據庫技術也在向產業和企業互聯網場景演化,特別是工業互聯網、車聯網、物聯網等大規模產業和企業互聯網,都為數據庫創新提供了前所未有的機遇。
近期又逢《中共中央國務院關於構建更加完善的要素市場化配置體制機制的意見》發佈,其中第六部分是“加快培育數據要素市場”,這標誌着中央給“數據”以新的歷史定位,不再視其為信息化的產物,而是上升到了生產要素的重要地位。
數據要素的新定位,將為中國數據庫技術發展釋放政策紅利,數據庫與數據分析將是長期看好的創業投資領域。