寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究
“一場期盼已久的變革。”

文|真梓 Ray

編輯|石亞瓊

來源|數字時氪(ID:digital36kr)

封面來源|視覺中國把冷板凳坐熱的不僅有國內的半導體企業,還有一眾國產資料庫廠商。

36氪不久前統計,在2020-2021年獲得融資的國產資料庫公司超過40家。僅2021年一年,獲得新一輪融資的企業就多達20家。這股風潮一直延續到2022年。近期,36氪分別報道了雲原生實時數倉廠商「飛輪科技」天使輪和天使+輪獲超3億元融資,以及分散式資料庫和AI PaaS平臺「天雲資料」數億元D輪融資的訊息。值得一提的是,拿下超3億元融資的「飛輪科技」,成立時間尚不足半年,不得不說是一個十分亮眼的融資成績。更多被風投佈局的專案還隱匿在水下。36氪瞭解到,即使在過冬論調四起的當下,仍有一些大廠光環加身的創業公司,大機率將以超出想象的價格完成新一輪融資。種種跡象表明,這可能是國產資料庫里程碑式的時代。至少過去,中國資料庫領域從未發生過這種連年持續的融資勝景。作為一種對資料進行增刪改查和分析的基礎軟體,資料庫起源於美國,發揚於歐美,國產資料庫的應用長期處於追隨者地位。一個核心節點是,自上世紀80年代後IBM、Oracle等海外關係型資料庫廠商紛紛入華,拿下金融、電信等領域核心客戶後,國內關係型資料庫市場(尤其是OLTP)幾乎被外企壟斷。也正因起步晚,又錯失這一主流戰場,長期以來國內資料庫企業寥寥可數。直到2010年,叫得出名字的公司只有兩位數。反觀現在,在公開盤點中,已有超200個國產資料庫浮出水面。這其中不僅有歷史較久的關係型資料庫,還包括圖資料庫、時序資料庫等新型資料庫。在每個細分領域,都有被VC高價追逐的早期專案。若順著半導體爆火的思路深究,國內創投風向的轉換或被視作這一現象出現的動因。但更本質的邏輯是,一方面,中國在過去10年間深入參與了移動浪潮,在電商、遊戲、直播等場景中打磨了IT能力;另一方面,自1999年第一批國產資料庫企業陸續成立開始,各廠商已開啟長達20年的實踐之路,相對減少了與國際對手的能力差距。所以,市場需求的迭代,和廠商們持續積累的產品能力,才是改變這場遊戲規則的主因。在此基礎上,國產化替代和全球化開放的機會,又讓國產玩家們走近舞臺中央。天時地利具備,這場發起源於2020年、綿延至2022年的國產資料庫投資熱,其實是技術演進和需求迭代下的必然結果。而投資趨勢更加硬核,成為這場必然的加速器。為更深入地觀察這場變革,本文將從資料庫的技術演進角度入手,探討國產資料庫的成長動因,同時基於新鮮一手資訊和歷史資料,剖析當下國產資料庫面臨的機遇與挑戰。具體而言,我們將重點解釋以下問題:1.多種型別資料庫的演進邏輯和分類維度2.當下資料庫領域出現的技術規律3.國內外資料庫廠商成長環境的差異4.當下資料庫廠商的不同商業路徑,及分野原因5.選擇不同商業化路徑的資料庫廠商,分別會面臨怎樣的挑戰在文末,我們也將對相關廠商進行分類,為讀者展示更全面的國產資料庫圖譜,以期幫助讀者進一步瞭解行業,理解當下的行業全景。

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

產品:分類維度多種多樣,技術規律逐漸趨同

資料庫形形色色:歷史演進下的必然作為一種歷史悠久的基礎軟體,資料庫的產生離不開飛速變化的資料生態。過去近60年間,隨著資訊化、數字化、智慧化浪潮一次次襲來,資料的規模和使用方式都發生了巨大變化。據國際資料公司(IDC)的監測,近幾年全球大資料儲量的增速每年保持在40%左右,2016年增長率甚至高達到87.21%。具體資料上,2016年-2019年四年間全球大資料儲量分別為16.1ZB、21.6ZB、33.0ZB、41ZB,儲量迅速上升。當資料量飛速上漲,各種基於大資料的應用層出不窮,承載這一切想象力的基礎軟體——資料庫,也從早期的關係型,演化出包括圖資料庫、時序資料庫、流式資料庫、記憶體資料庫、向量資料庫、資料湖等在內的多種功能形態。產品架構也從單機向分散式、雲原生等形態擴充套件。一個證明,如今DB- Engines上覆蓋的資料庫已有約400個。看著紛繁複雜的產品形態,很難想象,最初資料庫想解決的問題,其實非常簡單。上世紀六十年代,IBM等先驅開發了最早用於管理資料的系統,“資料庫”這個名字就此出現。當時,資料庫主要用來管理如倉庫存貨清單、圖書館借閱記錄一類資訊,要解決的兩大核心問題分別是資訊的儲存與查詢。比如,當圖書館中一本書被借走,對應的借閱資訊能被記錄並寫入資料庫,讀者可基於資料庫內的資訊直接查詢這本書是否已歸還。人們發現把資料拆成不同的表單,並將其中的聯絡對應,就能更高效管理資訊。這種資料庫也被稱為關係型資料庫,是最傳統也最常見的資料庫種類。後來,隨著資料種類的變化,人們又逐漸開發了適應不同場景的新型資料庫,如專注於文件儲存的文件型資料庫,記錄感測器每時每秒產生的資料的時序型資料庫等。而隨著資料量的增大,一臺機器已無法滿足資料的儲存與處理要求,因而出現了新的資料庫架構,如採用多臺機器的分散式資料庫、基於記憶體的記憶體型資料庫。到雲計算時代,又出現了依託於雲平臺的雲原生資料庫,讓資料庫也能享受雲計算的彈性與便捷。從管理小小的一間圖書館,到網際網路時代的大資料分析,隨著資料量的擴大與資料型別的增多,針對不同場景、採用不同架構的資料庫種類也越來越多。一個基本事實是,當前全世界的資料庫產品至少多達數百種。而作為一種對資料進行查詢、儲存、修改和分析的軟體,由於討論語境的側重點不同,資料庫也存在多種不同分類方式,每種分類各有側重。所以,綜合技術演進、使用者儲存查詢的資料特徵、資料規模,以及行業認可度等維度,我們將從資料格式、擴充套件能力、分析能力以及使用場景四個角度對資料庫進行分類。
寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究
資料庫分類維度

根據資料格式分類:資料格式通常被分類為結構化(structured)資料和非結構化(unstructured)資料,其中非結構化資料又包括文件型(document)資料以及鍵值對(key-value)等多種型別。在資料庫領域中,最常見的是結構化的資料,這些資料會有固定的格式,如網購的時候,一般會有訂單號、使用者 ID、商家 ID 等資訊,對於不同的網購交易來說,每筆交易資訊的格式都一樣,因此使用者可以事先定義好資料的格式(schema),此時通常會使用關係型(relational)資料庫來進行儲存。有些資料更側重文字資訊,比如微博、部落格,有大段文字資訊,與之對應的就是文件型(document)資料庫。有些資料則是簡單的鍵值對(key-value),例如使用者的 ID 與頭像,通常會有一一對應的關係,這時候可以在鍵值對型的資料庫中儲存這些資訊。根據擴充套件能力分類:資料庫可分為單機型、分散式型以及雲原生型。單機型資料庫通常只在一臺機器上執行,因而維護起來比較簡單,但擴充套件能力有限,比如最常被用作個人部落格後端的資料庫 MySQL,足以勝任幾百篇部落格的備份儲存,以及一天幾千次的訪問量;分散式資料庫一般被部署在多臺機器組成的叢集中,可以在一臺或多臺機器損壞的時候,透過多臺機器之間的備份機制,保證業務不被幹擾;雲原生資料庫則被部署在雲端,如阿里雲或者 AWS 上,由資料庫廠家進行機器的維護管理,使用者只需要按讀取次數和儲存空間的大小進行付費。根據分析能力分類:資料庫有 OLTP、OLAP 和 HTAP 三大類。OLTP 類資料庫通常用來支援線上交易,如網購時,每筆新的訂單都對應一條新的資料記錄,OLTP 類資料庫需要在極短的時間內,將這條新的記錄儲存下來;OLAP 類資料庫則更多的對應離線資料分析,如分析某個商家當月的銷售總額時,需要掃描當月所有訂單並把它們的金融累加起來,這時候需要讀取多條記錄,但使用者通常可以等待幾分鐘到幾小時;HTAP 型資料庫則同時支援 OLTP 和 OLAP 兩種型別的操作,來進行實時的資料監控,比如說當檢測到某一瞬間訂單量突然下降時,HTAP 型資料庫可以提醒使用者對系統進行檢查並及時排除故障。根據使用場景分類:除了以上提到的幾種常見的資料格式,一些特殊的使用場景下使用者會使用專門的資料庫。對於物聯網裝置每時每刻都在產生的資訊,時序資料庫會特意根據資料產生的時間來組織底層儲存結構,因而更加高效;圖資料庫更適用於可以抽象為點和線的資訊,比如銀行的交易流水,每個賬戶可以看作一個點,兩個賬戶之間的轉賬可以當作一條邊,使用圖資料庫能更快地追溯錢款的走向;此外,常見的場景還有文字檢索、流式資料分析、MapReduce 分析等,這些相應的大資料工具,也可以看作是廣義的資料庫擴充套件。市面上的資料庫公司都有自己的側重,不同公司之間的業務重點不同,也會存在重疊,因此在多個維度下,一個特定的資料庫通常會被分入多個不同的類別,比如 MySQL,既是結構化資料庫,又是單機型資料庫以及 OLTP 型資料庫。開源、分散式、分析能力被看重,技術規律逐步趨同資料庫種類繁多已經是不爭事實。不過從更宏觀的產業迭代角度,資料庫領域的技術演進,已經隨著需求變遷而產生一定共識。在這一層面,透過查閱資料並盤點新興的數十家資料庫公司,我們發現在全球範圍內,資料庫領域已經產生如下技術趨勢:程式碼開源成為主流當前,開源已是全球議題。多家公司都選擇將核心程式碼開源來獲取使用者,擴充套件功能閉源來產生利潤。選擇開源並與社群共同開發資料庫核心的有國外的PostgreSQL、MongoDB與CockroachDB,國內的TiDB等。這樣做的好處是降低使用者嘗試的成本,畢竟對於開原始碼,使用者可以自己免費編譯、部署與試用。同時,使用者也可以根據自己的需要去直接調整原始碼,使資料庫更切近自身需求。此外,來自開源社群的愛好者們也可以貢獻自己的程式碼,討論相關功能,並可以從原始碼的層面去解決使用者遇到的疑難雜症。再者,開源也被不少中小公司視作獲得客戶信任的一種方式。不過,關於開源和商業化之間的爭論也從未停止。於是,對於一些進階功能,商業公司可能會選擇閉源,比如MongoDB的企業級資料保護功能是閉源並收費的。而部分雲資料庫則選擇始終閉源,如Snowflake,畢竟大部分使用者並沒有能力在雲端部署雲原生的資料庫,而只能直接使用雲資料庫的相關服務。分散式可以讓資料庫更強大在網際網路時代之前,單機型資料庫,如MySQL,可以滿足大多中小網站的資料需要,而銀行則使用中大型機,單價不菲。在如今的大資料時代,單機已經沒辦法滿足人們對資料庫的效能要求,而分散式技術,透過增加機器的數量,可以更經濟實惠的解決使用者的資料需求,近些年新興的資料庫公司也多采用分散式的架構,如TiDB、MongoDB等。開源與分散式同時也為使用者提供了更多選擇,使用者不再被侷限在某兩三種資料庫的選擇題裡,而執行這些資料庫的機器也可以是效能較好的家用機,不再是以前成本令人生畏的中大型機,更多的中小公司有能力選擇效能更為強大的分散式叢集作為資料解決方案。但在某些實操場景中,分散式是否真的可以降本增效還存在爭議。有國內從業者指出,分散式和單機型資料庫適用的場景不一。具體而言,他認為由於分散式相較於單機會存在效能瓶頸,所以跨節點的大資料量查詢場景可能會存在瓶頸。另外,資料庫的投入需要衡量不同架構的硬體成本、運維成本等多個維度,採用何種架構才能降本增效是一個綜合性命題,不能一概而論。客戶應該依照自身業務需求綜合評判。對資料庫廠商而言,分散式帶來了新的架構變化大公司的資料庫通常會採取多層架構,像積木一樣,將資料庫分為分析層,事務層,儲存層等層次,不同的資料庫可能會使用同樣的底層程式碼。如螞蟻集團的時序資料庫CeresDB就基於OceanBase 分散式儲存引擎底座。這樣做的好處是提高了程式碼的使用率,減少了重複勞動,同時,資料庫的各個層次都可以交由專門的團隊負責,提高工程師的專注度。此外,新的架構也帶來了新的挑戰,如在單機型資料庫中,資料的儲存與計算天然就在同一臺機器中進行,而對於分散式和雲原生資料庫來說,則需要想辦法進行存算分離,以便於儲存層和計算層可以獨自擴充套件,有些使用者可能需要更多的儲存空間,其它使用者則可能需要更強的計算能力,這樣大家可以各取所需。資料庫即服務讓產品使用越來越簡單在最近的三十年裡,對使用者來言,資料庫從最初需要付費購買使用許可的軟體,變成了可以自己編譯執行的開原始碼,再變成需要自己採購多臺機器組成機群來排程使用的分散式系統,最後又成為只需要按資料的讀取次數付費的雲資料庫服務(即Database-as-a-service)。雲原生資料庫讓使用者省去了資料庫叢集維護、效能擴充套件的煩惱,也帶來了新的按讀取次數收費的模式:比如在微軟CosmosDB的serverless收費模式下,使用者並不知道微軟到底維護了多少臺機器,只需要關心自己對CosmosDB的讀取次數並以此付費,資料庫叢集的擴充套件管理工作則由使用者交給微軟來統一排程負責,使用者則可以減少工程師團隊規模並降低宕機風險。費用與安全性方面,對大部分中小公司來說,使用大廠的服務也比自行維護資料庫叢集更經濟可靠,畢竟大廠可以招聘成百上千的資料庫領域專家來專注提升資料庫服務。此外,雲廠商的資料庫通常會與雲廠商的主機有更密切的結合,使用者會更傾向於在某家雲廠商進行一站式的採購,使用同一家雲廠商的主機與資料庫。只是這樣使用者也加大了對雲廠商的依賴,當雲服務中斷的時候,使用者的業務通常也會受影響。雲平臺使多地區的資料服務成為可能依託於雲平臺,使用者可以在美國的東西海岸,或者中國的北京、深圳等地輕鬆建立多個數據中心,使用本地的資料中心來服務本地使用者,以此減少訊息延遲並滿足資料本地化的合規要求,並且,使用者也可以在異地進行資料備份。而在雲時代之前,這些多地操作需要很高的成本,因為這意味著要在不同地區部署多個機房,當時只有少數大廠才能做到。資料庫的分析能力越來越被看重傳統資料庫分為OLTP(線上交易型)與OLAP(線上分析型)兩大型別,而近些年HTAP(混合型)資料庫也更受歡迎,成為新的業界發展方向。這是因為在大資料時代,資料的分析價值越來越大,比如抖音等軟體,需要根據統計結果來提升自身推送服務的精準度,這就需要資料庫與機器學習等工具有更緊密的融合,也需要資料庫能更高效得儲存並查詢海量資料。此外,新興的資料使用場景也帶來了新興的資料庫細分市場,如文件型資料庫多使用MongoDB儲存,物聯網資料則需要流式資料庫或者時序資料庫來實時儲存查詢,也帶來了新的創業機會。

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

商業化:漫漫蟄伏期過後,國產資料庫開啟新世界

追隨者的前行產品力是科技公司的立身之本,商業化是公司綜合能力的"試金石"。但早前,由於技術源自國外、市場多被外企壟斷等因素,國內資料庫廠商一直帶著"追隨者"的標籤踽踽前行,商業想象力並不充足。不過近5~10年,情況發生了顯著變化。在墨天輪的盤點中,我們可以看到有超過200個國產資料庫已浮出水面,這其中不僅包括歷史較久的關係型資料庫,還包括圖資料庫、時序資料庫等新型資料庫。抽絲剝繭地去看,這種現象的出現,和國內資料庫行業的持續積累息息相關。其實在早前,中國資料庫學術研究的開展並不算晚。1977年,資料庫學組成立於安徽黃山會議,當時即定位於進行該領域的教學、科研等。但不可否認,國外產品在應用落地上的持續搶先,讓國內客戶首先採用了國外產品,也讓國產廠商在實踐中也多依賴於開源產品,從而錯失了自主產品的產業化機會。但在近20年裡,由於新場景的出現和移動浪潮的興起,國產資料庫的實踐也多了起來。最典型的例子就是,網際網路廠商出於自身的業務訴求,而自行開展資料庫產品的打磨。也正在這些實踐中,國產資料庫的產品應用逐步和國際接軌,縮減了差距。前文提到,全球資料庫領域已經產生程式碼開源、分散式架構、分析能力更被看重等技術趨勢。這些技術幾乎已形成全球共識,中國也不例外。比如,分散式系統的理念主要來自於Google於2003~2006年釋出的三篇論文。在這段時間裡,國內第一批資料庫公司,人大金倉、武漢達夢、南大通用相繼成立。曾有老牌國產資料庫高管告訴36氪,公司在10年前支援某大型央企的資料倉庫建設時,就被明確要求採用分散式技術。開源在國內的興起也值得一提。過去許久,開源在國內一直是“小眾運動”。但2021年,隨著PingCAP等公司更為人所知,再加上國內扶持基礎軟體生態的決心,開源也邁上新臺階。2021年,開源被寫入《“十四五”軟體和資訊科技服務業發展規劃》,這被視作開源在國內取得的一項里程碑。順此趨勢,36氪也觀察到長期處於強監管要求下的金融領域,也在2021年開展了一系列開源軟體使用方式的探討。不過另一方面,年底Log4J 2安全漏洞的爆發,又讓開源軟體的安全性備受質疑。企業如何在開放中平衡安全,成為新的話題。不論是早期就被順利實踐的分散式趨勢,還是突如其來的開源熱潮,都意味著在過去20年間,國產資料庫廠商一直在關注國際趨勢,並積累了一定技術能力。再加上國產化、雲生態帶來的新市場機會,時至當下,眾多國產資料庫迎來永珍更新的時代。以佔據市場主流關係型資料庫為例,過去在中國乃至全球OLTP市場中亮相的常是外企,直到2015年左右才零星出現了幾家新興的國產廠商。但近期36氪觀察到,至少在不少廠商對外發布的資訊裡,OLTP產品的數量已經超出了預期(當然,其中不少是基於國外開源產品的迭代)。其中除卻新興廠商的面孔,也有老牌資料庫公司釋出相關產品。另一方面,圖和時序等方向的國產廠商也不斷湧現。比如在圖資料庫中,當前我們觀察到的國產產品就有十餘個。而且由於這些領域整體較新,國產資料庫廠商暫時還不需要挑戰完全具備壟斷優勢的巨頭。曾有國產圖資料庫廠商對外表示,當前全球範圍內的圖資料庫公司,不少都還走在完善產品的過程中。總的來說,國產資料庫百花齊放的表象背後,其實隱藏著更巨大的商機——當國內產業不再和國際脫軌,資料庫廠商們面前呈現出國際化和國產替代兩種商業路徑。國際化,還是國產替代?不可否認,當前國產資料庫的產品力還有提升空間。比如不久前曾有一些調研顯示,國內OLTP類資料庫在部分場景中(如資料量大、高併發、變化速度快)和Oracle等公司的產品依然存在差距。但值得肯定的是,如今這種商業路徑選擇權的出現,在過去漫長的蟄伏期裡是難以想象的——畢竟只有滿足了技術基本不脫鉤的基本條件,全球化或者國產替代的機會才能擺在眼前。而在這個迄今為止,國內資料庫行業最好的時代中,當前國產廠商們面臨的“幸福煩惱”是,選哪條路更合適?在很大程度上,國際化和國產替代,是涇渭分明的兩條路。選擇不同路線的公司,往往也會具備一些顯性特點。在主營國際化的路徑中,一些新興的國產資料庫公司多強調雲原生、資料庫即服務等標籤,希望讓產品區別於上一代資料庫。產品之外,這類新興廠商的集中特點大致包括,創立時間不久(多成立於2017年—2021年之間)、擁抱開源、受雙幣基金追捧等。而在國產替代的世界裡,在滿足資質的條件下,不少成立許久的國產資料庫廠商主要基於關係型產品延伸,希望幫助客戶完成降低成本和自主可控的目標。在這一目標的指引下,這些廠商多具備成立時間較久、投資方多為人民幣基金,以及主打國內大中B客戶等特點。這是兩種完全不一樣的公司。而這分岔路背後所隱藏的,是國內外商業環境的整體性差異。在歐美市場,公有云與資料庫結合的路徑已被證明可行。Gartner近期的一份報告顯示,全球資料庫廠商的市場份額正藉助雲的能力獲得增長。報告中提出,過去10年間,堅定公有云戰略的廠商,在資料庫市場份額中的排名大多獲得了提升,這其中不僅包括亞馬遜、谷歌等自有資料庫產品的公有云廠商,也包括獨立資料庫公司Snowflake等。這樣做的好處很明顯,首先,資料庫公司可以和雲廠商一起服務同一個客戶。另外,資料庫公司還可以複用雲廠商的生態,減少不必要的資源消耗。而資料庫即服務的模式,也建立於雲基礎之上。這也是不少關注出海的國產資料庫廠商,和看好它們的投資人所認可的方向。但回到國內,由於國內外在商業環境上的差異,這一模式難以完全複製。原因不難理解。將公有云與資料庫的結合落地,需要雲廠商、資料庫公司和客戶的多方協作。以被國內對標多次的Snowflake為例,其目前支援Amazon AWS、Google Cloud與微軟Azure三家雲平臺。在不少解讀中,它也因為在公有云上具備中立第三方的身份而崛起。時至今日,Snowflake依然不支援私有云環境。回到國內,Gartner在今年三月釋出的指南中提出,國內甲方業務向公有云遷徙的趨勢,是中國資料庫市場增長的一大動因。不過,這一趨勢至少在當前並未大規模落定,不少大B客戶依然會出於安全、信任等方面的考慮,提出私有云或專有云的建設、更新需求。而且,目前國內私有云的市場格局也相對分散,這導致的一個現象是,底層架構不統一,國產資料庫公司單純依賴公有云廠商合作的必要性沒有海外充足。具體在產品落地層面,36氪瞭解到,早前由不同雲廠商搭建的私有云和現在公有云的平臺架構有所差異,針對公有云環境的資料庫並不能被無縫部署到不同的私有云上。對比國外,美國的私有云與公有云的標準會更統一一些,如微軟為美國國防部以及一些美國公司(如可口可樂)搭建的私有Azure雲平臺雖然在物理上與公有云獨立,但在底層架構上會更相容現有的公有云軟體,也為雲資料庫公司向這些私有云的客戶銷售自家產品提供了可能。產品架構不統一、格局分散只是一部分難點。下一個問題是,目前還有不少私有云廠商也會主打信創雲路線。而能做進國產替代市場的企業,往往需要具備背景合格、產品適用於黨政和金融等業務場景、服務細緻等能力。面對這些要求,獨立資料庫廠商應該找準自身定位。另一方面,當前國內雲生態競爭愈發激烈,雲廠商的自有產品如何與獨立資料庫廠商合作,也是下一個值得討論的問題(當然,這一問題海外也存在)。這種情況下,獨立資料庫公司能否依靠產品力等其他特點獲得合作伙伴和客戶的肯定,更成為重中之重。總體而言,國內廠商短期內或許無法將海外優解復刻到國內。這也在很大程度上造成了資料庫公司商業路線的分化——對大多數人而言,是出海尋找真正的公有云+資料庫模式,還是抓緊國產化浪潮,此時更像是單選題。

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

國際化VS國產化:不同的機會,不同的挑戰

曾有長期深耕資料庫領域的投資人告知36氪,資料庫公司的商業化路線,幾乎從創業第一天起就板上釘釘。在全球化和國產化的兩個不同世界裡,廠商亦要具備不同的通關能力。出海:最好的Global,是成為真正的Local在出海路線中,國產資料庫廠商首先會遇到產品上的競爭,同時也要適應不同國家客戶的使用習慣和銷售方式。這三大關卡的任何一環出了差錯,都可能導致全球化戰略的失敗。在這其中,技術和產品力是首要前提——如果技術底蘊不深,產品做不到全球範圍內的相對領先,那麼征戰海外大機率是場竹籃打水。而在這一前提之下,銷售、市場方面的門門道道,也在持續影響著企業出海的成功率。這樣的例子不是沒有發生過。36氪瞭解到,五六年前曾有一家細分領域的頭部軟體公司決定征戰北美市場,但最終卻由於產品無法適應當地而敗北,"其實它的產品能力很強,但美國和國內的資料傳輸格式不同,給國外的產品基本要重做。"一位接近這家公司的行業人士回顧。這導致的結果是,這家公司重新打磨產品花費成本過高,難以在不同市場中平衡,最終中美兩邊的業務都受到一定影響。但經過一段時間的持續摸索,在一些頭部公司眼中,如今這三重挑戰似乎都能指向同一個解法——“開源+雲”,這是既受國外同行的啟發,也是國內企業在出海需求下的自主摸索。在這一思路中,開源是依靠全球開發者的力量收集反饋、打磨產品的方式。同時,這也能讓產品更契合當地客戶使用習慣,併產生對品牌的認知。而云戰略的好處上文也已提及,不僅能讓資料庫等基礎軟體廠商複用其生態能力,還能讓公司的整體運營更標準化。在理想狀況下,這是一條將產品打磨和商業化緊密結合的路。但回到現實,不論是建設開源生態還是堅持雲戰略,都需要付出不少努力。尋求與公有云的契合之道,是一家公司管理層需要持續思考、堅定投入的戰略問題。做到這件事的基本前提包括,挑選可以協作的雲廠商,並基於此將產品打磨標準、適合雲交付,以及培養公司的服務能力。首先,選擇合作伙伴可能牽涉到廠商的技術投入。實操方面,資料庫廠商自身的技術架構通常也會依託並受限於底層雲平臺。如Snowflake早期選擇依賴AWS的S3作為儲存層,數年後才支援了Google與微軟的雲平臺。另外,踐行雲戰略的過程中還會存在一些另類的考驗。"現在要思考的是,我們要從一家產品、技術導向的公司,轉而更強調自己的服務、運營能力。"有正處於轉型期的公司高管坦言。這是公司整體定位的轉變,其中必然伴隨著不少企業文化、組織,乃至心理上的衝擊。“但這可能也是優勢,畢竟我們是真的勤勞,服務體驗可能更好。”有員工這樣鼓勵自己。相較之下,開源的考驗更滲透進細枝末節。在很多人的共識中,一家公司是否能做好開源,可能是“氣質”決定的。一般來說,理想的創始團隊需要具備國際化視野,比如擁有在國外技術領域長期求學、工作的經歷就是一個加分項。另外,團隊還要對當地銷售習慣有所認知,做好商業化和開源之間的平衡。這些基礎要求聽起來似乎不難,但具體的落地節奏卻仍值得細緻推敲。36氪在過去一段時間內發現,國內有不少資料庫團隊正在規劃出海細節。但就算是一些在國內已經搭建起開源生態,受到使用者肯定的廠商,在面臨出海時依然會產生擔憂。“主要是擔心文化問題。開源生態的建設在不同國家也存在文化差異,讓融入當地更加困難。”有建設開源生態近五年的資料庫廠商負責人表示,其公司在建立海外分部時,會計劃將國外辦事處和國內分開獨立運營,希望降低雙方互相干擾的可能性。類似的細節還能數出不少,比如有創業者要求公司所有的文件都是英文;還有社群的運營人員認為自家產品使用門檻較高,需要琢磨海外頭部公司程式設計師的喜好,進行針對性推廣等等。無數的細節證明,最好的Global,是成為真正的Local。這是不少新興國產資料庫廠商孜孜以求的出海效果。國內市場:國產替代正當時,金融信創或是下一個機會在第二條路線中,主打國產替代的資料庫廠商們需要滿足背景“正規”、服務意識強,以及產品自主可控、可用的要求。出於當前國產替代的進度,我們認為在黨政、金融等領域,尤其是金融信創的進展將給這類廠商提供更廣闊的空間。原因不難推斷。首先,黨政領域是國產替代的排頭兵。這些行業中,客戶的國產替代已經進行了一段時間,存量相較之前略微下降。相較而言,黨政中的“下沉市場”會是接下來國產替代的重點。而2020年金融信創一期試點推行,2021、2022年的相關工作也在按計劃推進,市場空間更為廣闊。第二,金融客戶向來重視IT投入。在疫情未散的前提下,它們是為數不多IT預算充裕的客戶。從資料看,2020年啟動的金融信創一期試點,要求信創基礎軟硬體採購額佔到其IT外採的5%-8%;2021年金融信創二期新增100餘家試點單位,信創基礎軟硬體在IT外採中佔比要求提高至10-15%。當然,這些預算既囊括基礎硬體,也包含作業系統、中介軟體等其他基礎軟體,資料庫所佔比例暫不得而知。但根據一些券商調研,信創的出現在過去兩年內整體提升了一些客戶的IT投入。當金融信創進一步放開,相信包括資料庫在內的基礎軟硬體廠商都會因此受惠。第三,出於業務特點和由此帶來的強監管要求,金融客戶對用作核心業務產品的可靠、可用性考量超過了其他種種。這雖然帶來了不少挑戰,但同時也讓不少技術能力較強,且具備完整智慧財產權的廠商更有機會參與其中。過去一段時間內,36氪觀察到不少資料庫廠商正在持續佈局金融信創。但談及真正落地,其中的難度也不可忽視。首先從產品層面,不同資料庫架構不同,國產資料庫廠商需要重視自身的產品相容性,減少遷移過程可能給客戶帶來的問題。另外,現在不少客戶是從非核心業務做起,再逐步開展對核心業務的資料庫替代工作。36氪瞭解到,從過去的一些替代實踐經驗看,廠商需要從業務提出之初就和客戶一起共創,不斷根據其需求打磨產品,最終完成上線。這一過程可能耗費三年以上的時間。再者,信創是一個系統工程,從下層的基礎軟硬體到上游的應用系統均屬其中。資料庫廠商作為其中的一個角色,也需要和各類廠商合作,為客戶提供解決方案式的體驗。這其中,產品間的相容是一個重頭戲。我們瞭解到,有廠商每年花費在不同廠商、不同產品適配工作上的資金達到千萬元級別。當然還需要明確的一點是,目前狹義的國產替代主要指關係型資料庫層面。但在其他型別中,如圖資料庫領域,國內產品也有一定替代國外產品的空間。而且,出於各種考慮,不少外企也有退出國內市場的動作。這部分空餘的市場空間也是國產廠商的新機會。總而言之,國產替代對國內不少企業而言意味著新空間,但這勢必也是一場攻堅戰。主攻於此的資料庫廠商需要具備戰略定力,在產品、服務等方面針對性地進行長期投入。

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

多種多樣的參與者(按公司和其主要產品劃分)

不論是技術規律還是商業規律,都要落地到具體公司的實踐中。在這一章節,36氪將按照不同分類,細緻展示我們觀察到的資料庫領域參與者。需要提前宣告的是,以下公司及產品主要按照首字母排序,沒有引申意義上的先後之分;另外,下文展示也不代表行業全貌,歡迎讀者持續補充行業玩家;再者,由於資料庫分類維度眾多,一個數據庫可能具備多種特點,本文展示僅提供參考價值。

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

資料庫分類維度

按分析能力:OLTP 及 HTAP型別根據分析能力,資料庫可以分為 OLTP 與 OLAP 兩大類。一方面,資料庫要支援資料記錄的增加修改,如網路商城的交易(transaction),這類操作被稱為 OLTP(線上事務處理, Online Transaction Processing),另一方面,資料庫也需要支援複雜的查詢操作,比如說某個地區一個月之內銷售額超過 10 萬元的商家所在的城市,這類操作被稱為 OLAP(線上分析處理,Online Analytical Processing)。此外,近些年有些新的資料庫可以同時支援 OLTP 與 OLAP 操作,因此被稱為 HTAP 型(混合事務分析處理,Hybrid transactional/analytical processing),另外,由於HTAP是兩種功能交織的產品,在本文中將會與OLTP和OLAP一同介紹。具體某個HTAP產品放在OLTP板塊還是OLAP板塊,主要依據公開資料中的描述進行判斷。但整體而言,HTAP兼具兩種功能,這裡的分類僅供讀者參考。OLTP 型資料庫:單機型、分散式和雲原生單機型資料庫最初的應用場景之一是賬本。大家外出購物時,家門口的小賣部的老闆可能會用紙和筆來透過寫寫畫畫的方式,記錄下每天的銷售額和對應的貨物清單,而大型超市則是透過掃碼槍來自動記錄生成售貨記錄,比如說在今天的下午三點,賣出一瓶礦泉水,價格是 1 塊錢。在這裡,“下午三點、礦泉水、1 塊錢”這三條資訊,便會作為一條記錄(record),被儲存到資料庫中,以備將來查詢。對於個體商家來說,一般來講一臺計算機就能儲存並處理所需資料,所需要的軟體也就是單機資料庫。現在比較常見的單機資料庫有 MySQL 與 PostgreSQL。前者最早釋出於 1995 年,由一家瑞典公司研發,後者則是在 1996 年由美國加州大學伯克利分校立項。這兩者都秉承著開源,免費的原則,同時擁有成熟的社群與豐富的文件,因此廣受中小企業的歡迎。分散式單機型資料庫可以解決小商戶的資料管理痛點。當生意越做越大時,客戶需要的資料量也許會超出現有機器的儲存能力。對於這種業務擴張的需求,業界一般有兩種手段,一種是縱向擴充套件(scale up),也就是透過購買更先進的硬體,在現有機器數量不變的情況下,對現有的機器進行升級。這種手段的好處是機器的數量比較小,管理起來更加方便,也不需要採取更復雜的軟體架構。銀行業更傾向於採用這樣的手段,銀行業使用的機器,比如工商銀行採用的 IBM 大型機,效能之強勁,價格之高昂,也不是中小公司能承受的,坊間相傳這樣的一臺大型機售價幾千萬人民幣甚至更高。另一種更親民的手段則是橫向擴充套件(scale out),透過增加更多機器的手段來提供更強的儲存與查詢能力。這時候我們就需要用到分散式資料庫了。分散式資料庫在設計之初,就面對的是多臺機器的場景,同一套資料庫軟體,被部署到多臺機器上,這些機器彼此透過網路進行連線,從而形成一個數據庫叢集(cluster)。在這個宏大的叢集中,透過一定的分割(partition)演算法,每臺機器都會分配到自己能夠處理的一小塊資料。同時,多臺機器之間可以互相的實時備份(replication),這樣就算是有一臺甚至多臺機器出現故障的時候,這個分散式資料庫叢集依然可以正常工作。得益於親民的價格以及良好的擴充套件性,分散式資料庫被視為業界最近的發展方向。雲原生以前的資料庫,需要軟體公司或者網際網路公司自己採購機器,並且在這幾臺或幾十臺機器上部署單機或者分散式的資料庫,這種方式也被稱為本地部署(on-premise)。時至今日,雲計算使得大家可以透過在雲上租機器,甚至租服務的方式,來使用資料庫,這被稱為雲端部署(off-premise, cloud computing)。一方面,現有的分散式資料庫可以從本地移到雲端,來更方便大家使用,並把資料庫的安裝,部署和維護工作都交給雲平臺上的專業人士完成,另一方面,雲原生(cloud-native)資料庫也帶來了一些新的思路:更易擴充套件(better scalability): 當需要更多機器的時候,在雲端可以在幾分鐘的時間裡完成租用新機器並新增進資料庫叢集的操作,而如果資料庫是部署在本地的話,大家不太可能在短時間內購買新的物理機來增加叢集中機器的數量。如今的一些雲資料庫服務,會在後臺進行機器的增減,在使用者業務量突然增大的時候,自動進行效能的擴充套件,不需要使用者操心具體的機器數量。多租戶出租(multi-tenant): 傳統資料庫更多的是隻服務一位客戶,在雲端則沒有這個限制,一臺資料庫機器可以滿足多位客戶的不同的讀寫需求。在做好不同客戶之前的資料隔離的前提下,透過服務更多客戶,雲資料庫可以進一步壓縮成本,降低收費標準。異地備份: 大型的網際網路公司會有資料異地備份的需求,一方面是應對某一地區的資料中心完全失效的情況,比如說發生火災或地震這種大規模的不可抗力,另一方面,也是為了減少不同地區之間的資料延遲(latency),像是美國的東西海岸,中國的北京和深圳,都隔著遙遠的距離,如果所需的資料在本地區的資料中心中有備份,那就不需要再從其它地區讀取資料。中小型公司一般不會有異地機房,因此借用雲廠商的基礎設施,可以更好的保證自身資料安全。雲原生資料庫有兩類重量級玩家,一種是雲廠商本身,如 Amazon 的 AWS、微軟的 Azure,這種雲廠商自身的資料庫可以很好地和自身的其它服務結合起來,比如 AWS 的機器(VM)可以更快的讀取 AWS 的資料庫,而讀取其它地方的資料庫就要慢一些。同時,雲廠商為自家資料庫提供了同樣高質量的客服。另一類玩家則是獨立的第三方資料庫公司,如 MongoDB 的雲資料庫,使用者可以選擇依託 AWS,Azure 或者 Google Cloud,不管使用者依託哪個雲平臺,使用者都能享受 MongoDB 同樣的服務。這樣做的好處是,使用者不受限於某家特定的雲廠商,因而在定價方面有了更多的自主權。另外,當某一家雲廠商發生問題的時候,使用者可以快速遷移到同地區的另一家雲廠商,使自己的客戶不受影響。在這一部分,我們重點羅列的公司和產品有:阿里巴巴:AliSQL簡介:AliSQL 是基於 MySQL 官方版本的一個分支,由阿里雲資料庫團隊維護,目前也應用於阿里巴巴集團業務以及阿里雲資料庫服務。該版本在社群版的基礎上做了大量的效能與功能的最佳化改進。尤其適合電商、雲計算以及金融等行業環境。阿里巴巴:PolarDB簡介:PolarDB 是阿里巴巴自主研發的下一代關係型分散式雲原生資料庫,目前相容三種資料庫引擎:MySQL、PostgreSQL、高度相容 Oracle 語法。計算能力最高可擴充套件至 1000 核以上,儲存容量最高可達 100T。經過阿里巴巴雙十一活動的最佳實踐,讓使用者既享受到開源的靈活性與價格,又享受到商業資料庫的高效能和安全性。百度:BaikalDB簡介:BaikalDB 是百度推出的一個分散式增強型結構化資料庫系統。它支援 PB 級結構資料的順序和隨機實時讀/寫。BaikalDB 相容 MySQL 協議,支援 MySQL 風格的 SQL 方言,使用者可以透過它無縫將資料儲存從 MySQL 遷移到 BaikalDB。柏睿:Rapids TXDB簡介:Rapids TXDB 是一款企業級交易型資料庫系統,是柏睿資料基於 OpenGauss 開發推出並提供技術支援服務的商業發行版本,可為各行業客戶的交易型(OLTP)應用場景提供安全、穩定、快速的聯機事務處理支援。達夢資料庫:DM8簡介:DM8是達夢公司在總結DM系列產品研發與應用經驗的基礎上,推出的新一代自研資料庫。DM8融合了分散式、彈性計算與雲計算的優勢,對靈活性、易用性、可靠性、高安全性等方面進行了改進,支援超大規模併發事務處理和事務-分析混合型業務處理。國網信通和創意資訊聯合釋出:思極有容簡介:“思極有容”資料庫是一款國產自主可控的分散式關係型資料庫,支援國產 CPU、作業系統生態,支援雲平臺和容器。在安全方面,設定多種許可權訪問、審計、流量控制機制,實現真正資源隔離。產品採用當前分散式技術,提供多種隔離級別,保障完整分散式事務。瀚高資料庫:HighGo DB簡介:HighGo DB是一款企業級OLTP資料庫。其專注於企業級市場,在承擔海量資料、高併發的複雜業務應用方面表現較為突出,能夠滿足企業級應用對資料管理的需求。航天紫光:CASICloud DBCP簡介:航天天域資料庫管理系統 CASICloud DBCP 是由北京航天紫光科技自主研發的基於無共享架構的企業級分散式關係型資料庫,具備高效能、高可用、跨平臺、線性擴充套件等特性,並且具備強事務處理能力,同時支援分析。恆生電子:LightDB簡介:LightDB 是恆生電子股份有限公司研發並將長期支援的一款同時支援線上事務處理與線上分析處理的融合型分散式資料庫產品。它是一款基於 PostgreSQL 的關係型資料庫,99%相容 PostgreSQL,主要針對金融業務場景最佳化。華東師範大學資料科學與工程學院:Cedar簡介:Cedar是由華東師範大學資料科學與工程學院基於OceanBase 0.4.2研發的高通量、可伸縮、高可用的分散式關係資料庫。華為:openGauss簡介:openGauss是一款開源關係型資料庫管理系統,採用木蘭寬鬆許可證v2發行。openGauss核心深度融合華為在資料庫領域多年的經驗,核心源自PostgreSQL,並著重在架構、事務、儲存引擎、最佳化器等方向持續構建競爭力特性,在ARM架構的晶片上深度最佳化,併兼容X86架構。京東:StarDB簡介:StarDB 是京東自主設計研發的一款金融級國產分散式資料庫,支援海量資料高併發線上事務處理,具備無感分散式、金融級高可用、高度相容 MySQL、彈性伸縮、安全合規、智慧運維管控等重要功能特性。巨杉資料庫:SequoiaDB簡介:SequoiaDB 巨杉資料庫是一款金融級分散式資料庫,目前在超過 50 家大型銀行核心生產業務規模應用,主要面對高併發聯機交易型場景提供高效能、可靠穩定以及無限水平擴充套件的資料庫服務。科藍:Goldilocks DBMS簡介:Goldilocks DBMS 是由科藍軟體研發的擁有獨立智慧財產權的 RDBMS,適合需要 24 小時穩定執行和高效能的交易型單機版及分散式系統使用。螞蟻集團:OceanBase簡介:OceanBase 是由螞蟻集團完全自主研發的企業級分散式關係資料庫,基於分散式架構和通用伺服器、實現了金融級可靠性及資料一致性,擁有 100%的智慧財產權,始創於 2010 年。OceanBase 具有資料強一致、高可用、高效能、線上擴充套件、高度相容 SQL 標準和主流關係資料庫、低成本等特點。南大通用:GBase 8s簡介:GBase 8s是天津南大通用資料技術股份有限公司自主研發的企業級分散式事務型資料庫。支援分散式部署、集中式部署、共享儲存高可用部署、支援兩地三中心高可用部署。GBase 8s適用於OLTP 應用場景。GBase 8c簡介:分散式交易型資料庫GBase 8c是一款shared nothing架構的分散式交易型資料庫,具備高效能、高可用、低成本、資源排程精細化、叢集運維智慧化等特性,可以為金融核心系統、網際網路業務系統和政企業務系統提供安全、穩定、可靠的資料儲存和管理服務。PingCAP:TiDB簡介:TiDB 是 PingCAP 公司自主設計、研發的開源分散式關係型資料庫,是一款同時支援線上事務處理與線上分析處理的融合型分散式資料庫產品。目標是為使用者提供一站式 OLTP、OLAP 、HTAP 解決方案。TiDB 適合高可用、強一致要求較高、資料規模較大等各種應用場景。熱璞資料庫:HotDB Server簡介:HotDB Server 是一款實現資料容量和效能橫向擴充套件的交易關係型分散式事務資料庫產品。它相容主流資料庫協議和 SQL92/SQL99/SQL2003 標準語法,支援自動水平拆分和垂直拆分,能在資料儲存分散式化環境下為應用提供集中式資料庫的操作體驗。人大金倉:KingbaseES簡介:KingbaseES是一款面向事務處理應用,兼顧簡單分析應用的企業級關係型資料庫,產品融合了金倉在資料庫領域多年的產品研發經驗和企業級應用經驗,可滿足各行業使用者多種場景的資料處理需求。神舟通用:神通資料庫管理系統簡介:神通資料庫管理系統是天津神舟通用資料技術有限公司自主研發的大型通用資料庫產品,擁有全文檢索、層次查詢、結果集快取、並行資料遷移、雙機熱備、水平分割槽、並行查詢和資料庫叢集等增強型功能,並具有海量資料管理和大規模併發處理能力。騰訊:TDSQL MySQL版簡介:TDSQL MySQL版(TDSQL for MySQL)是部署在騰訊雲上的一種支援自動水平拆分、Shared Nothing 架構的分散式資料庫。TDSQL MySQL版 預設部署主備架構,提供容災、備份、恢復、監控、遷移等全套解決方案,適用於 TB 或 PB 級的海量資料庫場景。騰訊:TDSQL PostgreSQL版 (原TBase)簡介:TDSQL PostgreSQL版(TDSQL for PostgreSQL, 原 TBase)是騰訊自主研發的分散式資料庫系統,具備高 SQL 相容度、完整分散式事務、高安全、高擴充套件、多級容災等能力,成功應用在金融、政府、電信等行業核心業務中。萬里開源:GreatDB簡介:GreatDB 分散式是一款原生分散式關係型資料庫軟體,具有動態擴充套件、資料強一致、叢集高可用等特性。採用 shared-nothing 架構,基於資料冗餘與副本管理確保資料庫穩定可靠,基於資料 sharding 與 mpp 技術實現高效能,並具備動態擴充套件資料節點能力。目前已廣泛應用於金融、運營商、能源、政府、網際網路等行業核心系統,相容國產作業系統、晶片等國產軟硬體生態。新華三:SeaSQL DRDS分散式事務資料庫簡介:H3C SeaSQL DRDS是一款實現資料容量和效能橫向擴充套件的交易關係型分散式事務資料庫產品。它相容主流資料庫協議和 SQL92/SQL99標準語法,支援自動水平拆分和垂直拆分,能在資料儲存分散式化環境下為應用提供集中式資料庫的操作體驗。星環科技:KunDB簡介:KunDB 是星環分散式交易型資料庫。公司介紹,其實高度相容 MySQL、Oracle的國產分散式交易型資料庫,為企業核心業務資料庫建設提供完備的能力支撐和可靠的國產化遷移方案。亞信科技:AISWare AntDB簡介:AntDB是一款通用企業級,高可用、高效能的原生分散式關係型資料庫,憑多年技術累積面向電信、政務、能源、金融、交通等行業精心打造。該產品採用了原生分散式架構,實現了線上彈性伸縮和分散式強一致,全面相容MySQL、PostgreSQL 並支援SQL 2016標準。易鯨捷:QianBase xTP簡介:面向大中型銀行的新一代雲原生分散式核心交易資料庫。雲和恩墨:MogDB簡介:MogDB 是雲和恩墨基於 openGauss 開源資料庫進行定製、推出的企業發行版。澤拓科技:崑崙資料庫簡介:崑崙資料庫是澤拓科技研發的NewSQL分散式關係資料庫,面向TB和PB級別海量資料處理,以高吞吐量和低延時處理海量高併發讀寫請求。它提供事務ACID保障,高可擴充套件性,高可用性和透明的分庫分表資料處理功能。中興通訊:GoldenDB簡介:針對銀行 OLTP 業務,中興通訊分散式資料庫 GoldenDB 為業務帶來傳統單機資料庫無法提供的計算及擴充套件能力,提供高可用、高可靠、資源排程靈活的資料庫服務,支援金融行業已有業務升級及創新業務快速部署的需求。Amazon:Aurora簡介: Amazon Aurora 是一種與 MySQL 和 PostgreSQL 相容的關係資料庫,專為雲而打造,既具有傳統企業資料庫的效能和可用性,又具有開源資料庫的簡單性和成本效益。Amazon Aurora 的速度最高可以達到標準 MySQL 資料庫的五倍、標準 PostgreSQL 資料庫的三倍。它可以實現商用資料庫的安全性、可用性和可靠性,而成本只有商用資料庫的 1/10。Amazon Aurora 由 Amazon Relational Database Service (RDS) 完全託管,RDS 可以自動執行各種耗時的管理任務,例如硬體預置以及資料庫設定、修補和備份。Amazon Aurora 採用一種有容錯能力並且可以自我修復的分散式儲存系統,這一系統可以把每個資料庫例項擴充套件到最高 128TB。它具備高效能和高可用性,支援最多 15 個低延遲讀取副本、時間點恢復、持續備份到 Amazon S3,還支援跨三個可用區複製。Amazon:Keyspaces簡介:Amazon Keyspaces(for Apache Cassandra)是一種可擴充套件、高度可用、託管式 Apache Cassandra 相容資料庫服務。藉助 Amazon Keyspaces,使用者可以繼續使用當前的相同 Cassandra 應用程式程式碼和開發人員工具在 AWS 上執行 Cassandra 工作負載,而無需預置、修補或管理伺服器,並且不需要安裝、維護或操作軟體。Amazon Keyspaces 是無伺服器服務,因此您只需為實際使用的資源付費,並且該服務會根據應用程式流量自動擴充套件和縮減表。Apache Cassandra簡介:Apache Cassandra(一般被簡稱為 C*)是由 Facebook 開發並開源的分散式資料庫系統,具有良好的擴充套件性,可以動態的在執行過程中進行機器數量的加減,但並不支援太過複雜的 SQL 操作。Cassandra 採用寬列儲存模型,每一行資料都由唯一的 key 標識,並可以有多列,類似於二維的鍵值儲存。Cassandra 本身開源,並由開源社群進行維護,因此眾多雲廠商基於開源版本,都提供了各自的 Cassandra 雲服務。Cockroach Labs:CockarochDB簡介: CockroachDB的目標是打造一個開源、可伸縮、跨地域複製且相容事務的 ACID 特性的分散式資料庫。據介紹,它不僅能實現全域性(多資料中心)的一致性,而且保證了資料庫的生存能力,就像 Cockroach(蟑螂)這個名字一樣,是打不死的小強。CockroachDB 的思路源自 Google 的全球性分散式資料庫 Spanner。其理念是將資料分佈在多資料中心的多臺伺服器上,實現一個可擴充套件,多版本,全球分散式並支援同步複製的資料庫。2021年12月,Cockroach Labs進行了F輪融資,共融資2.78億美元,估值50億美元。Couchbase簡介: Couchbase 是一個高效能、分散式、面向文件的NoSQL資料庫。Couchbase 提供了一些和其他一些領先的NoSQL資料庫相似的功能或者增強功能。Couchbase是MemBase與couchDB這兩個NoSQL資料庫的合併的產物,擁有CouchDB的簡單和可靠以及Memcached的高效能。Couchbase於2021年7月在美國納斯達克交易所進行IPO,目前市值8億美元左右。FaunaDB簡介:FaunaDB是一個靈活,使用者友好的,支援事務的資料庫。Fauna支援原生GraphSQL,同時,Fauna的資料庫服務是以安全可擴充套件的雲API的形式來提供,以此來讓使用者無需操心資料庫的機器數量,擴充套件,分片,備份等諸多問題。2020年7月Fauna進行了A輪融資,共計2700萬美元。Google:Google Cloud Spanner簡介: Cloud Spanner是一項完全託管式用於關鍵任務的關係型資料庫服務,可提供全球範圍的事務一致性、自動同步複製功能以實現高可用性,以及對兩種 SQL 方言的支援:Google 標準 SQL(ANSI 2011 及擴充套件程式)和PostgreSQL。Google:Google Bigtable簡介:Bigtable是Google研發並商用的全代管式可擴縮的 NoSQL 資料庫服務,用於處理大規模分析和運營工作負載,可用性達 99.999%。其具有以下的特點:延遲時間始終在 10 毫秒以內,每秒可處理數百萬個請求; 非常適合個性化、廣告技術、金融技術、數字媒體和 IoT 等使用場景; 可根據使用者的儲存需求無縫擴縮;重新配置時無需停機; 採用適合機器學習應用的儲存引擎設計,可提升預測效果; 可輕鬆連線到 Google Cloud 服務(例如 BigQuery)或 Apache 生態系統。IBM : DB2介紹:IBM DB2 是美國 IBM 公司開發的一套關係型資料庫管理系統,它主要的執行環境為 UNIX(包括 IBM 自家的 AIX)、Linux、IBM i(舊稱 OS/400)、z/OS,以及 Windows 伺服器版本。DB2 主要應用於大型應用系統,具有較好的可伸縮性,可支援從大型機到單使用者環境,應用於所有常見的伺服器作業系統平臺下。DB2 採用了資料分級技術,能夠使大型機資料很方便地下載到 LAN 資料庫伺服器,使得客戶機/伺服器使用者和基於 LAN 的應用程式可以訪問大型機資料,並使資料庫本地化及遠端連線透明化。DB2 以擁有一個非常完備的查詢最佳化器而著稱,其外部連線改善了查詢效能,並支援多工並行查詢。DB2 具有很好的網路支援能力,每個子系統可以連線十幾萬個分散式使用者,可同時啟用上千個活動執行緒,對大型分散式應用系統尤為適用。MariaDB:MariaDB Enterprise、SkySQL簡介:MariaDB 是 MySQL 資料庫在 Oracle 公司之外的獨立分枝,由原 MySQL 團隊的部分創始成員開發,並高度相容 MySQL。這些 MySQL 團隊成員擔心 MySQL 被 Oracle 公司收購之後,會帶來一系列的法律和產權問題,因此創立了一條新的開源分支。如今MariaDB也在進行迭代,比如SkySQL是MariaDB Enterprise資料庫的雲服務版本,提供database-as-a-service (DBaaS)功能。其整合了豐富而強大的資料庫功能,簡單易用,並且高度自動化。Microsoft:Azure Cosmos DB簡介: Azure Cosmos DB 是一種用於現代應用開發的完全託管式NoSQL資料庫服務。具有有保證的個位數毫秒級響應時間和由SLA支援的99.999%可用性、自動、即時的可伸縮性,以及用於MongoDB和Cassandra的開放原始碼API。藉助統包資料複製和多區域寫入,在世界任何地方都能進行快速讀寫操作。Microsoft:SQL Server簡介:SQL Server 是 Microsoft 公司推出的關係型資料庫管理系統。具有使用方便可伸縮性好與相關軟體整合程度高等優點,可跨越從執行 Microsoft Windows 98 到執行 Microsoft Windows 2012 的大型多處理器的伺服器等多種平臺使用。MongoDB Inc.:MongoDB簡介:MongoDB 是一種面向文件的資料庫系統,主要管理類似於 JSON 格式的文件型資料。由總部位於美國紐約的MongoDB Inc.公司研發,並於 2009 年首次釋出開源版本。MongoDB 採用主從式架構,以此來保證資料的高可用性與可靠性。使用者可以自行部署 MongoDB 叢集,也可以付費使用 MongoDB 的雲資料庫服務。MySQL簡介:MySQL 是一個關係型資料庫管理系統,現屬於 Oracle 旗下產品,是最流行的關係型資料庫管理系統之一。MySQL 軟體採用了雙授權政策,分為社群版和商業版,由於其體積小、速度快、總體擁有成本低,尤其是開放原始碼這一特點,一般中小型網站的開發都選擇 MySQL作為網站資料庫。Oracle:Oracle Database簡介::Oracle Database,又名 Oracle RDBMS,或簡稱 Oracle。是 甲骨文公司的一款關係資料庫管理系統 。它在資料庫領域一直處於領先地位的產品,可以說是世界上流行的關係資料庫管理系統。PostgreSQL簡介:PostgreSQL 是一種特性非常齊全的自由軟體的物件-關係型資料庫管理系統(ORDBMS),是以加州大學計算機系開發的 POSTGRES4.2 版本為基礎的物件關係型資料庫管理系統。PostgreSQL 支援大部分的 SQL 標準並且提供了很多其他現代特性,如複雜查詢、外來鍵 、觸發器、檢視、事務完整性、多版本併發控制等。同樣,PostgreSQL也可以用許多方法擴充套件,例如透過增加新的資料型別、函式、運算子、聚集函式 索引方法、過程語言等。另外,因為許可證的靈活,任何人都可以以任何目的免費使用、修改和分發PostgreSQL。YugabyteDB簡介:YugabyteDB是一款開源,高效能,雲原生的分散式資料庫,致力於相容PostgreSQL所有的特性。它適用於需要高實時性,高可靠性與高資料一致性的雲原生應用,同時,它提供了高擴充套件性,高容錯性與全球部署的可能。按分析能力:OLAP 型與HTAP型資料庫前文講到的資料庫大多是 OLTP 型別,更關注於對交易與線上業務的支援,而分析型的 OLAP 資料庫則更有助於使用者瞭解自己的業務現狀,並對已有的資料進行分析處理。OLTP 和 OLAP 有很大的交集,但是側重點不一樣,比如說網路商城的 OLTP 資料庫需要應對非常多的使用者,非常高的併發量,但每條交易可能只是短短的一條購買記錄,而 OLAP的使用者則多為企業內部人員,需要週期性的對資料進行分析,比如生成周報來分析產品銷量。OLAP 資料庫的併發量要低很多,畢竟一般只限內部人員使用,但是資料的讀取量會大很多,經常需要對這一週的所有使用者購買資料進行逐一掃描,相關的查詢也會更加複雜,因此需要更長的查詢時間,比如幾小時之後才能生成對應的週報。在OLAP型資料庫中,比較常見的概念之一是資料倉庫。進入雲時代以來,為了更好的分析資料,資料倉庫(data warehouse)的概念應運而生。使用者在產生資料的同時,把相應的資料上傳到資料倉庫中,之後就可以在資料倉庫中進行相應的查詢。在資料倉庫這個領域最引人注目的玩家就是前面提到的 Snowflake。作為軟體史上最大的IPO之一,Snowflake上市當天股票就翻番,現在的市值在450億美元左右。這一章節我們將盤點業內的 OLAP 型資料庫,以及一些相容OLTP與OLAP操作的HTAP型資料庫。同樣如前文提及,具體某個HTAP產品放在OLTP板塊還是OLAP板塊,主要依據一些公開資料中的描述判斷。但整體而言,HTAP兼具兩種功能,這裡的分類僅供讀者參考。在這一部分,我們關注到的公司和產品有:Apache Doris簡介:Apache Doris是由百度開源並貢獻給Apache的MPP架構OLAP資料庫,以極速易用的特性被業內所熟知,支援標準SQL併兼容MySQL協議,僅需秒級響應時間可返回海量資料下的查詢結果,可有效支援實時分析、互動式分析等多種需求場景。Apache HAWQ簡介:Apache HAWQ是面向企業使用者的先進大規模分散式分析型資料庫,完整支援SQL規範並提供優秀的大資料分析效能表現。Apache HAWQ於2018年8月15日正式畢業。Apache Kylin簡介:Apache Kylin™ (麒麟)是一個開源的分散式大資料分析資料倉庫;它旨在提供大資料時代的OLAP(線上分析處理)能力。透過在 Hadoop 和 Spark 上革新多維立方體和預計算技術,Kylin 能夠在資料量不斷增長的情況下實現接近恆定的查詢速度,將查詢延遲從幾分鐘減少到亞秒級。阿里巴巴:AnalyticDB簡介:AnalyticDB 是阿里雲自主研發的雲原生資料倉庫,採用儲存計算分離+多副本架構,支援最大 5000 節點規模的彈性擴容,對複雜 SQL 查詢速度比傳統的關係型資料庫快 10 倍以上。不同於複雜、高門檻的大資料體系,AnalyticDB 高度相容 MySQL、PostgreSQL,Oracle 應用遷移成本低,可對萬億級別的資料進行實時的多維度分析透視,極大地提升了企業挖掘資料價值效率。柏睿:分散式分析型資料庫 Rapids UXDB介紹:Rapids UXDB 是一款具備大規模並行處理能力的企業級關係型資料庫,採用 MPP 架構,支援 1000+節點擴充套件。面向智慧資料分析(OLAP)應用場景,提供 EB 級資料的複雜資料分析能力。達夢資料庫:達夢分析型大規模資料處理叢集DMMPP簡介:達夢分析型大規模資料處理叢集軟體(DMMPP)是基於達夢資料庫管理系統研發的完全對等無共享式的並行叢集元件,支援將多個DM8節點組織為一個平行計算網路,對外提供統一的資料庫服務,最多可支援1024個節點,支援TB到PB級的資料儲存與分析,並提供高可用性和動態擴充套件能力,是超大型資料應用的高性價比通用解決方案。鼎石縱橫:StarRocks簡介:StarRocks 是一款開源的新一代極速全場景 MPP 資料庫。它採用新一代的彈性 MPP 架構,可以高效支援海量資料的多維分析、實時分析、高併發分析等多種資料分析場景。它採用了全面向量化技術。StarRocks 的目標是成為新一代流批融合的極速湖倉(Lakehouse)。東方國信:CirroData-AP簡介:CirroData-AP 分散式雲化資料庫面向海量資料分析型應用領域,便於使用者管理全量資料,進行快速的統計分析,進而獲得資料驅動的商業洞察。CirroData 採用了計算和儲存分離的技術架構,融合了分散式儲存和 MPP 平行計算的各自優勢,不但可以實現雲平臺上的伸縮擴充套件能力,而且可以提供隨需部署的能力。東軟:思來得資料倉庫簡介:Neusoft Select Data Warehous(簡稱東軟思來得)是東軟專家團隊基於MPP架構,採用Pivotal Greenplum開源平臺打造的擁有自主智慧財產權的,適用於雲原生環境的分散式資料庫。為企業提供海量資料的管控及並行處理的能力,為IT架構的靈活擴充套件提供堅實可靠的資料底座。飛輪科技:SelectDB簡介:基於Doris核心的雲原生髮行版SelectDB,是執行在雲上的實時資料倉庫,為使用者和客戶提供開箱即用的能力。據介紹,其主要的特色功能體現在:充分發揮彈性雲計算、彈性雲端儲存的優勢,實現高性價比;提供視覺化、易用的管控平臺和使用者互動開發平臺。跬智科技:Kyligence簡介:Kyligence全場景OLAP,透過有機融合 Apache Kylin 與 ClickHouse,全面覆蓋各類分析場景,使用者無需維護複雜的資料平臺,即可獲得統一的查詢分析體驗。瀚高資料庫:HGDW簡介:瀚高資料倉庫是一款基於大規模並行技術的資料倉庫軟體,具備無共享、高效能、高可用、擴充套件容易、海量資料處理等特性。可以為超大規模資料管理提供高性價比的通用計算平臺,廣泛用於支撐各類資料倉庫系統、BI系統和決策支援系統。火山引擎:ByteHouse簡介:ByteHouse 是火山引擎基於ClickHouse研發的一款分析型資料庫產品,能夠對 PB 級海量資料進行高效分析。目前,在位元組跳動內部,ByteHouse已經支援了80%的分析應用,能夠高效賦能精準營銷、廣告效果評估、增長分析等多種場景。聚雲位智:Linkoop DB/ZettaBase簡介:這是一款擁有核心專利的純國產自研企業級人工智慧資料庫,吸收了 MPP 庫和 Hadoop 兩種技術路線的特長,以企業級分析型資料庫能力為基礎核心,增強了流式計算和人工智慧計算能力,並且可以統一使用 SQL 驅動。當前公司產品已經覆蓋了電信、公安、軍工、金融等領域,場景包括智慧醫療、智慧製造、精準營銷、輿情分析等場景。酷克資料科技:HashData簡介:HashData資料倉庫融合了MPP資料庫的高效能和豐富分析功能、大資料平臺的擴充套件性和靈活性,以及雲計算的彈性和敏捷性,以創新性的元資料、計算和儲存三者分離的架構,提供了傳統解決方案做不到的高併發、彈性、易用性、高可用性、高效能和擴充套件性。浪潮:K-DB(m 版) 分析型資料庫簡介:K-DB(m 版)是大規模並行處理(MPP)資料庫和平行計算框架,可以支撐 PB 級資料,結構化和半結構化分析型資料庫。其產品可作為資料倉庫、資料湖中的結構化資料儲存、庫內資料計算挖掘平臺,支撐決策支援、資料探勘等高階分析場景,幫助使用者降低成本和提高效率,從資料中獲取對業務的洞察和預測。南大通用:GBase 8a簡介:GBase 8a分析型資料庫的主要市場是商業分析和商業智慧市場。產品主要應用在政府、黨委、安全敏感部門、國防、統計、審計、銀監、證監等領域,以及電信、金融、電力等擁有海量業務資料的行業。偶數科技:OushuDB介紹:OushuDB 是由 Apache HAWQ 創始團隊打造的新一代雲原生資料倉庫,該產品採用了儲存與計算分離技術架構,具有 MPP 的優點,還具有彈性,支援混合工作負載和高擴充套件性等優點。人大金倉:KingbaseAnalyticsDB介紹:KingbaseAnalyticsDB是一款採用shared-nothing分散式架構,具有高效能,高擴充套件效能力的MPP資料庫產品。適用於資料倉庫、決策支援、高階分析等分析類應用場景。睿帆科技:雪球 DB/Snowball介紹:分散式分析型資料庫雪球 DB 是睿帆科技自主研發的一款基於 PB 級資料線上高併發極速即席查詢的聯機分析處理(OLAP)MPP 列式資料庫管理系統。可提供 PB 級資料的線上多維查詢和分散式儲存,特別適用於海量結構化資料儲存、高併發查詢、高吞吐即席查詢(Ad-hoc)、多維分析和實時查詢場景,能夠實現 PB 級資料超高的壓縮比,節省硬體成本。數變科技:Databend簡介:Databend 是一個使用Rust研發、開源的、完全面向雲架構的新式數倉,致力於提供極速的彈性擴充套件能力,打造按需、按量的Data Cloud 產品體驗。石原子:AtomData簡介:AtomData是石原子自研的高併發低延時下一代PB級雲原生資料倉庫,可以對海量資料進行實時的多維分析透視和業務探索分析,將資料分析和價值化從傳統的離線數倉轉化為線上實時分析模式。騰訊:TDSQL-A ClickHouse 版簡介:TDSQL-A ClickHouse 版(TDSQL-A for ClickHouse,TDACH)是騰訊雲資料庫團隊在 ClickHouse 社群版基礎上,適配騰訊定製化資料庫專用硬體,進行了功能增強和效能提升,並且完善了高可用能力而形成的一套分析型資料庫產品。天雲資料:HUBBLE簡介:Hubble是一款自主研發的國產分散式HTAP資料庫。具備超高併發、多源異構、全量SQL支援等功能特性,能同時支援金融級的線上交易和大規模資料分析的場景,已在多家大型股份制銀行落地應用,同時服務支撐證券、保險、能源、政府等眾多領域。星環科技:ArgoDB簡介:Transwarp ArgoDB 是星環科技自主研發的分散式分析型快閃記憶體資料庫,可以替代 Hadoop+MPP 混合架構。支援標準 SQL 語法,提供多模分析、實時資料處理、存算解耦、混合負載、資料聯邦、異構伺服器混合部署等先進技術能力。其介紹,透過一個 ArgoDB 資料庫,就可以滿足資料倉庫、實時資料倉庫、資料集市、OLAP、AETP、聯邦計算等各種需求。炎凰資料:炎凰資料平臺2.0簡介:炎凰資料™產品提供從採集、匯入、儲存、分析、視覺化和告警等一系列服務。提供客戶靈活地管理海量多源異構資料,快速分析資料特徵,實現異常預測、智慧應對的解決方案易鯨捷:QianBase MPP簡介:針對資料查詢分析、企業級資料倉庫、商業智慧、物聯網和大資料等領域設計的一款大規模並行處理分析型資料庫產品。致大盡微科技:TensorBase簡介:TensorBase是用開源的文化和方式,構建的一個Rust下的實時資料倉庫,服務於海量資料時代的資料儲存和分析。DuckDB Labs:DuckDB簡介:DuckDB 是一款開源的嵌入式OLAP資料庫,被用作嵌入其他程式以進行快速SQL查詢分析,因而被稱為"OLAP資料庫中的 SQLite"。DuckDB具有簡單易用,快速,開源等特點,並支援包括事務在內的多種功能。DuckDB背後的商業化公司DuckDB Labs總部位於荷蘭阿姆斯特丹。Google:Google Big Query簡介: Big Query是伸縮能力極強且經濟實惠的無伺服器多雲資料倉庫,幫助使用者提升業務敏捷性。使用者可以批次上傳資料並進行分析。Big Query有以下的特點:利用內建機器學習技術的平臺,安全且可伸縮,使更多的使用者可以獲取資料洞見;透過靈活的多雲分析解決方案,以儲存在多種雲環境內的資料推動業務決策;大規模執行分析的三年期總擁有成本 (TCO) 比其他雲資料倉庫低 26%–34%Pivotal:Greenplum簡介:Greenplum是一款基於PostgreSQL的開源資料倉庫軟體。Greenplum支援50PB(1PB=1024TB)級海量資料的儲存和處理,Greenplum將來自不同源系統的、不同部門、不同平臺的資料整合到資料庫中集中存放,並且存放詳盡歷史的資料軌跡,業務使用者不用再面對一個又一個資訊孤島,也不再困惑於不同版本資料導致的偏差,同時對於IT人員也降低管理維護工作的複雜度。Snowflake Inc.:Snowflake簡介:Snowflake是一種雲原生資料倉庫,提供基於雲平臺的資料儲存與查詢服務。它支援Amazon AWS S3,微軟Azure和Google Cloud三種不同的雲平臺。其背後的Snowflake Inc.公司成立於2012年7月,並於2020年9月在紐約證券交易所上市。Teradata簡介Teradata的資料倉庫使用“無共享(shared nothing)”架構,各個伺服器之間擁有獨立記憶體和處理能力,增加伺服器與節點即增加可儲存的資料量,並由資料庫軟體集中管理各伺服器間的承載負荷量 。2010年,Teradata加入文字分析功能,藉此追蹤非結構性資料(如文書檔案)或半結構性資料(如試算表),並可應用於商業分析,例如使用資料倉庫追蹤公司資料,如銷售、客戶偏好、產品位置等。Teradata於2007年在紐約證券交易所上市。Yandex:ClickHouse簡介:ClickHouse是一個用於OLAP的開源列式資料庫。ClickHouse最早由俄羅斯IT公司Yandex為Yandex.Metrica網路分析服務開發。ClickHouse允許分析實時更新的資料,並以高效能為目標,此外ClickHouse還有以下的特點:真正的列式資料庫: 沒有任何內容與值一起儲存;線性可擴充套件性: 可以透過新增伺服器來擴充套件叢集;容錯性: 系統是一個分片叢集,其中每個分片都是一組副本;能夠儲存和處理數PB的資料;SQL支援。其背後的ClickHouse Inc.公司位於美國舊金山灣區,同時在荷蘭阿姆斯特丹有分部。2021年10月,該公司進行了B輪融資,共計融資2.5億美元。按照使用場景3.1 圖資料庫傳統資料庫更像是一張張 Excel 表,資料一行行的寫入資料庫。而有些資訊,比如說銀行轉賬,記錄更多的是點和邊的資訊,轉賬時我們可以把每一個使用者看作是一個點,每一筆交易看作是一條邊,這樣在進行交易查詢的時候,使用者可以沿著邊,一步步的去查詢資金的流向。如果使用傳統的資料庫進行查詢,比較耗時耗力,需要在大量的交易資訊裡,查詢到某位特定使用者的交易資訊,之後再返回大量的交易資訊裡,查詢下一筆交易資訊以及相應的客戶,這就需要對資料進行很多輪查詢。圖資料庫則專門應對這樣的場景,採用以邊為主的儲存與查詢方式,可以更快的順著一條條邊進行資訊的查詢。因為主要處理點和邊的資訊,這些點和邊構成了一張張圖,對應的資料庫就叫作圖資料庫。在這一部分,我們關注到的公司和產品有:Apache HugeGraph簡介:HugeGraph是一款易用、高效、通用的圖資料庫,實現了Apache TinkerPop3框架及相容Gremlin查詢語言。支援百億以上的頂點(Vertex)和邊(Edge)快速匯入,並提供毫秒級的關聯查詢能力,並可與Hadoop、Spark等大資料平臺整合以進行離線分析。主要應用場景包括關聯分析、欺詐檢測和知識圖譜等。百度:BGraph簡介:百度自研的原生圖資料庫引擎,能支援超大規模的圖資料,具有極高的查詢效能,您可將它應用在知識圖譜、金融風控、推薦引擎和公共安全等場景。創鄰科技:Galaxybase簡介:Galaxybase 是中國自主智慧財產權的通用商業化分散式圖資料庫。Galaxybase 改變了傳統資料儲存的方式,以一種更為靈活的基於“物件”和其間“關係”的圖資料結構,將分散的不同種類的原始資料連線在一起形成一個關係網路,打通資料孤島,透過自然語言處理、機器學習、圖挖掘等人工智慧演算法,提供使用者從關係角度分析問題的能力,幫助其完成實時決策。華為:GraphBase簡介:GraphBase是基於FusionInsight HD的分散式圖資料庫,基於HBase的分散式儲存機制,能夠支援百億節點,千億關係的海量資料,提供基於Spark的資料匯入和基於Elasticsearch的索引機制,在推薦、關係分析和金融反欺詐等領域有廣泛應用。極致嬴圖:Ultipa簡介:據36氪2021年的報道,公司介紹,Ultipa的效能被客戶稱為“核動力”引擎,在計算速度上以三角形計算為例,其速度可達 3 億個三角形/秒——這樣的速度在某種程度上已經挑戰了現有計算機系統的物理極限;在計算深度上,可做 30 層的深度穿透及關聯發現,並能夠方便的構建複雜的模型並與資料相關聯。螞蟻集團:TuGraph簡介:TuGraph 是螞蟻集團聯合清華大學自主研發的大規模全棧圖計算系統,是高效儲存、計算和分析海量圖資料的一站式平臺,支援線上、近線和離線模式,能夠在萬億邊圖上進行實時查詢,其處理規模和效能均達到了國際領先水平,已獲得規模化應用,成為螞蟻集團各種業務風控能力的重要支撐,在數字支付、數字服務、數字金融等核心業務中,顯著提升了風險行為的實時識別能力和調查分析效率。另一家圖資料庫廠商費馬科技已被收購,產品和技術目前融合進了TuGraph。夢圖資料庫:GDM簡介:GDM 是四川蜀天夢圖資料科技有限公司自主研發的分散式圖資料庫管理系統。GDM 採用分散式架構,支援橫向擴充套件,能夠滿足大資料時代海量資料的儲存需求。基於圖理論,GDM 針對圖資料模型進行了最佳化儲存,在兼顧效能和儲存空間上做了平衡,採用多節點平行計算,能夠提高大圖、超大圖的圖計算能力。GDM 支援分散式事務,能同時滿足 OLTP 和 OLAP 需求。歐若數網:Nebula簡介:Nebula Graph 一款開源、分散式圖資料庫,擅長處理超大規模資料集。Nebula Graph 採用儲存計算分離架構,支援水平擴充套件,利用 RAFT 分散式 concensus 協議來實現金融級的高可用,類 SQL 查詢語言降低了 SQL 程式設計師遷移成本。騰訊:TGDB簡介:騰訊雲數圖 TGDB(Tencent Graph Database)是騰訊雲推出的原生分散式並行圖資料庫,以原生方式實現屬性圖,高效儲存關聯資料,支援千億級節點大圖的高效查詢和關聯分析。圖特摩斯科技:AbutionGraph簡介:其結合了圖資料庫(GDB)的簡潔拓撲關係、資料倉庫(ROLAP+MOLAP)、時序知識圖譜的新穎儲存思想,首創動態知識圖譜資料倉庫(Graph Hybrid OLAP),集多種先進儲存技術於一身,實現資料高效儲存與分析。幫助企業快速構建資料運營能力,滿足個性化定製需求,解決既往圖資料庫產品無法滿足的場景。維佳星科技:TigerGraph簡介:TigerGraph可以在幾小時內載入上TB的資料,並支援超過十跳的圖資料查詢。TigerGraph同時支援ACID事務操作,資料分片,資料庫的橫向與縱向擴充套件。TigerGraph適用於反欺詐,物聯網,AI與機器學習等場景,並被中國移動,Wish與Zillow等客戶採用。星環科技:Transwarp StellarDB簡介:Transwarp StellarDB 是一款為企業級圖應用而打造的分散式圖資料庫,用於快速查詢資料間的關聯關係,並提供強大演算法分析能力。StellarDB 克服了萬億級關聯圖資料儲存的難題,透過自定義圖儲存格式和叢集化儲存,實現了傳統資料庫無法提供的低延時多層關係查詢,在社交網路、金融領域都有較大應用潛力。中科知道:PandaDB簡介:為實現結構化、非結構化資料的融合管理和關聯查詢分析,“中科知道”採用智慧屬性圖模型,基於 Neo4j 開源版本,設計並實現了異構資料智慧融合管理系統 PandaDB。該系統實現了結構化/非結構化資料的高效儲存管理,並提供了靈活的 AI 運算元擴充套件機制,具備對多元異構資料內在資訊的即席查詢能力。位元組跳動:ByteGraph簡介:ByteGraph是位元組跳動自研的分散式圖資料庫。ByteGraph 支援有向屬性圖資料模型,支援 Gremlin 查詢語言,支援靈活豐富的寫入和查詢介面,讀寫吞吐可擴充套件到千萬 QPS,延遲毫秒級。據介紹,ByteGraph 支援頭條、抖音、 TikTok、西瓜、火山等幾乎位元組跳動全部產品線。Amazon:Neptune簡介:Neptune是AWS上的圖資料庫,其底層依託於AWS S3儲存平臺,支援快速進行圖資料的查詢與處理,並支援多種開源API介面。ArangoDB Inc.:ArangoDB簡介:ArangoDB支援鍵值型,圖資料,與文件資料三種不同的資料格式,並以統一的AQL語言進行資料查詢與處理。ArangoDB開源免費,採取分散式架構。ArangoDB Oasis是由其背後的ArangoDB Inc.公司提供的雲資料庫服務。2021年10月ArangoDB Inc.進行了B輪融資,共計2780萬美元。JanusGraph簡介:JanusGraph是Linux基金會旗下的一款高擴充套件性的分散式開源圖資料庫,針對於數十億量級的點和邊的應用場景專門最佳化。JanusGraph支援事務特性以及幾千名使用者的併發交易,以及複雜的圖資料分析查詢。NEO Technology:Neo4j簡介:在Neo4j中,所有的資料都被儲存為點,線,或者點和線的標籤的形式,每個點或者每條邊都可以有多個標籤。Neo4j的核心元件開源,但諸如線上資料備份與高可用性的進階功能的程式碼則是閉源的。2021年6月Neo4j公司進行了3.25億美元的F輪融資。3.2 時序資料庫現如今,隨著物聯網的普及,越來越多的裝置開始產生實時資料,比如路邊的監控攝像頭,每天就會產生資料量巨大的資訊。物聯網裝置產生的資訊量之大,如果以一行行的方式寫入傳統關係型資料庫,則很快會面臨儲存與查詢效能上的瓶頸。同時,對於這些資訊,使用者可能更關注最近一週的資料,比如說一小時前的氣溫,而對去年甚至更久遠的資訊,使用者只關心一個大概的統計學上的趨勢,比如說去年某個月的平均氣溫,而不需要非常具體的資料。此外,物聯網裝置的數量可能十分龐大,如果我們把全國的監控攝像頭當成是同一套物聯網系統,那裝置總數會達到上億甚至十幾億的規模。時序資料庫針對這樣的場景,採用不同的底層架構,可以幾十上百倍得加速儲存與查詢物聯網裝置時時刻刻產生的海量資訊。時序資料庫也可以看作是一種特殊的以時間為主線的流式資料庫。在這一部分,我們關注到的公司和產品有:阿里雲:TSDB簡介:阿里雲時間序列資料庫 ( Time Series Database , 簡稱 TSDB) 是一種集時序資料高效讀寫,壓縮儲存,實時計算能力為一體的資料庫服務,可廣泛應用於物聯網和網際網路領域,實現對裝置及業務服務的實時監控,實時預測告警。百度雲:TSDB簡介:時序時空資料庫 TSDB 是用於儲存和管理時間序列資料及地理空間資料的專業化資料庫,為時間序列資料及地理空間資料提供高效能讀寫和強計算能力的分散式雲端資料庫服務。螞蟻集團:CeresDB簡介:CeresDB是螞蟻集團 OceanBase 推出的時序資料庫產品,該資料庫將為使用者提供安全可靠的資料查詢和儲存管理服務,解決監控運維、物聯網等場景中,時間序列資料的高吞吐、橫向擴充套件等難題。它是基於OceanBase分散式儲存引擎底座的時序資料庫產品,適用於物聯網 IoT、運維監控、金融分析等行業場景。諾司時空:CnosDB簡介: CnosDB是一個專注於時序資料場景的時序型資料庫,適用於各種時序場景,如伺服器指標、應用程式指標、效能指標、函式介面呼叫指標、網路流量資料、探測器資料、日誌、市場交易記錄等。CnosDB有如下的特點:全面與InfluxDB 1.X 穩定版相容;開源分散式叢集,產品永久免費;支援海量時間序列線:在海量標籤、海量時間序列線的情況下,依然能夠高效實現分散式迭代器及查詢最佳化;低成本/碳中和:高效的儲存引擎可充分發揮硬體效能,並在高效壓縮儲存的同時保障查詢效率;強大完整的生態:可整合市面上主流的採集、儲存、分析、視覺化等工具。CnosDB由北京諾司時空科技有限公司開發,2021年07月21日成立於北京市。四維縱橫:MatrixDB簡介:MatrixDB 是四維縱橫推出的超融合型分散式資料庫產品,是同時支援線上事務處理(OLTP)、線上分析處理(OLAP)和物聯網時序應用的超融合型分散式資料庫,具備嚴格分散式事務一致性、水平線上擴容、安全可靠、成熟穩定、相容 PostgreSQL/Greenplum 協議和生態等重要特性。為萬物互聯的智慧時代提供智慧資料核心基礎設施,為物聯網應用、工業網際網路、智慧運維、智慧城市、實時數倉、智慧家居、車聯網等場景提供一站式高效解決方案。濤思資料:TDengine簡介:為物聯網而生的大資料平臺 TDengine 是濤思資料推出的一款開源的專為物聯網、車聯網、工業網際網路、IT 運維等設計和最佳化的大資料平臺。除核心的快 10 倍以上的時序資料庫功能外,還提供快取、資料訂閱、流式計算等功能,最大程度減少研發和運維的複雜度。騰訊雲:CTSDB簡介:騰訊雲時序資料庫(TencentDB for CTSDB)是一種高效、安全、易用的雲上時序資料儲存服務。特別適用於物聯網、大資料和網際網路監控等擁有海量時序資料的場景。智臾科技:DolphinDB簡介:DolphinDB 是由浙江智臾科技有限公司研發的一款高效能分散式時序資料庫,集成了功能強大的程式語言和高容量高速度的流資料分析系統,為海量結構化資料的快速儲存、檢索、分析及計算提供一站式解決方案,適用於量化金融及工業物聯網等領域。InfluxData, Inc.:InfluxDB簡介:InfluxDB是一套由InfluxData, Inc.公司開發的開源時序型資料庫。它由Go語言實現,致力於更高效得查詢與儲存時序型資料。InfluxDB被廣泛應用於物聯網的實時資料與計算機系統的後臺監控等場景。InfluxDB的核心部分開源,但InfluxData將用於支撐InfluxDB叢集水平擴充套件的元件作為閉源產品單獨銷售。3.3流式資料處理傳統資料庫在載入資料的時候,為了提高效率,有時會採取批處理的方式,分批載入資料,比如說資料倉庫常用的ETL操作(Extract,Transform,Load的縮寫,指將資料從來源處經過抽取,轉換,載入進入資料倉庫以供查詢的過程),經常將資料打包成一個個批次,每一塊會有多條資料,分批次進行處理查詢。這樣雖然總體效率會有提高,但是查詢某條資料的時候,經常要等這條資料所在的一整個批次都被載入完才可以,導致查詢的實時性會有下降。流式資料庫則將資料看作是一條連續的,永不終止的河流,每收到一條資料,都會對這條資料進行載入和儲存,並提供更為實時(real-time)的查詢功能。在這一部分,我們關注到的公司和產品有:Apache Kafka簡介:它是歸屬於Apache基金會的一個開源流資料處理系統,致力於為實時資料處理提供一個統一、高吞吐、低延遲的平臺。Kafka採用“釋出/訂閱訊息佇列”的形式來在計算機的不同元件中傳遞訊息,釋出者將自己要釋出的訊息以話題的形式組織,不同的接收者可以選擇訂閱不同的話題,Kafka則負責將這些訊息準確無誤的在釋出者與接收者之間進行傳遞。Kafka背後的商業公司Confluent Inc.於2021年6月在納斯達克證券交易所上市。柏睿:全記憶體分散式流資料庫 Rapids StreamDB介紹:柏睿資料自主研發的兼顧批處理和流處理的分散式全記憶體流資料庫系統,由 SQL 編譯器和最佳化器、MPP 執行引擎、資料庫儲存引擎等核心元件構成。不僅如此,該系統還相容多個主流作業系統如 windows 與 linux,以及各大程式語言介面如 C++,JAVA,Python,C#。EMQ:HStreamDB簡介:HStreamDB 是一款專為流式資料設計的, 針對大規模實時資料流的接入、儲存、處理、分發等環節進行全生命週期管理的流資料庫。它使用標準 SQL (及其流式拓展)作為主要介面語言,以實時性作為主要特徵,旨在簡化資料流的運維管理以及實時應用的開發。奇點無限:RisingWave簡介:RisingWave是開源雲原生的支援SQL的流式資料庫。其致力於幫助使用者建立基於雲的低開發成本,低運營成本與低效能成本的實時應用。有了RisingWave,資料分析師、資料科學家與工程師可以輕易得使用SQL來查詢流式資料,並挖掘資料背後的價值。RisingWave背後的Singularity Data(奇點無限公司)成立於2021年,已經完成數千萬美元的融資。Timeplus簡介:Timeplus解決的核心問題是在滿足實時高效的基礎上,在統一的分析引擎上對實時流式分析和歷史分析能力的融合,從而縮短從複雜多樣的實時資料到實時業務價值的時間(Time-To-Value)。同時以SQL為統一分析語言,在保證超低延遲和超強效能 的前提上,依然提供了強大的資料分析能力。Timeplus設計了一個以時間為核心的統一實時分析引擎。支援多層計算模型,兼顧流式和歷史分析。Materialize簡介:Materialize 是一個用 Rust 編寫的流式資料庫。它在資料更改時在記憶體中維護 SQL 查詢的結果。傳統資料庫在發出 SELECT 語句時進行評估,而 Materialize 會預先要求查詢,並在新資料到達時逐步計算結果。Materialize 中的讀取速度快、可擴充套件且無需計算,支援將更新推送到客戶端。VoltDB, Inc.:VoltDB簡介:VoltDB是一個企業級資料平臺,VoltDB為各應用提供流式資料實時決策上的支援。VoltDB將洞察立即付諸實踐,幫助打造更靈活、更智慧的資料驅動型企業。3.4 記憶體資料庫一般的資料庫都針對硬碟上的資料讀寫,值得一提的是有些公司偏偏劍走偏鋒,研發基於記憶體的資料庫。基於記憶體的資料庫一般會快很多,但面對的風險則是斷電後資料有可能丟失,因此多被用來快取資料,加速資料查詢,而不是作為資料的主要儲存媒介。目前,業界也在期待新的儲存硬體的成熟,希望能帶來資料庫的變革。阿里巴巴:Tair簡介:雲原生記憶體資料庫Tair(Redis企業版)是阿里雲推出的支援高併發低延遲訪問的雲原生記憶體資料庫,完全相容Redis資料結構和API。支援主從與叢集架構,採用多樣儲存介質應對不同資料溫度場景,並提供全球多活、資料閃回、大熱Key探測與最佳化、和豐富的資料模型等特性,賦能大規模高效能要求的線上資料業務。Tair從2009年開始正式承載集團快取業務,歷經天貓雙十一、優酷春晚、菜鳥、高德等業務場景的磨練。柏睿:全記憶體分散式資料庫 RapidsDB簡介:柏睿資料自主研發的基於分散式架構的全記憶體資料庫,關鍵元件包括 SQL 編譯器及最佳化器、MPP 執行引擎、資料庫儲存引擎等,效能對標 Oracle TimesTen 和 SAP HANA。快立方:Qcubic簡介:Qcubic 記憶體資料庫是快立方自主研發的關係型記憶體資料庫,致力於解決海量高頻事務處理,具有高效能、高併發、高可用、低延時特性。公司介紹,其核心技術指標比傳統資料庫提升10倍以上。Pika簡介:Pika是一個可持久化的大容量redis儲存服務,最早由360奇虎公司研發並開源。Oracle:TimesTen簡介:TimesTen是Oracle旗下的基於記憶體的OLTP資料庫,其致力於高穩定性與彈性擴充套件。TimesTen屬於關係型資料庫,支援橫向的分散式擴充套件。Redis Labs :Redis簡介:Redis 是基於記憶體的分散式鍵值對儲存資料庫。與基於硬碟的傳統關係型資料庫不同,Redis 為了實現更高的效能,將資料儲存在多臺機器的記憶體中,以此來實現更快的讀寫速度,此外,Redis 也不支援關係型資料庫的表單儲存,而是隻支援最簡單的鍵值對儲存。因為其基於記憶體的特性,Redis 多被用於計算機系統的快取層(cache),一方面使系統更快速,並減輕底層資料庫的壓力,另一方面即使斷電,也只會丟失快取中的資料,而底層的資料依然由其它的資料庫儲存在硬碟中,不會使底層的資料永久丟失。SAP:HANA簡介:SAP HANA是一款基於記憶體的列儲存的關係型多模資料庫,支援實時資料分析與多種ETL操作。SAP HANA Cloud是其對應的雲服務版本。3.5 多模資料庫隨著資料種類的增加,資料庫經常要處理儲存不同格式不同來源的資料,因而多模資料庫應運而生。多模資料庫支援更多的資料型別,並提升更為靈活的查詢介面,以此來幫助使用者應對新的資料挑戰。在這一部分,我們關注到的公司和產品有:阿里雲:Lindorm簡介:Lindorm 是阿里雲推出的一款適用於任何規模、多種型別的雲原生資料庫服務,支援海量資料的低成本儲存處理和彈性按需付費,提供寬表、時序、搜尋、檔案等多種資料模型,相容 HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL 等多種開源標準介面,適合元資料、日誌、賬單、標籤、訊息、報表、維表、結果表、Feed 流、使用者畫像、裝置資料、監控資料、感測器資料、小檔案、小圖片等資料的儲存和分析。矩陣起源:MatrixOne簡介:MatrixOne 是面向未來的超融合雲和邊緣原生 DBMS,它透過簡化的分散式資料庫引擎支援跨多個數據中心、雲、邊緣和其他異構基礎架構的事務、分析和流工作負載。另外,前文還介紹過MatrixDB、HANA也具備多模特點,在此不再贅述。3.6 資料湖與MapReduce相關為了更好的整合資料,資料倉庫一般要求使用者提前定義好資料庫中表單的結構(schema),比如說一張公司員工的表單,可能會有人員的姓名,部門,加入公司的時間等等,這些所需的資訊一般來講是可以提前定義好的。不過,隨著網際網路的發展,資料的格式也越來越靈活多變,有時候事先並沒有辦法定義好資料格式。比如微博,使用者每發一條微博,除了微博本身的文字資訊外,在新版本的微博中,使用者可以選擇上傳地理位置資訊,而老版本的微博就沒有地理位置資訊,在將來的新版本微博中,又可能會有其它的新的資訊。如果我們每新增一種新的資訊,就對資料庫的表單結構進行更改,這樣表單的結構會很複雜,畢竟需要相容所有微博裡可能有的資訊,而有些資訊可能只有極少數微博才有。資料湖,作為資料庫的一個新的分枝,提供了更靈活的資料格式。在傳統的關係型資料庫中,同一張表單裡的每一行資料都有相同的欄位,而在資料湖中,使用者在插入資料的時候,透過 JSON 等格式,每一條資料都有可以有不同的欄位,比如說某位公司員工的資訊裡有(年齡:25, 入職時間:2022 年 1 月 1 日),而另一位退休員工的資訊則是(年齡:65,退休時間:2020 年 1 月 1 日)。透過這樣不同的欄位,資料湖可以提供更靈活的格式,方便使用者寫入擁有不同欄位的資料。只是,這樣不規則的資料,雖然在寫入的時候更加便捷,但在讀取查詢時會有更多效率方面的挑戰。MapReduce則是一種新的大資料工具,由Google於2004年研發,之後業界依據Google的相關論文,開發出開源版本的Hadoop與Spark等工具。MapReduce通常會被用在資料湖的資料分析階段,因此在這裡我們將MapReduce與資料湖放在一起介紹。MapReduce將大資料的處理分為Map(對映)和Reduce(歸約)兩個步驟,比如說使用者想統計紅樓夢的120回章節中,“林黛玉”的名字出現的次數,如果使用者有六臺伺服器的話,使用者可以讓每臺伺服器各自統計20章節中“林黛玉”出現的次數,把120回分為六個20回的這一步,就被稱為Map,這樣這20回可以被不同的機器單獨處理,之後,使用者再將六臺機器得到的名字次數加起來,就可以得到“林黛玉”名字出現的總的次數,這個相加的操作被稱為Reduce,因為是把6份資料,歸約成了一份資料。相比關係型資料庫,MapReduce的查詢功能更加靈活,並且不要求底層資料結構化,因而MapReduce經常被用來處理非結構化的資料,因而與NoSQL資料庫一起,被當作非結構化資料的大資料處理工具。在這一部分,我們關注到的公司和產品有:阿里雲:E-MapReduce簡介:開源大資料開發平臺 E-MapReduce(簡稱 EMR),是執行在阿里雲平臺上的一種大資料處理的系統解決方案。開源大資料開發平臺 EMR 構建於雲伺服器 ECS 上,基於開源的 Apache Hadoop 和 Apache Spark,讓使用者可以方便地使用 Hadoop 和 Spark 生態系統中的其他周邊系統分析和處理資料。EMR 還可以與阿里雲其他的雲資料儲存系統和資料庫系統(例如,阿里雲 OSS 和 RDS 等)進行資料傳輸。開源大資料開發平臺 EMR 的 SmartData 元件是 EMR Jindo 引擎的主要儲存部分,為開源大資料開發平臺 EMR 各個計算引擎提供統一的儲存最佳化、快取最佳化、計算快取加速最佳化和多個儲存功能擴充套件。H3C:E-MapReduce簡介:E-MapReduce 資料平臺服務:提供豐富的大資料元件即服務,包括但不限於分散式檔案系統、NoSQL 資料庫服務、記憶體資料庫服務、離線計算、流式計算、記憶體計算、SQL on Hadoop 等服務,同時還提供自研統一 SQL 服務,可相容標準 SQL,對外提供統一的資料查詢/分析服務,提升平臺的整體易用性。大應科技:Aloudata簡介:Aloudata 是一站式的敏捷資料工作臺,基於 AI 增強的湖倉引擎,提供自助式的資料準備和閃電般的查詢能力。Aloudata致力於讓企業無需搭建複雜ETL鏈路,業務人員即可自助完成資料處理和分析,讓每一個業務需求和創意都能及時獲得資料支撐。Databricks簡介:Spark與Hadoop是業界最主要的開源MapReduce工具,而Databricks是由Spark的創立者成立的商業公司,致力於為使用者提供更好的大資料分析工具。公司的主要發力點為資料湖與雲計算,其開發的Delta Lake專案將資料湖與機器學習結合起來,方便資料科學家在格式並不規整的資料湖中進行資料分析。此外,Databricks也在微軟的Azure與Google Cloud上提供Spark的雲服務。2021年8月,Databricks完成了第八輪融資,共融資16億美元,估值38億美元。HBase與Hive簡介:HBase是一個開源的非關係型分散式資料庫(NoSQL),運行於HDFS檔案系統之上,為 Hadoop 提供類似於BigTable 規模的服務。HBase的表能夠作為MapReduce任務的輸入和輸出。Hive是一種用類SQL語句來協助讀寫、管理那些儲存在分散式儲存系統上大資料集的資料倉庫軟體。Facebook為了解決海量日誌資料的分析而開發了Hive,後來開源給了Apache軟體基金會。HBase與Hive都屬於Hadoop生態的一部分,其對應的商業化公司有Amazon AWS,Cloudera等。3.7 文字搜尋文字搜尋引擎和資料庫有很多相似的地方,因此我們在這裡將它列為一種特殊的資料庫。與文件型資料庫的相似點在於,文字搜尋引擎需要載入大量的文件,建立文字索引,並對這些文件依據關鍵字進行查詢,同時,分散式的文字搜尋引擎一樣要處理資料在多臺機器上的分片與備份。不同之處在於,文字搜尋引擎更關注於關鍵字搜尋,因此會提供更多的語法工具,比如說中文的分詞工具,英語單詞的單複數變換工具等等。此外,文字搜尋引擎收錄的文件可能字數很多,但是更新頻率較低,因而通常會禁止使用者對已經存錄的文件進行修改,而鼓勵使用者將修改後的文件當成是全新的文件另行儲存載入。而資料庫通常會支援資料的更新修改。此外,文字搜尋引擎也不支援資料庫的事務操作。ElasticSearchElasticSearch 是開源的分散式文字搜尋引擎,是當前最受歡迎的企業搜尋引擎。ElasticSearch 本身更關注於搜尋,與支援增刪改查的傳統資料庫不同,ElasticSearch 只支援文件的增加與刪除,並不支援文件內容的修改。ElasticSearch 本身有一定的儲存功能,多被用於只讀型別的文件儲存,此外,ElasticSearch 也不支援分散式事務。ElasticSearch 背後的 Elastic 公司在 2018 年 10 月在紐約證券交易所上市。3.8向量檢索引擎在人工智慧領域,使用者進行模型訓練時會將資料進行壓縮轉換,變成相應的向量(vector),比如說把一張張圖片變成相應的向量,之後根據這些向量之間的距離來判斷對應照片的相似度。隨著人工智慧的發展,向量檢索的速度成為AI領域的瓶頸之一,而向量檢索引擎正是解決這一問題的手段之一。賾睿資訊科技:Milvus簡介:Milvus是上海賾睿資訊科技有限公司(Zilliz)研發的海量特性向量檢索系統。Milvus依託GPU加速,提供極速特徵向量匹配以及多維度資料聯合查詢(特徵、標籤、圖片、影片、文字和語音等聯合查詢)功能,並且支援自動分表分庫和多副本,能完美對接TensorFlow、Pytorch和MxNet等AI模型,可實現百億特徵向量的秒級查詢。Faceboook Faiss簡介:Faiss是由Facebook研究院(FAIR)研發並開源的進行高效向量查詢檢索的程式碼庫(library),它支援對不同大小的向量集的檢索,同時也實現了多種引數調優的演算法,可以用作人臉識別,基因對比等用途。Proxima簡介:Proxima 是阿里巴巴達摩院系統 AI 實驗室自研的向量檢索核心。Proxima BE是 Proxima 團隊開發的服務化引擎,實現了對大資料的高效能相似性搜尋。目前,其核心能力廣泛應用於阿里巴巴和螞蟻集團內眾多業務,如淘寶搜尋和推薦、螞蟻人臉支付、優酷影片搜尋、阿里媽媽廣告檢索等。Vearch簡介:Vearch 是對大規模深度學習向量進行高效能相似搜尋的彈性分散式系統,支援多種資料模型,如空間、文件、向量和標量。(注:36氪對基礎軟體保持持續關注,透過和數十位行業人士溝通,以及多方收集資料完成了本文。但由於資源、視角有限,本文難免出現錯誤、片面等問題,歡迎各位讀者指正交流。)

參考文獻:《深氪|鏖戰!國產資料庫》,36氪《2022年的企服投資:基礎層,還是應用層?|2022展望》,36氪《解讀開源的2021:從“開發者亞文化”,變成主流軟體開發模式》,InfoQ《產業調研:混沌初開的國產資料庫市場》,計算機文藝復興《中國資料庫管理系統市場指南》,Gartner《2020年中國行業大資料市場現狀及發展前景分析,未來五年市場規模或將近2萬億元》,前瞻研究院產品介紹部分主要來源於企業官網和其他公開資料,部分參考自墨天輪、DB-Engines、維基百科、百度百科,另感謝36氪作者楊逍對本文的貢獻。

我們會將各行業數字化供應商的資訊彙總整理,未來輸出行業報告、案例報道、品牌活動等形式,為多個行業數字化轉型添磚加瓦,助力數字化供應商企業啟航遠征。希望和您一起,看見數字化轉型中每一份微小的努力。

本文作者Ray:矽谷工程師,微信raylazy

我們正在建設「TOB領域」主題交流社群,歡迎掃碼新增數字時氪小助手,併發送名片或者個人介紹,我們將為您持續推薦相關產業資訊和活動。

更多活動資訊及行業詳情,請關注微信公眾號“數字時氪”(微信 ID :digital36kr),期待您的到來。36氪旗下公眾號

真誠推薦你關注

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究

????點選閱讀原文填寫徵集表單

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 40426 字。

轉載請註明: 寒冬之下持續吸金,蟄伏30年的國產資料庫終迎黃金時代?|36氪研究 - 楠木軒