楠木軒

超大規模圖資料庫 Nebula Graph V1.0 釋出,為資料分析處理提速

由 公羊淑軍 釋出於 科技

杭州2020年6月9日 /美通社/ -- Nebula Graph V1.0 於6月9日正式釋出,它採用 shared-nothing 分散式架構,擅長處理千億節點萬億條邊的海量關聯資料集,從而更好地服務企業級應用。Nebula Graph 的設計初衷是為了解決企業應用中海量資料的實時處理問題,相比其他解決方案,它可以更快處理更多的資料量,這使得 Nebula Graph 成為業界領先的高效能圖資料庫。

Nebula Graph 是一個開源的圖資料庫,由杭州歐若數網科技有限公司(下文簡稱:歐若數網)自主研發維護。歐若數網研發人員來自阿里巴巴、Facebook、華為、IBM 等大廠。

Nebula Graph 優勢

Nebula Graph 分散式架構能處理的資料量遠大於其他圖資料庫。

此外,高可用的分散式架構使它在企業級應用中具有線上水平擴容、資料恢復特性。

除了分散式架構,Nebula Graph 獨創圖查詢語言 -- nGQL。這是一種為圖結構設計的類 SQL 查詢語言,有 SQL 使用背景的工程師可快速上手 nGQL。

同時,Nebula Graph 開發了一款圖資料視覺化工具 -- Nebula Graph Studio,具備資料匯入和圖探索功能,可對資料進行實時互動分析,幫助使用者理解圖資料結構。

圖資料庫市場和應用

在過去的2年時間裡,近1.25億美元注入 Nebula Graph 所在的圖資料庫行業,資本市場對圖資料庫行業的支援可見一斑。

和 RDBMS 不同,圖資料庫不僅儲存資料本身,也儲存了資料之間的深層關係。因此,圖資料庫可高效地管理萬億級別關聯資料,挖掘資料之間的深層關係,而這恰恰是傳統的關係型資料庫(RDBMS)難以解決的問題。

對 CIO 而言,Nebula Graph 是挖掘現存資料關聯關係潛在價值的絕佳選擇。對希望低成本、高效地處理關聯關係的架構師而言,Nebula Graph 也是一個理想的選擇方案。此外,資料科學家也可用 Nebula Graph 深挖資料背後的關聯價值。

現代商業社會產生了海量資料,不同的資料儲存在不同的地方,容易形成資訊孤島。利用 Nebula Graph,企業可以打通訊息孤島,挖掘資料中有意義的關聯資訊加以利用。例如,在金融領域,可以利用 Nebula Graph 發現潛在風險,預防團伙作案的金融欺詐事件;政府有關部門也可用於監控線上活動、機構、賬號等,第一時間發現潛在威脅、應對可疑情況。

除了上述場景,還有許多 Nebula Graph 適用場景。透過 Nebula Graph,社交媒體網可將使用者進行點對點連線,更好地服務於他們;在物聯網(IoT)領域,只有裝置間的關聯有意義,才能帶來更大的商業價值;線上零售、醫療保健領域、人工智慧(AI)領域,Nebula Graph 也可助力處理、挖掘關聯資訊。

如何使用 Nebula Graph

目前 Nebula Graph V1.0 已釋出,可基於 Apache 2.0 許可證使用 Nebula Graph。近期 Nebula Graph 將會提供雲上服務。

使用者寄語

“之前京東數科的圖服務是由 JanusGraph 提供的,我們碰到的主要問題是寫入和查詢速度很慢,且社群不活躍 bug fix 不及時,導致業務使用體驗不理想。正在尋找新的解決方案時,遇到 Nebula Graph 剛啟動,所以京東數科圖技術團隊立刻就參與了 Nebula Graph 的開源社群,並一起參與和合作開發了很多功能。藉助 Nebula Graph 圖資料庫的高效能分散式儲存和查詢能力,從京東數科海量資料集中挖掘重要的關聯關係,很好的助力內部和集團業務的開展。目前,我們正在將更多的圖專案從傳統方案遷移到 NebulaGraph。”

-- 京東數科圖技術團隊負責人錢勇

“在接觸 Nebula Graph 之前,我們的圖譜專案已經試用過多個知名的開源圖資料庫,包括 Neo4j、JanusGraph、DGraph 這些在 DB-Engine 上排名非常靠前的產品,但在規模和效能上沒法滿足我們的要求,導致專案一直沒有上線。當遇到 Nebula Graph 後,我們發現 Nebula Graph 的架構設計簡潔可擴充套件,且基於 C 開發,效能特別強勁,具備非常強的網際網路分散式基因;Nebula的同學們也非常給力靠譜,大家一起解決了N多個技術難題,成功把效能提升到遠超最初規劃,並且基於公司已有基礎設施,搭建了一套圖資料庫平臺,方便業務接入。現在,我們正在通力合作,把更多的知識圖譜專案遷移到 Nebula Graph 上面來。”

-- 美團點評AI平臺技術專家趙登昌

基於圖的風控和推薦方案相比傳統方案有很大的技術優勢,透過圖技術賦予的新能力,我們在業務上發現了很多有意思的增長點。但由於業務上對於低時延、高併發的要求,我們一直在尋找高效能的開源圖資料庫方案。在透過詳盡的比較 Nebula Graph、Neo4j、DGraph、JanusGraph 幾種開源方案後,我們最終選用了 Nebula Graph,是基於這樣幾個原因:

-- 有贊資料基礎平臺技術專家陳琦

“基於企業間關係的企業圖譜、供應鏈關係、企業知識圖譜這些應用都是非常典型的知識圖譜應用,也非常適合使用圖資料庫來作為基礎設施支撐業務發展。最初階段,我們使用了某知名單機圖資料庫的方案,很好的支援了彼時業務的快速擴張;但隨著網際網路式的資料量和訪問規模快速增加,這樣的方案在擴充套件性和時效性上的問題越來越突出。在得知 Nebula Graph 去年5月份開源後,我們就一直持續關注其動態,其分散式架構很適合我們的業務需求,並且迭代速度相當快速。在經過幾個月的試用和調優後,Nebula Graph 已經在相當多內部業務上替代了原方案;未來,隨著對於 OpenCypher 的相容,我們計劃將更多業務遷移到 Nebula Graph上。”

-- 蘇州朗動網路技術有限公司(企查查)知識圖譜演算法專家鄭文裕

“I have a graph,a red graph. 小紅書作為一個線上社群,有著很多的圖存在:使用者和筆記的互動關係,使用者和使用者的關注關係,電商交易關係等等。關係型資料庫往往不能有效支撐小紅書這樣一個量級的圖有效儲存和實時查詢計算。筆者接觸過不少圖資料庫,一些寄希望於摩爾定律的發展,其他在效能上達不到我們的要求。我們選用Nebula圖資料庫,首先來自對團隊的信任,創始人和核心成員在Facebook和螞蟻金服,阿里等大公司做過圖資料庫,支撐了線上業務資料流下的推薦、搜尋和風控等多個場景,深刻理解資料和業務形態以及之上的演算法場景和需求,是最熟悉中國一線網際網路公司圖資料庫需求的團隊。其次諸多核心架構設計保證了對於超大規模資料的支援和叢集規模的可擴充套件性。值得一提的是,對於圖上經典的熱點問題,Nebula最早應小紅書需求實現了蓄水池抽樣演算法。我們也利用Nebula這個風控底層武器來保護小紅書社群這個Red Graph,同時也在賦能給我們的其它業務演算法線。”

-- 小紅書反作弊風控策略演算法負責人吹雪