KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

明敏 衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

剛剛,KDD 2022所有獎項正式對外公佈!

作為數據挖掘、知識發現領域的最高學術會議,每年KDD獎項花落誰家都會引發學界熱烈討論。

今年,中國團隊的表現依舊令人矚目。

清華裘捷中獲得博士論文獎亞軍,成為亞洲高校首位獲得者。

阿里巴巴達摩院智能計算實驗室,獲得應用數據科學方向最佳論文獎,是中國工業界研究團隊首次獨立獲得這一獎項。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

論文提出了一個面向聯邦圖學習的庫FederatedScope-GNN。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

主辦方SIGKDD評價其“推動了聯邦圖學習的發展”。

在此,量子位找到論文一作王楨、通訊作者李雅亮,一起聊了聊他們關於論文研究及背後的更多事兒~

在圖數據上發揮聯邦學習能力

本次獲獎論文的核心,聚焦在聯邦圖學習方面。

簡單來説,它就是將圖學習和聯邦學習的優勢合璧。

近年來,隨着越來越多應用場景對隱私保護的需求增高,聯邦學習愈發火熱。

它能讓用户在數據始終都停留在本地的基礎上,通過交換模型參數或中間結果的方式,在雲端聯合訓練,最終讓多方用户都能完成模型訓練。

也就是常説的讓“數據可用不可見”,從而避免“數據孤島”問題。

目前,如谷歌的Tensorflow Federated(TFF)、微眾銀行的FATE等,都是目前大熱的開源聯邦學習框架。

不過,現有的聯邦學習工作,更多關注視覺和自然語言領域,對圖的支持相對有限

要知道,圖(graph)在表示複雜關係方面,具有很大優勢。

它是由節點(node)和邊(edge)兩部分組成的一種數據結構,用來描述對象間關係。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

日常生活中,你可以把每個社交賬户看作一個節點。預測兩個賬户是不是有好友關係,就是預測這倆節點之間是否存在連邊,從而給你推薦“可能認識的人”。

但是傳統神經網絡,都是接受幾何空間的數據作為輸入,無法處理圖這種數據結構。

針對這種情況,圖神經網絡被提出。它能利用神經網絡來圖進行深度特徵抽取等操作,從而實現更好的推理預測效果。

常用的場景有電子商務、藥物研發、金融、互聯網社交等。而這些場景,對數據保護的需求往往也會很大。

比如銀行反洗錢場景下,需要預測每個賬户是否為風險賬户,但各個銀行的賬户信息不能相互公開。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

△銀行反洗錢場景

還有藥物研發過程中,不同廠商只掌握了分子圖中的一部分,大家需要共享信息以完成研發任務,但各自的數據還要相互保密。

上述種種,讓大家對聯邦圖學習算法非常渴望。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

這樣的背景下,達摩院在本次研究中,把圖學習用在聯邦學習上。

FederatedScope-GNN(以下簡稱FS-G)基於達摩院已開源的聯邦學習框架FederatedScope(以下簡稱FS)提出。

首先,FS-G提供了一個統一視圖,靈活支持異構數據的交換。

得益於底層框架FS事件驅動(event-driven)的編程範式,多種多樣的消息交換和參與者的豐富行為得以模塊化進行拆分實現——FS-G允許靈活豐富的模塊化行為。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

其次,FS-G針對圖學習提供了DataZooModelZoo

前者為用户提供豐富多樣的聯邦圖數據集,後者提供相應的模型與算法。

此外,DataZoo還實現了大量不同類型的splitters,即便在單機場景裏,通過FS-G提供的註冊機制,開發者也能輕鬆把單機代碼搬到聯邦場景複用。

再者,針對聯邦圖學習對超參數敏感的現象,FS-G還實現了高效的模型調優(model tuning)組件。

其中包括多保真度的Successive Halving Algorithm和新近提出的聯邦超參優化算法FedEx,以及針對聯邦異質任務的個性化。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

△一個個性化圖神經網絡示例

因為各個參與者被允許使用獨立的特有神經架構,只聚合共享部分,FS-G允許開發者根據實際情況,採用不同的異步訓練策略。

最後,FS-G還提供了豐富的隱私評估算法,對算法在隱私保護方面的能力進行檢驗。

春節加班提交論文

對於這次拿下大獎,論文一作王楨説道,“開心是肯定的,感覺自己的工作得到了認可”。

通訊作者李雅亮則表示,因為看到了團隊為此付出了多少努力,所以覺得這一切更像是一種水到渠成。

實際上,這項工作的籌備時間要從一年多以前算起。

當時,團隊洞察到了隱私保護計算行業的發展趨勢。作為技術人員,自然而然想到從工具入手,推動這股研究浪潮更快前進。

所以,FederatedScope被提上了日程,FS-G則是其中非常重要的部分之一。

前面也有提到,聯邦圖學習的工作可以滿足應用場景中更為廣泛的需求,但是複雜程度也更高。

剛好,王楨博士非常擅長圖學習方面的研究。

引用量超過2500次的知識圖譜補全算法TransH,正是他以一作身份完成的工作。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

當時,他還正在中山大學數據科學與計算機學院攻讀博士學位,通過微軟亞研院聯合培養項目,完成了這篇論文。

博士畢業後,王楨就加入了阿里巴巴,曾任阿里雲高級算法工程師。

作為主要開發者,王楨參與了阿里機器學習平台PAI中A3gent強化學習組件的研發,並將其開源為EasyRL項目。

同期還參與了伯克利大學Ray RLLib項目共建,並被社區認可為項目committer。

之後,王楨加入達摩院,開始專注聯邦圖領域的研究。多次在KDD Cup比賽中取得高排名成績,在ICLR、WWW等國際頂會發表多篇論文。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

但即便有優秀學者坐鎮,由於聯邦圖學習是一個十分前沿的領域,領域內一些基礎性工作都還沒有搭建完整,聯邦圖學習算法本身也會比普通聯邦學習算法難,所以研發FS-G的難度並不小。

王楨提到,最初他們甚至連一個可用的數據集都沒有。

加之,圖數據相較於其他數據類型,在異質消息交換上會存在更多風險;聯邦學習的每個參與者也會有更豐富的行為,去處理這些信息。

因此,研究團隊需要在圖聯邦算法上使用一個與以往不同的編程範式,並設計方案使其在圖聯邦中發揮最大功效,這是有別於常規開發的。

這背後,都需要更多人力、時間的投入。

論文通訊作者李雅亮回憶,今年KDD論文提交的時間,剛好在大年初十。

當時整個團隊都在興奮地忙碌着論文的提交工作,過年幾乎都沒有休息。

而這些精力的投入,最終也在論文成果中得以顯現。

可以看到,FS-G中包含了豐富的聯邦圖數據集和相應的模型與算法。並且讓沒有聯邦學習背景的開發者,也能自如使用FS-G。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

這為後續研究做了大量的基礎性工作,可以説是為聯邦圖學習建立了新基準

李雅亮在交談中也表示,基礎性工作的完成,能夠吸引更多研究人員參與聯邦圖學習的研究。

我覺得,這是我們工作能夠獲得組委會認可的一大原因。

值得一提的,李雅亮作為本次成果的通訊作者,還曾負責FederatedScope的開源工作。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

他現在是達摩院智能計算實驗室的高級算法專家。

2017年從紐約州立大學布法羅分校博士畢業,研究領域覆蓋數據融合、因果推斷、自動機器學習、隱私保護計算等領域。

曾擔任NeurIPS’21、NeurIPS’21、AAAI’22的領域主席,在IJCAI和NeurIPS上三次組織workshop,在CIKM’22上組織了AnalytiCup比賽,並在KDD、AAAI上多次做了Tutorial。

據他透露,FederatedScope現在已經開源0.2.0版本。

新版本可以更好支持大規模下的異步聯邦學習,對用户的友好度也更高。

One More Thing

最後是福利時刻~

在聊完獲獎論文的相關內容後,我們還找兩位大佬問了問AI研究方面的學習經驗,大家趕緊來抄作業!

首先,兩位學者都表示,想學好AI,數學非常關鍵

李雅亮提到,自己觀察到這幾年很多學生、實習生的數學能力都有些下降,這其實非常值得關注。

現在很多工具變得好用後,大家開始更追求短平快的東西,忽略了更為深入、本質的知識學習。其實數學作為基礎能力,和代碼這種工程方面的能力,二者缺一不可。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

其次,是大家都關心的怎麼讀論文的問題。

王楨表示,讀好的論文才是關鍵所在。

自己要先學會去甄別什麼是好的論文,然後把時間花在刀刃上。

而且相較於讀論文,李雅亮更鼓勵大家去多讀書。因為書會幫助大家更好去建立知識體系。

現在,即便他們都已經畢業很多年了,在達摩院智能計算實驗室也經常組織讀書活動。

推薦大家讀一下《Fundation of Machine Learning》!我相信無論是小白還是行家,都會從這本書中得到更多新的見解。

KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎

除了學習經驗,我們還問了問大佬們有啥業餘愛好。

結果他們都表示,他們做研究就是靠興趣驅動的,所以平常也很愛鑽研。

這點你學廢了嗎?

— 完 —

量子位 QbitAI · 頭條號簽約

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3423 字。

轉載請註明: KDD最佳論文獎首次獨立頒給中國內地機構!達摩院開源工作獲獎 - 楠木軒