邏輯匯創始人叢明舒：聯邦學習中的經濟激勵

8月7日-8月9日，2020年全球人工智能和機器人峯會（簡稱“CCF-GAIR 2020”）在深圳如期舉辦！CCF-GAIR由中國計算機學會（CCF）主辦，香港中文大學（深圳）、雷鋒網聯合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協辦，以“AI新基建產業新機遇”為大會主題，致力打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。雷鋒網

8月9日下午，在「聯邦學習與大數據隱私專場」上，邏輯匯創始人叢明舒博士進行了題為「聯邦學習中的經濟激勵：從博弈論視角分析聯邦學習商業化過程的經濟激勵機制」的演講。雷鋒網

以下是叢明舒老師在大會的演講實錄，AI科技評論作了不修改原意的整理和編輯：

在數據隱私日益得到重視的當下，聯邦學習具有非常大的現實意義。但在聯邦學習的商業落地過程中，除了數據隱私的考慮之外，為聯邦學習的參與者提供充足的經濟激勵也是必不可少的。

個體理性約束

為什麼要在聯邦學習中引入經濟激勵機制？因為在聯邦學習的過程中，非常可能存在個體利益和集體利益的衝突而導致合作失敗。

這幾年在跟進聯邦學習項目的過程中，我們遇到一個例子：保險公司之間希望通過聯邦學習建立一個模型來對保險的賠付率進行更加精確的預測，但是在項目落地的過程中，項目發起人很快發現，小的保險公司特別有興趣參加聯邦學習，但大的保險公司卻興趣一般。為什麼？我們用一個非常簡化的經濟學模型來解釋這個問題。

假設市場上只有兩家保險公司，分別是A和B。A有海量數據，B只有少量的數據。在獨立建模的情形下，A的模型要遠好於B的模型，所以A的市場佔有率會非常高。如果A與B合作建模，聯邦模型的質量會提升，總市場規模會擴大。但與此同時，由於A和B使用同樣的模型，A的市場佔有率會下降。在這種情況下，A參與聯邦之後的收益反而低於它獨立建模的情形，所以A是沒有任何動力參與聯邦學習的。

在這裏我們引入了博弈論的一個概念——“個體理性”。個體理性約束指的是，聯邦學習任何參與者的淨收益不能低於他不參與聯邦學習的情形。個體理性約束在博弈論中是一項非常基礎的要求，但在上面所説的案例中，違反了參與者A的個體理性約束。

針對上述的問題，我們認為在完全信息的情形下引入一個聯邦的組織者即可以解決。

這個聯邦組織者可以向每個模型的用户收取一定的模型使用費用。這個費用相當於用户使用模型所獲得的收益。然後聯邦組織者再將收取的模型使用費用轉化為聯邦的收入，按照A和B所貢獻的數據量比例將收益分配給A和B。在這種情形下，用户A和用户B的淨收益都會高於他們獨立建模的情形，因此這次合作是成功的。

激勵相容

但這個機制發揮作用的前提是，聯邦組織者要非常精確地知道這個模型會給各個用户帶來多少收益，也非常精確地知道A和B各自貢獻數據的成本、擁有的數據量。但現實操作中存在信息不對稱，聯邦組織者沒有辦法掌握這些私有信息，所以聯邦的參與者可能會通過謊報這些私有信息，和聯邦組織者討價還價，導致合作失敗。

例子1：

聯邦學習組織的參與者謊報Ta使用聯邦模型所獲得的收益，稱聯邦模型作用不大，只能帶來非常少的收益，所以只付非常少的錢使用這種模型。在這種情況下，聯邦的收入降低，可用於二次分配的收入也會很低，這樣會導致用户A的收益再次低於獨立建模的情形，合作失敗。

例子2：

用户高報貢獻數據的成本，跟組織者抱怨Ta的數據成本昂貴，要求組織者分配的收益務必要覆蓋Ta所付出的成本，不然不願意參與組織者的聯邦學習。可是，如果聯邦組織者覆蓋一個用户的成本，就必然導致對其他用户的支付減少。這種情況會導致其他用户參與聯邦的淨收益低於獨立建模的情形，合作再次失敗。

例子3：

參與方瞞報擁有的數據量。比如説，A一方面使用自己所擁有的海量數據獨立建模，同時拿出小部分質量差的數據給聯邦學習和用户B去一起建一個聯邦模型。這時候聯邦模型的質量還不如私有模型，所以不會很大地損害用户A的市場佔有率，A又通過參與聯邦學習，從聯邦獲得一定的貢獻數據的報酬。在這個策略下，用户A的淨收益要高於Ta誠實貢獻所有數據的情形，所以A有很大動力去説謊。

這就要介紹博弈論的第二個概念：激勵相容。激勵相容約束是説，每個用户誠實報告私有信息對Ta而言是最優選擇。在這個情形下，用户A的激勵相容約束是被打破的。由於用户A説謊，這時候用户B參與聯邦學習的淨收益小於Ta獨立建模的情形，合作再次失敗。

綜上所述，在聯邦學習中可能存在使用模型的收益、貢獻數據的成本以及參與者擁有的數據量的三重信息不對稱。這三重信息不對稱交織在一起，使得每個參與者追求個體利益最大化的結果是：集體利益受到損害，造成合作失敗。

聯邦學習的激勵機制設置就是為了解決上述問題。

克服貢獻數據成本的信息不對稱有一個簡單機制，就是允許用户隨便報成本，但是如果你報的成本太高，我就不再使用你的數據。雖然我不用你的數據，但我還允許你使用我的模型，我會向你收取使用模型的費用。假設B報告的成本非常高，聯邦就不用B的數據，從而也不需要向B支付覆蓋他成本的報酬。

在這種情況下，B會發現，他不僅得不到額外的貢獻數據報酬，還需要支付模型使用費，相當於他的數據是沒辦法變現的，淨收益低於把數據貢獻出來的淨收益，那麼B就沒有動力去虛報成本。

如上圖所示，A和B的淨收益隨着他們所報告的成本變化而變化。大家可以發現，無論B做了什麼，A誠實報告成本都是Ta最優的策略。無論A做了什麼，B誠實報告成本也是Ta最優的策略。在這個機制裏，誠實報告貢獻數據的成本形成了佔優策略均衡。在這種佔優策略均衡下，沒有任何用户願意偏離均衡情況，大家都會願意誠實報告成本。

上面例子給我們的啓示是，我們可以通過挑選數據貢獻者、控制模型的使用，以及合理計算對聯邦學習參與方的支付，來實現聯邦集體利益的最大化。

聯邦學習激勵機制的博弈論框架

在這個啓示下，我們提出了研究聯邦學習激勵機制博弈論的理論框架。

聯邦學習之激勵機制設計是為聯邦找到最優的組織和支付結構，從而實現一系列優化目標。組織結構包括使用哪些數據提供者的數據和如何控制模型的使用，支付結構指的是我們給每個參與方支付的金額。

遵循經濟學的傳統，我們畫出了聯邦學習經濟資源循環流向圖（如下）：

在聯邦學習中，模型使用者是否貢獻數據和是否使用模型應該分開。在這個模型中，供給側和需求側是分離的。一個數據提供者是否提供數據、提供多少數據，與Ta能否使用模型和使用模型需要支付多少費用是無關的。

在我們設計的框架下，聯邦學習的參與者可以是數據提供者，也可以是模型使用者，或者兩者兼具。在供給側，數據提供者提供數據，獲得報酬。在需求側，模型使用者使用模型，並支付一定的費用。

這時，數據提供者和模型使用者都會遵循Ta的個體利益最大化的原則去選擇策略。在供給側，數據提供者會選擇報告Ta所擁有的數據量以及貢獻數據的成本。在需求側，模型使用者會報告Ta使用模型得到的收益。

在可以預期參與者上述行為邏輯的情況下，我們的聯邦學習組織者要決定四件事情：1、決定使用哪些數據提供者的數據，以及從每個數據提供者中使用多少數據;2、計算給每個數據提供者的報酬;3、在需求側計算對不同模型使用者使用模型的權限控制;4、計算對每個模型使用者收取的費用。

對聯邦學習的組織者而言，經濟激勵計算可以被設置成比較標準的計算機模塊。這個模塊的輸入是數據提供者報告擁有的數據量、數據提供者報告的成本類型以及模型使用者報告的價值類型。模塊的輸出是從每個數據提供者那接收的數據、給每個數據提供者提供的報酬、使用模型的權限，以及向每個模型使用者的收費。

在這樣的框架下，我們遵循激勵機制設計所需要的兩個準則：

理性人準則

正如剛才所提到的，設計者面對的都是追求自身利益最大化的理性人。

信息不對稱準則

設計者和理性人之間的信息是不對稱的。信息不對稱包括三種情形：1) Unaware，所謂的“黑天鵝事件”，完全不知道某件事會發生；2) Uncertain，知道某些事情有可能發生，不知道事情發生的概率；3) Unknown，知道事件發生的概率分佈，但不知道具體發生了哪些事件。

此外，我們基於聯邦學習激勵機制設計了一些假設：

假設1：

擬線性環境&基於貨幣的機制設計。我們假設每個參與者的效用關於其擁有的金錢是呈線性的。由於有這個假設，我們可以通過調節給不同參與者的支付貨幣來調節Ta的效用，激勵Ta。

假設2：

數據供給與模型需求分開。

假設3：

存在外生資本市場。所以我們可以跨期調節聯邦學習的現金流，因為一般的聯邦學習項目開始有巨大現金投入，之後才產生收入，投入和收入在時間上不一定匹配。

在上述的假設下，我們優化了如下的目標：

非常不幸的是，上述的目標之間存在此消彼長的平衡關係。所以在實際應用中，我們往往只選擇其中最重要的幾個目標進行優化。

具體方案

為了説明聯邦學習激勵機制不是一個抽象的理論概念，我們簡單介紹兩個具體的方案：

方案一：位於需求側的Cremer-McLean機制

它是一個非常著名的博弈論機制，在需求側可以最大化聯邦的收入。

Cremer-McLean證明了如果不同模型使用者之間使用模型產生收益存在一定的相關性，那麼我們就一定可以找到一種支付結構使得聯邦的收入等於所有模型使用者使用模型的收益之和，從而使聯邦收入最大化。可是遵循傳統的Cremer-McLean的計算方法是非常昂貴的，所以我們可以通過用梯度下降算法最小化損失函數來求解Cremer-McLean機制，大大減少了計算複雜度。

方案二：位於供給側的PVCG機制

這個機制的目的主要是激勵供給側提供數據。

PVCG機制在著名的VCG機制的基礎上加了一個調整項。VCG機制是一個曾經獲得諾貝爾獎的理論成果，可以保證誠實報告參數，對每個參與者而言都是佔優策略。我們的貢獻是，通過優化神經網絡加入一個調整項之後，PVCG機制可以同時滿足個體理性、激勵相容、社會最優以及預算均衡。

關於聯邦學習激勵機制設計的更多內容，請大家關注我們在楊強教授帶領下將於年底出版的新書《Federated Learning: Privacy and Incentive》。