前百度金融CRO王勁：十七年運通歲月沉澱，我的消費信貸風控觀

金融人手握大量數據、規則和算法，卻沒有讀懂真正的風險管理：

數據量越多、維度越全，就是更好的數據嗎？就能實現最好的風控效果嗎？
風險管理是一門尋求平衡點的科學，那麼我們應該在什麼問題上尋求平衡？只是風控尺度和業務增長之間的問題嗎？
一個卓越的風控模型，除了考慮算法、考慮數據，它到底還有多少細節是你錯失的？
……

王勁曾是百度金融的CRO，也在有着“風控黃埔軍校”之稱的美國運通工作了十七年。

次貸危機之後，美聯儲加強了對所有銀行機構的風險模型管理，而他在美國運通的最後五年，創建了運通的模型監管和驗證中心，對全公司上千個模型進行全面的管理——親身經歷過次貸危機的他，對風險管理有着獨到的洞察。

近日，雷鋒網《銀行業AI生態雲峯會》就邀請到融慧金科CEO王勁，作為「數字化風控」賽道的科技專家，為大家帶來他在銀行智能信貸風控的管理理念和應用實踐。

以下為王勁的演講內容，雷鋒網AI金融評論作了不改變原意的編輯：

大家好，非常高興今天有機會跟大家在線上分享我在管理風險的二十多年中，所沉澱的一些知識和經驗，希望對大家有所幫助。

金融機構做好風險管理平衡的核心要素

近年來，隨着中國互聯網金融飛速發展，同時面臨着很多的難題和挑戰。

首先，如何定義風險的使命，風險管理人員的定位一定要準確。

對於風險的使命，我實際上是借用美國運通當時的CRO在二十多年前的一個定義——推動有利潤的業務增長，同時提供卓越的客户體驗，避免意外風險——整個描述並沒有表示要降低風險或者把風險降到零。

有利潤，意味着風險一定要在可控的範圍之內。

增長，風險不是限制業務的發展，而是要幫助業務做有利潤的增長。

卓越的客户體驗。很多時候我們不是太關注，但是風險管理的每一個決策、每一個動作實際上是會影響到客户體驗的。

避免意外風險。因為金融本身就是在運營風險，沒有風險是不可能的，我們並不懼怕可預知的風險。

比如我們判斷一個客户的壞賬率是2%~3%，這個並不是風險——但如果最後的實際結果是5%~10%，這個情況就是意外風險。

所以，我們做風險管理，一定要每時每刻預判未來可能發生的事情並及早應對。例如壓力測試就是一個為了避免意外風險的風險管理動作。

風險管理最重要的就是對數據的把控，思考數據的生命週期。首先要從對業務產品和客户的選擇當中，決定需要什麼樣的數據。

基於業務方向，我們要對內外部的數據進行各種盤點，比如從客户那裏收集什麼樣的數據？在人行要拿什麼樣的徵信數據？需要用什麼樣的第三方數據進行補充？為了服務客户和達到業務目標，必須要有足夠好的數據幫助我們進行風險管理。

此外，立下數據選擇的原則和條件。因為在眾多的數據中，有合規的和不合規的，並且存在着強弱之分，如果沒有制定相應的原則和條件，在未來就會有很大的麻煩。

數據的分析和引入。我們要分析、評判市場上的各種數據源，再做引入，之後要對數據進行實時監控，以保證其質量和持續的效果，這就是數據戰略的一個閉環。

接下來跟大家分享一下，選擇數據的條件。

數據必須合規，必須要滿足國家和政府的要求且一定要有授權。
數據的全國人口覆蓋率要高，這是一個非常重要的要求。如果數據的覆蓋率不高，就會影響模型的識別度、穩定度等。
數據的新鮮度和時效性要高。要達到日更新至少是t+3，即今天的決策一定要達到3天之內的時效性。如果現在的決策數據是5天前的，那麼現在這個模型決策的質量就會相應地打折扣。
數據的歷史長，可以回溯至12個月以上。因為很多的衍生變量會回溯歷史，如果沒有可回溯的歷史，那麼也不會形成這些非常重要的變量。
同時，可回溯也讓我們能夠驗證一些歷史數據的效果，這個條件是非常重要的。
數據的穩定性好，我們會跨時間窗觀察數據的波動。如果數據波動性太大，那穩定性肯定是不好的。

數據戰略是一個相對長期的落地過程，在這個過程中，數據要達到怎樣的標準和維度？

覆蓋低到覆蓋高。
信息薄到信息厚。有些客户可能有20個變量可以描述，那麼可不可以將其演變成，平均有30~40個變量在描述客户？這就是二者之間的關係。
質量低到質量高，不能用到一些垃圾數據。
弱相關到強相關。比如在剛開始的20個變量當中，可能有80%的弱變量；如果剩下的20%的強相關演變成30%的強相關變量，模型的決策就會更好。
高成本到低成本。
源集中到源分散。大家通常把自己的一些策略和模型，特別地依賴於某一兩個數據源，這實際上存在着非常大的操作風險。我們一定要在數據戰略中將其來源儘量地分散開來，當然也不是無限制的分散，而是要找到其中的平衡點。

引入數據之後，它的價值轉化分為哪些部分？

首先，是基礎的數據層，數據源包含了客户提供的數據、徵信數據、第三方數據等等。

數據層之上，是工序#1的加工層，將對各種數據源進行衍生，否則原始數據就不會得到很好的利用。

在衍生變量這一層，要着眼於這些變量的使用場景。有些衍生變量與欺詐相關，有的與信用相關，有些則是與精準獲客相關。

工序#2是集成層，因為衍生變量可能是基於某個數據源而成，那麼，模型和規則就會幫助我們把各個數據源的衍生變量進行再集成，使其成為一個子模型或者是一套規則。

工序#3是解決方案層，反欺詐的解決方案可能會有上百個規則，這上百個規則可能用到十個模型，相當於將各種各樣的材料修建成一所房子，最後輸出給持牌的金融機構。

從最底層的徵信數據層到各種加工層，金融行業裏的參與者承擔着不同的角色。當每個銀行和消金要進行自身轉換時，他們也需要承擔加工、集成和解決方案的角色。

如何做好風險管理中的平衡

很多人並不是特別理解，風險管理永遠是一個尋找平衡點的科學。除了要用到人工智能、非常多的數據、算法之外，實際上，很大一部分風險管理是在尋求平衡。

平衡點之一：風控和業務增長之間的平衡。

比如在產品人羣額度的選擇上，我們可以操作高利率、低質人羣、低額度。

雖然風險高，但是獲客成本低，業務量也會加大，這些大量有貸款需求的人，他們的風險是比較高的。

與此同時，也可以操作低利率、優質人羣、高額度，這部分人羣可能風險比較低，但是獲客成本高。

優質人羣對信貸的需求相對較低，所以業務量也較少。大銀行吸引的是大批的優質人羣，其他的小銀行和金融機構，可能在這方面的挑戰就相對大一些。

所以，在運營當中，要在高利率和低利率，優質人羣和和低質人羣，高額度還是低額度之間尋找平衡點。

平衡點之二：在風險管理的數據、模型以及策略中，如何平衡簡單和複雜。

這也是非常考驗人——簡單意味着準確度低，合規操作風險低，相應的成本也低。

而複雜，模型用到了非常多的變量，非常複雜的算法，那麼準確度可能會相應提高，但是合規操作的風險也變高了，成本也會增加。

所以，如何在業務的初期、業務的增長期以及成熟期，找到其中的平衡點，是一個具有挑戰性的課題。

平衡點之三：“科學”和“藝術”之間的平衡。

比如在風險管理當中，我們會用到大量的數據，用科學的方法對數據進行迴歸和分析，它的好處就是客觀的，而不是主觀的。

因為要基於數據過去的表現做策略和模型，其不利的地方就在於侷限於數據的好壞，在一個混亂的P2P和payday loan的時代收集到的數據，我們要對其科學性進行質疑。

過去的數據並不能夠代表未來。過去的利率可能做到50%、甚至100%，但是監管加強之後，利率就得下調，這是對科學的一些挑戰。

“藝術”則依賴於實踐的經驗，宏觀的發展方向，包括監管、競爭環境以及社會行為。人們為什麼要借貸？為什麼還不上貸款？這些都是基於經驗所沉澱下來的一些東西。

其壞處在於侷限於個人的經歷，如果CRO或者總經理在風險管理方面的經驗不夠，在決策上就會遇到一些問題。

所以，風險管理既不能夠完全的依靠數據科學，也不能夠完全依靠主觀經驗，關鍵在於找到其中的平衡點。

卓越風控模型建設的必備能力

在模型風險管理當中，現今的大數據以及互聯網金融時代是離不開模型的，在互聯網金融管理的原則方面，就是要充分的利用概率，而這個概率是通過模型實現的。

一個卓越的模型需要有哪些要求？

數據選擇，一定要考慮數據的覆蓋率、缺失率、新鮮度和穩定性。
衍生創新，一個模型的好壞與否，前兩點是非常重要的，如果衍生變量做得不是特別好，那麼數據本身跟所要預測的東西的相關性就會比較弱。所以在衍生的過程當中，要增強其穩定性。
架構選擇，有了原料和衍生品之後，應該怎樣架構模型？用不用子模型，要不要做人羣分割？這些因素將會影響最後模型的中長期的表現，以及維護的成本。
算法選擇，要用傳統的邏輯迴歸，還是有一些簡單的決策樹，或者用機器學習神經網絡，需要對這些技術加以選擇。
監控迭代，每一個模型都有其對應的生命週期，所以我們一定要知道每一個模型什麼時候失效，什麼時候應該迭代，我們一定要打造一個能夠實時跟蹤的平台，在衰退後又能夠快速的迭代。
y的定義和樣本的篩選。

雖然擁有了優質的原材料、數據、衍生變量，但是如果y的定義出現問題，是要將逾期30天定義成壞樣本，還是將60天的逾期定義為壞樣本？是否在其中增加額度的一些條件，而不是壞賬的金額條件。

樣本的選擇也是如此。歷史上的樣本可能是有波動的，如何選擇能夠帶來對未來預測的樣本，也是一個非常重要的因素。

評判的標準，除了辨別力之外，精準度要高、穩定性和複雜性要強以及可解釋性。

所以模型的建設不僅僅只是算法，也並非是對數據的選擇，而是一個非常複雜的提煉的過程。

舉例説明模型該如何架構？

第一個架構方式：比如有三個數據源，先將其集成到內部的數據庫裏，再利用這些幾百至上千的數據，做出一個模型A。

第二個架構方式：基於每個數據源建立一個子模型，然後將這些子模型再集成為另外一個模型A。

這兩種都有各自的優劣勢。

第一種，識別率和精準度相對較高。因為它是基於相對底層的數據集成起來的，每一個子數據都有相應的權重，其精準度會相對高一些。

劣勢是穩定性弱，操作風險高。如果把這三個數據源的數據混雜在一起，那麼一個數據源出了問題，就會影響模型A的迭代速度和效果。

第二個的優勢在於穩定性強，通過集成數據源一和數據源二，就會削弱一些波動，穩定性得到增強的同時，操作風險也比較低。

如果數據源三出了問題，將子模型一和二並列，雖然還是同一個模型，但是識別率和精準度會受到損傷。兩個不同的模型架構，將影響到未來的表現結果。

很多信貸公司都會遇到的課題就是，在不同的流量入口的條件下，每一個渠道的人羣和風險特徵是不相同的。

那麼，是將每一個渠道做一個模型？還是將流量渠道1和2合併形成模型A，之後通過再流量渠道3形成模型C？

什麼情況下可以合併呢？當某一個渠道的樣本很少，並且一和二的風險特徵相近，同時某一個渠道的樣本也不充足時，合併會產生更好的效果。

那麼，該怎樣有效使用模型？模型只是一個工具而已，定義模型就像一個温度計，高燒定義在什麼位置？低燒定義在哪個温度點？在使用時一定要明確模型的優點和侷限性，否則就會出問題。

優點是客觀的，能夠進行比較精準的排序，高效率地處理客户，同時依靠統計技術調整業務、變動閾值，以影響通過率和壞賬結果。

侷限性在於開發時間較長，過去的表現不能完全預測未來，所以一定要有“藝術”判斷的部分；模型也是對現實的簡化。

比如用户不能還款的原因，有可能是失業、生病或者離婚，面對這些複雜的因素，模型是無法判斷每一個逾期的原因。

當模型用到了非常多的變量之後，透明度、穩定性、可解釋性都會受到挑戰。在強監管的金融環境裏，都需要將這些因素考慮進去。

金融動態風險管理的核心關注點

風險管理會受到宏觀政策、國際環境、經濟週期、監管和競爭環境等因素的影響，所以要增強動態管理的理念。

具體分為以下三個方面：

第一，實時瞭解客户，其中包括時效性很高的徵信信息、客户信息、公開信息，以及第三方的信息，一定不能是非常陳舊的信息，那樣無法做到動態的風險管理。

第二，尋找風險和回報的平衡點。風險管理就是要不斷地尋找平衡點，風險管理和業務的博弈，簡單和複雜的博弈，都需要不斷地進行調整。

最好基於利潤的角度，平衡風險和回報。例如投入和回報的比例，利率應該定在哪個點，才能得到恰當的回報。

風險管理一定不能只看到當今的風險，只參考當今的數據。

我們一定要從計量和定性的角度，判斷在壓力狀況下評估的這部分優勢人羣和組合；如何判斷他們在壓力情況下的壞賬情況，是否會讓我們從賺錢到虧本，這些都是風險管理中非常重要的理念。

第三，經驗判斷，我們一定要利用經驗來補充科學，其中包含市場、競對、員工、監管學習新的思想和方法，例如在次貸危機當中，很多機構關張或受到重創，但也有很多機構變得非常成功。

例如當時的摩根，就是在次貸危機裏相對成功的案例，但是美雷曼還有AIG保險公司都受到了重創，主要原因在於缺乏經驗的判斷和果斷的決策。

需要利用經驗來判斷現今的時事，哪些需要相信模型，哪些要繞過模型做決策，都是動態風險管理的理由。

最近兩三年，國家把金融環境梳理得非常乾淨、健康，有利於國家經濟的正常發展。銀行、消金公司等持牌金融機構都要面臨合規治理。

怎樣利用技術手段，在達到國家要求的同時，提升金融合規的自動化、專業性、時效性、包容性、協調性？需要做到以下四大方面：

第一，身份識別和控制，如何做好KYC（Know Your Customer），明確用户資產能力和還款能力。國家一直在強調要合理不能過度借貸給客户，這些都是KYC的一部分。

第二，數據安全管理，數據安全包括隱私、來源、使用、保管、質量的保障。

第三，風險模型管理，在次貸危機之後，美聯儲加強了對所有銀行機構的風險模型的管理。我在美國運通的最後5年創建了運通的模型監管和驗證中心，對全公司的1000個模型進行全面的管理。

第四，自動化監控體系，如何實時監控業務、風險指標、數據、模型、穩定性、衰退情況，及時地預警和快速的應對，以對操作風險進行有效把控。

一家金融機構如果能在以上四個方面做到高效並加以完善，將會是非常不錯的一種狀態。

觀看回放丨雷鋒網·銀行業AI生態雲峯會

掃碼關注公眾號“AI金融評論”（ID: aijinrongpinglun），加入專家直播羣，觀看全部雲峯會內容回放。