金融人手握大量數據、規則和算法,卻沒有讀懂真正的風險管理:
數據量越多、維度越全,就是更好的數據嗎?就能實現最好的風控效果嗎?
風險管理是一門尋求平衡點的科學,那麼我們應該在什麼問題上尋求平衡?只是風控尺度和業務增長之間的問題嗎?
一個卓越的風控模型,除了考慮算法、考慮數據,它到底還有多少細節是你錯失的?
……
王勁曾是百度金融的CRO,也在有着“風控黃埔軍校”之稱的美國運通工作了十七年。
次貸危機之後,美聯儲加強了對所有銀行機構的風險模型管理,而他在美國運通的最後五年,創建了運通的模型監管和驗證中心,對全公司上千個模型進行全面的管理——親身經歷過次貸危機的他,對風險管理有着獨到的洞察。
近日,雷鋒網《銀行業AI生態雲峯會》就邀請到融慧金科CEO王勁,作為「數字化風控」賽道的科技專家,為大家帶來他在銀行智能信貸風控的管理理念和應用實踐。
以下為王勁的演講內容,雷鋒網AI金融評論作了不改變原意的編輯:
大家好,非常高興今天有機會跟大家在線上分享我在管理風險的二十多年中,所沉澱的一些知識和經驗,希望對大家有所幫助。
金融機構做好風險管理平衡的核心要素近年來,隨着中國互聯網金融飛速發展,同時面臨着很多的難題和挑戰。
首先,如何定義風險的使命,風險管理人員的定位一定要準確。
對於風險的使命,我實際上是借用美國運通當時的CRO在二十多年前的一個定義——推動有利潤的業務增長,同時提供卓越的客户體驗,避免意外風險——整個描述並沒有表示要降低風險或者把風險降到零。
有利潤,意味着風險一定要在可控的範圍之內。
增長,風險不是限制業務的發展,而是要幫助業務做有利潤的增長。
卓越的客户體驗。很多時候我們不是太關注,但是風險管理的每一個決策、每一個動作實際上是會影響到客户體驗的。
避免意外風險。因為金融本身就是在運營風險,沒有風險是不可能的,我們並不懼怕可預知的風險。
比如我們判斷一個客户的壞賬率是2%~3%,這個並不是風險——但如果最後的實際結果是5%~10%,這個情況就是意外風險。
所以,我們做風險管理,一定要每時每刻預判未來可能發生的事情並及早應對。例如壓力測試就是一個為了避免意外風險的風險管理動作。
風險管理最重要的就是對數據的把控,思考數據的生命週期。首先要從對業務產品和客户的選擇當中,決定需要什麼樣的數據。
基於業務方向,我們要對內外部的數據進行各種盤點,比如從客户那裏收集什麼樣的數據?在人行要拿什麼樣的徵信數據?需要用什麼樣的第三方數據進行補充?為了服務客户和達到業務目標,必須要有足夠好的數據幫助我們進行風險管理。
此外,立下數據選擇的原則和條件。因為在眾多的數據中,有合規的和不合規的,並且存在着強弱之分,如果沒有制定相應的原則和條件,在未來就會有很大的麻煩。
數據的分析和引入。我們要分析、評判市場上的各種數據源,再做引入,之後要對數據進行實時監控,以保證其質量和持續的效果,這就是數據戰略的一個閉環。
接下來跟大家分享一下,選擇數據的條件。
數據必須合規,必須要滿足國家和政府的要求且一定要有授權。
數據的全國人口覆蓋率要高,這是一個非常重要的要求。如果數據的覆蓋率不高,就會影響模型的識別度、穩定度等。
數據的新鮮度和時效性要高。要達到日更新至少是t+3,即今天的決策一定要達到3天之內的時效性。如果現在的決策數據是5天前的,那麼現在這個模型決策的質量就會相應地打折扣。
數據的歷史長,可以回溯至12個月以上。因為很多的衍生變量會回溯歷史,如果沒有可回溯的歷史,那麼也不會形成這些非常重要的變量。
同時,可回溯也讓我們能夠驗證一些歷史數據的效果,這個條件是非常重要的。
數據的穩定性好,我們會跨時間窗觀察數據的波動。如果數據波動性太大,那穩定性肯定是不好的。
數據戰略是一個相對長期的落地過程,在這個過程中,數據要達到怎樣的標準和維度?
覆蓋低到覆蓋高。
信息薄到信息厚。有些客户可能有20個變量可以描述,那麼可不可以將其演變成,平均有30~40個變量在描述客户?這就是二者之間的關係。
質量低到質量高,不能用到一些垃圾數據。
弱相關到強相關。比如在剛開始的20個變量當中,可能有80%的弱變量;如果剩下的20%的強相關演變成30%的強相關變量,模型的決策就會更好。
高成本到低成本。
源集中到源分散。大家通常把自己的一些策略和模型,特別地依賴於某一兩個數據源,這實際上存在着非常大的操作風險。我們一定要在數據戰略中將其來源儘量地分散開來,當然也不是無限制的分散,而是要找到其中的平衡點。
引入數據之後,它的價值轉化分為哪些部分?
首先,是基礎的數據層,數據源包含了客户提供的數據、徵信數據、第三方數據等等。
數據層之上,是工序#1的加工層,將對各種數據源進行衍生,否則原始數據就不會得到很好的利用。
在衍生變量這一層,要着眼於這些變量的使用場景。有些衍生變量與欺詐相關,有的與信用相關,有些則是與精準獲客相關。
工序#2是集成層,因為衍生變量可能是基於某個數據源而成,那麼,模型和規則就會幫助我們把各個數據源的衍生變量進行再集成,使其成為一個子模型或者是一套規則。
工序#3是解決方案層,反欺詐的解決方案可能會有上百個規則,這上百個規則可能用到十個模型,相當於將各種各樣的材料修建成一所房子,最後輸出給持牌的金融機構。
從最底層的徵信數據層到各種加工層,金融行業裏的參與者承擔着不同的角色。當每個銀行和消金要進行自身轉換時,他們也需要承擔加工、集成和解決方案的角色。
如何做好風險管理中的平衡很多人並不是特別理解,風險管理永遠是一個尋找平衡點的科學。除了要用到人工智能、非常多的數據、算法之外,實際上,很大一部分風險管理是在尋求平衡。
平衡點之一:風控和業務增長之間的平衡。
比如在產品人羣額度的選擇上,我們可以操作高利率、低質人羣、低額度。
雖然風險高,但是獲客成本低,業務量也會加大,這些大量有貸款需求的人,他們的風險是比較高的。
與此同時,也可以操作低利率、優質人羣、高額度,這部分人羣可能風險比較低,但是獲客成本高。
優質人羣對信貸的需求相對較低,所以業務量也較少。大銀行吸引的是大批的優質人羣,其他的小銀行和金融機構,可能在這方面的挑戰就相對大一些。
所以,在運營當中,要在高利率和低利率,優質人羣和和低質人羣,高額度還是低額度之間尋找平衡點。
平衡點之二:在風險管理的數據、模型以及策略中,如何平衡簡單和複雜。
這也是非常考驗人——簡單意味着準確度低,合規操作風險低,相應的成本也低。
而複雜,模型用到了非常多的變量,非常複雜的算法,那麼準確度可能會相應提高,但是合規操作的風險也變高了,成本也會增加。
所以,如何在業務的初期、業務的增長期以及成熟期,找到其中的平衡點,是一個具有挑戰性的課題。
平衡點之三:“科學”和“藝術”之間的平衡。
比如在風險管理當中,我們會用到大量的數據,用科學的方法對數據進行迴歸和分析,它的好處就是客觀的,而不是主觀的。
因為要基於數據過去的表現做策略和模型,其不利的地方就在於侷限於數據的好壞,在一個混亂的P2P和payday loan的時代收集到的數據,我們要對其科學性進行質疑。
過去的數據並不能夠代表未來。過去的利率可能做到50%、甚至100%,但是監管加強之後,利率就得下調,這是對科學的一些挑戰。
“藝術”則依賴於實踐的經驗,宏觀的發展方向,包括監管、競爭環境以及社會行為。人們為什麼要借貸?為什麼還不上貸款?這些都是基於經驗所沉澱下來的一些東西。
其壞處在於侷限於個人的經歷,如果CRO或者總經理在風險管理方面的經驗不夠,在決策上就會遇到一些問題。
所以,風險管理既不能夠完全的依靠數據科學,也不能夠完全依靠主觀經驗,關鍵在於找到其中的平衡點。
卓越風控模型建設的必備能力在模型風險管理當中,現今的大數據以及互聯網金融時代是離不開模型的,在互聯網金融管理的原則方面,就是要充分的利用概率,而這個概率是通過模型實現的。
一個卓越的模型需要有哪些要求?
數據選擇,一定要考慮數據的覆蓋率、缺失率、新鮮度和穩定性。
衍生創新,一個模型的好壞與否,前兩點是非常重要的,如果衍生變量做得不是特別好,那麼數據本身跟所要預測的東西的相關性就會比較弱。所以在衍生的過程當中,要增強其穩定性。
架構選擇,有了原料和衍生品之後,應該怎樣架構模型?用不用子模型,要不要做人羣分割?這些因素將會影響最後模型的中長期的表現,以及維護的成本。
算法選擇,要用傳統的邏輯迴歸,還是有一些簡單的決策樹,或者用機器學習神經網絡,需要對這些技術加以選擇。
監控迭代,每一個模型都有其對應的生命週期,所以我們一定要知道每一個模型什麼時候失效,什麼時候應該迭代,我們一定要打造一個能夠實時跟蹤的平台,在衰退後又能夠快速的迭代。
y的定義和樣本的篩選。
雖然擁有了優質的原材料、數據、衍生變量,但是如果y的定義出現問題,是要將逾期30天定義成壞樣本,還是將60天的逾期定義為壞樣本?是否在其中增加額度的一些條件,而不是壞賬的金額條件。
樣本的選擇也是如此。歷史上的樣本可能是有波動的,如何選擇能夠帶來對未來預測的樣本,也是一個非常重要的因素。
評判的標準,除了辨別力之外,精準度要高、穩定性和複雜性要強以及可解釋性。
所以模型的建設不僅僅只是算法,也並非是對數據的選擇,而是一個非常複雜的提煉的過程。
- 舉例説明模型該如何架構?
第一個架構方式:比如有三個數據源,先將其集成到內部的數據庫裏,再利用這些幾百至上千的數據,做出一個模型A。
第二個架構方式:基於每個數據源建立一個子模型,然後將這些子模型再集成為另外一個模型A。
這兩種都有各自的優劣勢。
第一種,識別率和精準度相對較高。因為它是基於相對底層的數據集成起來的,每一個子數據都有相應的權重,其精準度會相對高一些。
劣勢是穩定性弱,操作風險高。如果把這三個數據源的數據混雜在一起,那麼一個數據源出了問題,就會影響模型A的迭代速度和效果。
第二個的優勢在於穩定性強,通過集成數據源一和數據源二,就會削弱一些波動,穩定性得到增強的同時,操作風險也比較低。
如果數據源三出了問題,將子模型一和二並列,雖然還是同一個模型,但是識別率和精準度會受到損傷。兩個不同的模型架構,將影響到未來的表現結果。
很多信貸公司都會遇到的課題就是,在不同的流量入口的條件下,每一個渠道的人羣和風險特徵是不相同的。
那麼,是將每一個渠道做一個模型?還是將流量渠道1和2合併形成模型A,之後通過再流量渠道3形成模型C?
什麼情況下可以合併呢?當某一個渠道的樣本很少,並且一和二的風險特徵相近,同時某一個渠道的樣本也不充足時,合併會產生更好的效果。
那麼,該怎樣有效使用模型?模型只是一個工具而已,定義模型就像一個温度計,高燒定義在什麼位置?低燒定義在哪個温度點?在使用時一定要明確模型的優點和侷限性,否則就會出問題。
優點是客觀的,能夠進行比較精準的排序,高效率地處理客户,同時依靠統計技術調整業務、變動閾值,以影響通過率和壞賬結果。
侷限性在於開發時間較長,過去的表現不能完全預測未來,所以一定要有“藝術”判斷的部分;模型也是對現實的簡化。
比如用户不能還款的原因,有可能是失業、生病或者離婚,面對這些複雜的因素,模型是無法判斷每一個逾期的原因。
當模型用到了非常多的變量之後,透明度、穩定性、可解釋性都會受到挑戰。在強監管的金融環境裏,都需要將這些因素考慮進去。
金融動態風險管理的核心關注點風險管理會受到宏觀政策、國際環境、經濟週期、監管和競爭環境等因素的影響,所以要增強動態管理的理念。
具體分為以下三個方面:
第一,實時瞭解客户,其中包括時效性很高的徵信信息、客户信息、公開信息,以及第三方的信息,一定不能是非常陳舊的信息,那樣無法做到動態的風險管理。
第二,尋找風險和回報的平衡點。風險管理就是要不斷地尋找平衡點,風險管理和業務的博弈,簡單和複雜的博弈,都需要不斷地進行調整。
最好基於利潤的角度,平衡風險和回報。例如投入和回報的比例,利率應該定在哪個點,才能得到恰當的回報。
風險管理一定不能只看到當今的風險,只參考當今的數據。
我們一定要從計量和定性的角度,判斷在壓力狀況下評估的這部分優勢人羣和組合;如何判斷他們在壓力情況下的壞賬情況,是否會讓我們從賺錢到虧本,這些都是風險管理中非常重要的理念。
第三,經驗判斷,我們一定要利用經驗來補充科學,其中包含市場、競對、員工、監管學習新的思想和方法,例如在次貸危機當中,很多機構關張或受到重創,但也有很多機構變得非常成功。
例如當時的摩根,就是在次貸危機裏相對成功的案例,但是美雷曼還有AIG保險公司都受到了重創,主要原因在於缺乏經驗的判斷和果斷的決策。
需要利用經驗來判斷現今的時事,哪些需要相信模型,哪些要繞過模型做決策,都是動態風險管理的理由。
最近兩三年,國家把金融環境梳理得非常乾淨、健康,有利於國家經濟的正常發展。銀行、消金公司等持牌金融機構都要面臨合規治理。
怎樣利用技術手段,在達到國家要求的同時,提升金融合規的自動化、專業性、時效性、包容性、協調性?需要做到以下四大方面:
第一,身份識別和控制,如何做好KYC(Know Your Customer),明確用户資產能力和還款能力。國家一直在強調要合理不能過度借貸給客户,這些都是KYC的一部分。
第二,數據安全管理,數據安全包括隱私、來源、使用、保管、質量的保障。
第三,風險模型管理,在次貸危機之後,美聯儲加強了對所有銀行機構的風險模型的管理。我在美國運通的最後5年創建了運通的模型監管和驗證中心,對全公司的1000個模型進行全面的管理。
第四,自動化監控體系,如何實時監控業務、風險指標、數據、模型、穩定性、衰退情況,及時地預警和快速的應對,以對操作風險進行有效把控。
一家金融機構如果能在以上四個方面做到高效並加以完善,將會是非常不錯的一種狀態。
觀看回放丨雷鋒網·銀行業AI生態雲峯會掃碼關注公眾號“AI金融評論”(ID: aijinrongpinglun),加入專家直播羣,觀看全部雲峯會內容回放。