Vintage和KS視角

作者 | 北落師門

來源 | 自然與商業評論

信貸資產質量的好壞，傳統的評價指標有很多，其中不良貸款率是最常用的指標之一。各商業銀行每年的報告都會披露不良貸款餘額以及不良貸款率，各類報道和研報都會用這個指標來衡量信貸資產質量的好壞。就一家成熟的商業銀行而言，這一指標的使用有較強的參考意義，然而對於快速發展、資產規模增長很快的互聯網金融公司、消費金融、現金貸企業而言，不良貸款率的指標款率往往不能真實反映這家企業的風控水平和資產質量，有時還會獲得完全相反的結果。

不良貸款率的偏差及扭曲

當業務處於一個快速增長期，或者處在大量獲取新客階段時，貸款不良率並不能完全反應真實的資產質量，主要原因在於貸款業務有較長的表現週期。在前期，貸款的餘額一直在增加，分母一直在變大，但由於每一筆不良貸款都需要12個月（有的甚至更長，具體看貸款品種）才能完全表現出來，比率其實一直在縮小。

為簡單起見，我們舉例分析用不良貸款率衡量信貸質量產生的巨大偏差。簡單設定貸款不良率=不良貸款本金餘額/當前本金餘額，逾期超過90天的貸款，視為不良貸款,計為D90+。以下是某家互金公司3個不同階段的貸款不良率。我們統一假定信貸產品為3個月等額本息產品，每個月發放的貸款中，D90+後第一期應還本息對應的不良率為1%,第二期對應為2%，全部貸款到期後的所有不良貸款金額，佔每個月的放款金額的3%。例如：2016年1月放出去的貸款，到2016年4月貸款全部到期，到2017年7月後，所有逾期貸款都進入90+，假設這個D90+的比例為3%。

表一：每個月放款金額持續上升，到2016年12月底，貸款不良率僅0.6%。

表二：每個月放款金額一直保持穩定，到2016年12月底，貸款不良率9.3%。

表三：每個月放款金額一直下降，到2016年12月底，貸款不良率92.6%！

從表中可以看出來，貸款不良率跟放款金額的趨勢有緊密關係，因為分母為當前餘額，分子是逾期超過D90+的貸款餘額，一筆貸款要完全進入D90+，需要貸款全部到期後3個月，但是分母中的當前本金餘額，則是包含那些放出去但未到期，或者還款表現還不完整的資產。

貸款不良率這個指標，更多的是用來反應資產的當期組合的靜態狀況，通過當期放款金額和不良貸款餘額，可以獲知金融機構的放款增長趨勢。但並不能完全反應真實的壞賬風險，尤其是對於一家新興的互聯網金融公司，在放款金額處於快速上升階段時，其貸款不良率會被稀釋的很低。

另一方面還會造成反向的負偏差，對於某些期限較短的產品，這個指標顯示的風險比實際的會放大很多。

例如對於1個月的貸款，當前本金餘額基本上是最近1個月的放款金額，但是不良貸款餘額是會隨着時間的累積，會把前面很多期的不良貸款餘額累積起來，造成貸款不良率會越來越高。而實際這部分不良貸款已經在利息收入中進行了彌補，因此實際資產質量並未如不良貸款率所反映得那麼差。例如，最近媒體報道的馬上消費金融公司不良率為33%事件，以及某城商行ABS逾期率事件，都是因為這個原因造成的。

基於賬齡的Vintage分析法

在某些情形下，貸款不良率不能正確反映信貸產品的風險。對於貸款筆數巨大，單筆金額小的互金公司和現金貸企業而言，使用Vintage統計，更能真實反映一個多期信貸產品的全部風險畫像。

Vintage 統計是關注於過去和當前逾期狀況的分析方法，即Now+Ever。這類指標常常用於在授信風險管理裏的監控、建模以及預測資產變化趨勢。這種口徑下，逾期率的分母包含一個時間段內所有放款的金額或者人數，分子是在這段時間段內對應的資產在一個固定表現窗內的逾期金額或者人數。

例如“宜人貸財報中，關於逾期90天以上借款的累計淨壞賬率：截至2017年12月31日，2015年促成所有借款的累計淨壞賬率為9.3%”，這個指標就接近於Vintage指標。嚴格的來説，當我們定義Vintage指標的時候，對於不同申請日期或者不同放款日期的資產，要有相同的performance window也就是常説的表現窗，這樣定義出來的Vintage指標才具有更好的縱向比較的性能。對比不同時期內所放款資產的質量水平，才能更好地判斷其風險趨勢和真實的風控水平。

舉例説明，信貸產品仍然與上面的相同，假定分母為每個放款月的放款本金，分子有兩組定義方式。一種是期末時點逾期金額(now)，一種是期中逾期金額(ever)。

（一）期末時點的分子定義如下

D(1-90)：截止期末時點，逾期天數在1-30/31-60/61-90天客户的所有剩餘未還本金,也可計為M(1-3)

D90+：截止期末時點，逾期時間在91天及以上的客户的所有剩餘未還本金，也可計為M4+；

（二）期中逾期的分子定義如下

即只要在這一期中發生過M1，M2，M3，M4+逾期的金額。兩者的區別是，第一種只統計期末時點，即某一期最後一個還款日的客户逾期狀態，第二種是當期的逾期數據包含M1-Mn期的數據，即Mn=逾期，均計入分子統計。

由於第二種統計方法包含了前期的累積逾期數據，因此它對分析當前狀況有利，但對分析歷史當時階段性變動狀況不利，在Vintage曲線上表現非常不直觀，需要結合其他工具才能看出風險變動趨勢，所以實務中通常採用的指標為第一種。

如下為某個12期產品的Vintage逾期率報表。

從表中可以看到每一期的還款表現，以及每一期的新增逾期趨勢，根據趨勢判斷產品風險主要集中在欺詐風險還是信用風險。如果M1首期逾期（客户不想還）很高，但是後面期數風險明顯降低(M2-M4)，則客户欺詐風險集中；如果首期逾期低，但是逾期越來越高(客户沒錢還)，則説明客户的信用風險集中。

從M1->M2->M3->M4+的遷徙率，可以看到客户逾期不同階段的回款情況，如上表中，平均只有40%左右的M1逾期轉化到M2，但是超過80%的M2，轉化到了M3，説明客户逾期1-30天內，回款概率還是相對較高的，一旦超過30天，概率就比較低了。

從M4+可以看到各月份的真實不良情況，當產品全部期滿，再過一定的追償期限(如90天)，在表中即是MOB15的M4+逾期率，它反應了一筆貸款放出去，最後轉化成不良貸款的比例。

幾家互金公司的Vintage曲線

為了更好説明Vintage曲線的使用，我們選取了幾家互金企業的招股説明書數據，分別選取M1，M3，M6項下的Vintage Delinquency Rate。

（一）下圖是樂信在招股説明書裏披露的M6+資產質量情況。橫軸是每一筆資產質量的賬齡情況。縱軸是M6+的壞賬率，每一條曲線代表每個季度當期放款的業務在不同時間段下的逾期表現。

從2015年的第一季度開始，以每個季度為單位，M6+壞賬實際上穩定在2%以下。樂信在它的招股書中描述，從2015年、2016年以及2017年的前9個月，他們180天壞賬率分別是1.25%，1.73%和3.5%（按照年化後測算）

總體來説，樂信的資產質量是相對不錯的。但其中有兩條很危險的曲線要注意。2016年第2季度曲線和2015年第4季度的曲線一直在往上飆升，曲線斜率越來越大，沒有減緩的趨勢，這兩條線代表當時的業務可能有問題。

（二）下圖是凡普金科在招股書文件中披露的2015及2017年期間的 M3+ Delinquency Rate。

凡普金科這裏披露的是M3數據，由於本身是有場景的現金分期的產品，我們可以看到幾個非常特殊的現象：一是它的Delinquency Rate跨度非常大，在1%-20%之間分佈，二是在12個月之後其逾期率仍然出現上升勢頭且沒有減緩，三是可以明顯看到業務初期的逾期率顯著高於後期的貸款。

從曲線來看可以説明凡普金科的幾個問題：該公司的反欺詐做得較好，但可能產品定位比較下沉，客户羣體的整體信用風險較高。由於在12M之後仍然有上升的曲線，可以看出凡普金科的信貸產品的分期期限較長。同時，公司在2015的風控模型做得較差，後續曲線的集中分佈且位於曲線下方，説明在2016年，公司對風控模型進行了優化，且基本未再調整過。

（三）再來看看拍拍貸上市前的招股説明書，M1+穩定在4-4.5%左右，但曲線斜率較為集中平滑，説明其風控模型與其風險偏好有較強穩定性，不能説拍拍貸資產質量就很差，很可能是其採用了人為放鬆風險偏好，依靠利率來彌補其損失的模式，只要Vintage曲線集中且平滑，就説明其風控水平較好且穩定。

我們從以上案例發現，不同公司的Vintage曲線形狀都類似，這跟Vintage 曲線原理有關。後續的催收效果會對M1+的逾期有一定程度的回收，因此曲線在不考慮欺詐情況下趨近於平緩。Vintage圖上所有的點，都是按照這個模型生成的，後面的點均在前面點基礎上進行疊加。

Vintage是最好的方法嗎

如果回答是，那麼我們會發現，“發薪日貸款”的資產質量可能比拍拍貸的還要好。因為“發薪日貸款”產品的特性就是一次性還款，因此Vintage就是等於單期催收後損失，不存在分期表現的疊加。基本上行業很多公司能把新舊客户的損失控制在4%左右，即任一時間回溯下，其Vintage接近4%，低於拍拍貸招股書上披露的數據。

然而這結論與我們所認識的現狀不同。主要原因是貸款期數的影響。舉個例子，一個A元的貸款，分n個月還款，每期A/n元。按照遞推計算，每期的待還本金分別是A，A(1-1/n)，A(1-2/n)…，一直到第n個月為0。設定，考慮A為12000元，n為12期的情況，此時P=6.5，這裏的P意義上類似於債券投資久期的概念。也即不考慮利率現值的情況下，這種分期還款方式收取的利息金額等效於本金一次性放款在P期間產生的利息，也稱P為加權合同現金流期限。由於還款期的不同，導致P的差異會影響到Vintage的分析走勢，因此較為科學的方法是計算每種產品的等效利息期（加權合同現金流期限），將其全部折算成同一個P項下，再進行Vintage分析。這種情況下分期產品的Vintage曲線會全部按1/P斜率壓縮，此時不同互金公司的Vintage對比才更有對照意義。

評估風控模型的關鍵指標

衡量一家互聯網貸款行業的風險控制水平，最核心的是按照其場景構建風控模型，並在該場景下不斷對風控模型進行迭代，以期搭建出最優模型，以使得在該場景下的各種獨有關鍵維度變量能夠表徵該場景下借款人的各種行為數據和交易數據，達到最大區分度的目的。

當然，理論上的方法由於時間和成本影響不可能較快地衡量出一家互聯網貸款企業的風控水平。另一個思路是，我們沒有必要自行搭建風控模型進行對照，但可以採用評價指標來評價其風控模型的穩定性和準確性，也就是説，我們沒有必要去建模，只需要對他的模型進行評價。這可以節省大多數助貸機構或者分析機構判斷其場景風控模型的時間成本和人力成本。

基本二分類法

違約概率是衡量互聯網貸款客户的核心指標，然而互聯網貸款是基於場景方內部和外部的大數據做出的共性判斷，因為我們從來不會判斷某一個具體單一客户的違約概率如何，而是判斷這一個羣體的客户羣的違約概率如何，其分佈函數是什麼樣的，用什麼方法能找出其共性並在風控模型變量中予以篩除。基於這種思維，可以將客羣簡化為二分類，也即“非好即壞”，好客户與壞客户區分了對其貸款違約與否。根據擬評價的模型，一旦定義了好客户和壞客户以及其分值，就有可能評價這種模型下評分的質量，即風控模型的質量好壞。

這裏我們常用的指標有幾種，首先是基於累積分佈函數的指標，如Kolmogorov-Smirnov、Gini index以及Lift; 其次是基於似然密度函數的指標，如Maha- lanobis distance距離函數。有興趣的同學可以參考以下詳細相關論述：Wilkie (2004), Giudici (2003) 或者Siddiqi (2006)。

這些指標中，最簡便和常用的指標是Kolmogorov-Smirnov（KS指標），

我們假定每個客户的模型評分均適用於以下分類：

那麼通常情況下好客户的評分值的累積分佈函數（CDFs）滿足如下關係：

其中，Si表示第i個客户的模型分值，n 為好客户的數量，m 為壞客户的數量，I為指示函數，其中I(true) = 1，I(false) = 0。壞客户的比例可以表示為pB=m/（n+m），壞客户的比例為pG=n/（n+m）。那麼所有客户分值的累積分佈函數可以表示為：

其中，N=n+m為客户總數量，這時一個常用的衡量模型（分值函數）質量的指標就是Kolmogorov-Smirnov統計指標，即KS值，它可以表示為：

它的含義是，在給定的一個二分類模型中，基於該模型的某個評分值，低於該評分值（或者高於，其實是一個意思）時的好客户與壞客户分佈函數之差，當該差達到最大值時，這個值就是該模型的KS值。

直觀的圖示如下：

分佈函數及KS值

從圖上可以看出，當模型評分值為2.5時，大約包含了30%的好客户和70%的壞客户，那麼該模型的區分度（模型的質量）相對較好，基於該模型下做出的風控策略能夠在篩選出最大的壞客户數量（當然前提條件是要滿足好客户最多的情況下，否則取值為5分，即使低於5分的客户全部拒絕，但實務中沒有任何意義）。

除了KS值外，洛倫茲曲線（LC，Lorenz Curve）也常用來衡量評分模型的區分度，如好客户和壞客户、有效或者無效（醫學臨牀試驗藥品時常用）等。洛倫茲函數可以簡單表示如下：

可以用下圖表示：

以信用評分模型為例，如上圖該曲線上的每一點代表了給出的評分值，如果我們假定圖上的P點為臨界值，可以看出被拒絕的壞客户和好客户的比例——該模型拒絕了20%的好客户，同時卻拒絕了60%，直觀地反映為曲線上的某一點微分的最小值，在該點上該模型最優。因此對於不同模型的迭代，也可以用LC來衡量優劣。除了KS、LC指標外，我們也可以用AUC、Gini、lift等指標來衡量，只是在信用評分模型中應用不見得那麼直觀罷了。

“場景”對商業銀行助貸業務的重要意義

我們知道了如何用簡易指標來衡量某一模型的好壞，那麼僅僅靠模型評價就能完全區分模型優劣嗎，不同的模型僅僅是函數建模的區別嗎？我們知道選擇不同的變量對模型有影響，但是相同的模型評分下，再回溯判斷變量的選擇是否有價值呢。

拋開實際意義談數據模型，對於判斷互聯網企業貸款的風控質量一定是捨本逐末的。這是因為決定人信用違約的核心指標、變量維度有很多。一個人的購買行為、交易習慣、生活習慣等等構成一個人的畫像，成千上萬的維度變量要區分出判斷信用能力的指標是件難事，但最關鍵的變量指標是行為數據、交易數據兩大類。這就引申出了場景的問題，這在互聯網貸款平台中是至關重要的。例如天貓購物、京東、滴滴打車、美團外賣的這些場景核心數據就是它的核心場景，這些場景是體現了交易行為和習慣，能夠依靠其構建一個模型來區分其信用狀況。

隨着互聯網貸款管理辦法、網絡小貸公司的監管辦法、民間借貸四倍LPR上限的出台，頭部平台的不斷聚集。雖然目前商業銀行對於助貸業務已經過了瘋狂發展的階段，但由於資金方對資產方的爭奪越來越激烈，很多狸貓換太子的網紅資產方到處找資金。這些平台屬於既無場景（不論是交易場景還是行為場景），也無自生客户的“雙無”平台，僅僅依靠外購流量賺取二道差價。

這裏的問題就在於他們也有風控，但他們的風控模型是基於外部數據來搭建的，不具有場景方提供的內部核心數據（沒有哪家頭部平台願意開放這些數據，而且這也涉及隱私問題），雖然對外宣稱幾百個變量，但都是外圍變量，不能表徵其交易習慣和行為習慣。一個極端的例子是，如果某家壟斷了公共廁所企業，它能拿到人們上廁所的所有數據，包括時間、頻率、數量等，然後對外輸出這些流量，宣稱可以通過上廁所的數據搭建了一個KS值0.6的信用風控模型，有任何資金方敢合作嗎？

這種變量構建的模型，可能也有較高的KS值，但其穩定性和相關性較差，一有事件就將極大影響模型的準確性，這些都是無法用歷史數據來判斷的，只能跳過數據剖析其實質，凸顯場景在變量選取中的極端重要性，才能有效降低商業銀行在助貸業務中的風險。

文中觀點系作者自身觀點，不代表消金界平台觀點。