評分模型性能不穩定？你需要知道這些

編輯導語：評分模型的性能穩定是很重要的，那什麼樣的模型才算表現穩定的模型呢？如何確信模型穩定性是否發生了變化？什麼原因導致模型的性能不穩定？如果模型不穩定了該採取什麼措施？帶着這四個疑問，我們一起來看本文作者的解答。

對風控模型分類能力強弱的評估有一個前提條件，那就是風控模型的性能是穩定的，脱離了這個前提條件，分類能力再強的風控模型實用性也不高。

既然穩定性非常重要，那麼什麼樣的模型才算表現穩定的模型？如何衡量模型的穩定性呢？影響模型穩定性的因素有哪些呢？如果模型不穩定了該採取什麼措施呢？

本文帶大家一探究竟！

一、什麼樣的模型才算表現穩定的模型？

模型穩定性高是指模型的預測能力在時間維度上是一致的，即模型在測試集、時間外樣本集、線上測試和正式使用的時候有同樣的區分度；而模型預測能力不穩定的直觀表現是原本評分為500分的客户大概率是個好。

二、如何確信模型穩定性是否發生了變化？

實踐中常用PSI指標衡量模型的穩定性，PSI指標是指羣體穩定性指數（Population Stability Index），PSI反映了不同樣本在各分數段的分佈的穩定性。

PSI的計算公式如下：

其中：A表示實際樣本，E表示預期樣本。

公式的意思是分別計算每一分箱內的實際樣本佔比減預期樣本佔比之差和實際樣本佔比除以預期樣本佔比的對數的乘積，然後將每個分箱內的這個乘積求和，這個求和值就是PSI。

下表表示PSI值的變動範圍所代表的意義：

需要注意的是，PSI指標變化只反映兩類羣體變化大小，但不反映變化的方向。

下面以案例説明PSI的計算方式（數據不代表實際意義）：

我們將評分卡開發時的樣本和當前的樣本進行比對，用同一個模型對兩個樣本打分後按照信用評分升序排序，並進行等寬分箱[1]，即每個箱內（或分數區間）的信用評分差都相同；然後計算每個箱子內的實際樣本[2]佔全部實際樣本的比例，並列入實際樣本佔比列。

預期樣本[3]按照同樣的模型預測信用評分後升序排序，並按照相同的分數區間計算每個分箱內的預期樣本佔全部實際樣本的比例。

[1]在做模型排序能力表的時候用的是等頻分箱，與這邊的等寬分箱不同。

[2]這裏的實際樣本用的是模型開發時候訓練集中壞樣本的數據。

[3]這裏的預期樣本用的是當前壞樣本的數據。

我們將預期樣本佔比列與實際樣本佔比列兩列數據做對比柱狀圖（見下圖）：

我們看到兩個分佈的PSI值達到0.256,超過了0.25，因此可以認為兩個樣本的分佈發生了明顯的變化，然後再觀察發現預期樣本評分的平均數大於實際樣本評分的平均數,因此可以認為預期樣本向高分段變動了。

三、什麼原因導致模型的性能不穩定？

如果發現模型不穩定了，是什麼原因導致模型的性能不穩定？

模型是一把尺，尺不會變長，也不會變短，那麼導致衡量不準的原因只可能是客户變化的原因，具體講就是好壞客户分佈變化的原因。

我們以好壞樣本評分分佈圖為例説明：

上圖表示好壞客户在評分模型上的分佈，可以看到好客户主要分佈在高分區間，而壞客户主要分佈在低分區間，兩個分佈交叉的地方表示模型無法有效區分的區域。

最好的模型是使得兩類分佈沒有交叉，最壞的模型則是兩類分佈完全重合。中間垂直的虛線表示評分的閾值，高於閾值的為好客户，低於閾值的為壞客户。

因此，影響模型區分度的因素可以分為兩個：

第一個是模型的排序能力，也就是模型是否能夠將兩類客户的分佈儘可能的分開，使得交叉的部分足夠小；
第二個是評分的閾值，也就是如何將兩類樣本分佈的交叉區域進行劃分。

假如客户羣體發生了變化，那麼變化的類型可以分為四類：

1. 壞客户的評分朝着高分段偏移而好客户的評分朝着低分段偏移（見上圖a）

反映到實際的情況是全部客户的評分均值變小，且好客户和壞客户的評分均值之差也變小。

分析：這種變化是導致模型預測能力下降最常見和最主要的原因。因為壞客户和好客户分佈的交叉區域變大，意味着模型的排序能力降低，從而導致模型的區分度下降。

發生這類變化的原因有可能是宏觀經濟惡化導致客户整體的還款能力下降，或者公司業務轉型導致目標客户發生變化，或者公司業務團隊在某段時間內集中某一類的客户過度營銷，或者數據質量不穩定的原因。

2. 壞客户的評分朝着低分段偏移而好客户的評分朝着高分段偏移（見上圖b）

反映到實際的情況是全部客户的評分均值變大，且好客户和壞客户的評分均值之差也變大。

分析：第二種變化的結果是改善型的，模型的區分度不僅沒有下降，反而比以前更高了，實踐中幾乎不可能發生。

3. 壞客户和好客户的評分一起朝着高分段偏移

反映到實際的情況就是全部客户的評分均值變大，但好客户和壞客户的平分均值之差不變。

分析：這種變化相當於評分閾值的被動下調，從而導致提高了違約率，提升了通過率，但是模型的排序能力變化不大。

4. 壞客户和好客户的評分同時朝着低分段偏移

反映到實際的情況就是全部客户的評分均值變小，但好客户和壞客户的平均均值之差不變。

分析：這種變化相當於評分閾值的上調，從而降低了通過率和違約率，但是模型的排序能力變化不大。

四、如果模型不穩定了該採取什麼措施？

對於第二種變化，我們無需做任何調整。對於第三和第四種變化，我們只需要相應調整評分閾值。但是對於第一種變化，調整評分閾值無能為力，因為這是模型排序能力變化導致的。

是不是遇到第一類情況就一定要更換模型了呢？有沒有其他的應對措施呢？

首先我們得分析導致客户分佈發生變化的原因：

1. 第一類是從時間切片的角度統計分類客户的PSI

例如我們通過計算每個月末的分類客户PSI值，發現某一類客户的PSI值連續發生較大變化，我們可以單獨分析該類客户PSI變化的原因。

如果是該類客户所在的行業變動，地區性災難（地震、洪水、疫情）等短期內不可逆的因素，建議將類似客户拒絕進件。若是公司營銷部門針對某一類客户過度營銷，建議與業務團隊溝通優化業務方向。

2. 第二種是從特徵角度考慮

即整體客羣整體好壞比不變的情況下客羣結構發生變化，此時可以考慮重新調整個別特徵的分箱。

如果在客羣變化的情況下，特徵的每個分箱的好壞比與模型開發時候的好壞比變化了，那麼每個分箱WOE也就發生變化，從而影響模型的排序能力。

因此如果能夠將特徵的分箱重新調整，使得新的分箱內的壞好比恢復到和模型開發時候一樣，那就恢復了模型的排序能力。

舉個例子：假如模型上線6個月後，我們觀察到收入特徵有如下變化（這裏收入分箱是在模型開發階段根據最優分箱的方法進行分箱的結果，過去壞好比是指模型開發階段時訓練集按照最優分箱後的壞好比。當前壞好比，是將模型上線6個月後的樣本按照上述最優分箱進行分箱後求得的壞好比）：

從上表可以看到，當前全部客户的壞好比與評分卡開發的時候全部客户壞好比相差不大（這是必須要滿足的前提），但是當前壞好比在每個收入分段與過去壞好比有明顯的差異。

例如：在高收入區間內，當前違壞好比比過去壞好比高，而在低收入區間內，當前壞好比比過去壞好比低，這反映了壞客户在收入維度的偏移，進而導致模型的區分度下降。

因此原本的分箱已經不適用於當前的情況，我們需要調整分箱，使得調整後新的分箱的每個收入分段內的當前壞好比與過去壞好比一樣。

值得注意的是：採用這辦法需要滿足當前全部客户的好壞比和過去全部客户的好壞比保持一致的條件，如果信貸環境和客羣質量發生不穩定的情況，使得條件無法滿足，這種方法就無法使用，只能重新開發評分卡。

五、總結

PSI本身不是直接衡量模型穩定性的指標，而是通過衡量客羣分佈變化，間接反映模型預測能力穩定性指標。

PSI指標傳遞的信息有限，僅能夠反映客户分佈是否發生了變化以及變化的程度，但不能反映變化的方向以及變化原因，因此要我們需要結合業務實際分析PSI值變化背後的深層次原因，並採取針對性的措施化解負面影響。

以上，是我對模型穩定性及反應指標PSI的理解，期待與大家交流討論！

本文由 @FAL金科應用研院原創發佈於人人都是產品經理，未經許可，禁止轉載。

題圖來自 unsplash，基於 CC0 協議