分析 | 大數據風控模型的基本流程

金融的本質是將風險偏好不同的資金供給方和風險不同的資金需求方匹配起來。而大數據風控看兩個方面的能力,一個是數據積累,另一個就是技術能力。分析可知,大數據風控模型的基本流程來主要分為四個部分:數據收集、數據建模、構建數據畫像和風險定價。

    因為大數據風控模型是各家平台的核心商業機密,我們不得而知。但我們可以從大數據風控模型的建立過程來窺知一二。大數據風控模型的基本流程來主要分為四個部分:數據收集、數據建模、構建數據畫像和風險定價。具體考核數據如下圖所示:

    分析 | 大數據風控模型的基本流程

    數據收集

    大數據精準行銷的藍海領域,消費金融數據。這裡簡要歸納一下,互聯網大數據包括:

    1. 用戶行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)

    2. 用戶消費數據(精準行銷、信用記錄分析、活動促銷、理財等)

    3. 用戶地理位置數據(O2O推廣,商家推薦,交友推薦等)

    4. 互聯網金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)

    5. 用戶社交等UGC數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)

    數據建模

    模型包含四大方面的數據:

    一、個人/公司的基本信息,包括個人資歷、個人/公司的信用信息、公司財務指標、家庭結構關係、家庭社會地位關係、個人社交關係、工商註冊信息等;

    二、個人/公司商務信息,包括線上零售交易信息、專利信息、個人/公司資質、土地出讓/轉讓信息、質押抵押信息等;

    三、個人/公司社會公眾信息,包括涉訴信息、專利信息、被執行人信息等;

    四、個人/公司社會關聯方信息,包括自媒體、證券社區、行政監管/許可、行業背景、商標、招中標、行政處罰、抵押擔保等。

    常使用的模型:

    1.聚類: 比如常見的相似文本聚類,大量用戶發相似帖子是常見的灌水行為,需要處理。

    2.分類:比如我們根據已經識別的有風險和無風險的行為,去預測現在正在發生的行為,根據關鍵字動態去識別預測效果不錯。

    3.離群點檢測:比如登錄行為,當同ip登錄大量登錄失敗,這種行為可能是暴力破解,當同ip登錄基本全部成功,這種行為可能是機器登錄,採用離群點檢測發現這兩類行為並處理等。

    目前國內90%以上的建模團隊都使用Logistic回歸做評分卡,當然還有少數人使用決策樹,神經網路和機器學習目前還沒在此行業有顯著成果。Logistic製作評分卡模型的衡量標準是K-S值的大小,依據數據質量和建模能力在0-0.5之間,一般在0.3以上才可用,好的模型可以達到0.35。芝麻分模型的K-S值在0.32左右。

    應用案例:

    1、欺詐風險用到模型主要是社會關係網路模型,通過每筆案件之間的關係,判斷新案件是欺詐申請的可能性。

    2、信用風險主要用到模型是邏輯回歸建立評分卡(也有的用決策樹),量化新申請人可能違約的概率,根據評分高低制定不同的授信規則和催收策略。

    3、貸後管理也用到行為評分卡,例如額度調整和客戶風險分池管理等。

    大數據風控對模型的挑戰:

    1.模型的泛化能力:複雜的特徵和模型可以增強模型的泛化能力,採用複雜特徵和更多維度的特徵是很有效的。

    2.模型的可解釋性:風控模型識別出來的數據需要做相應的處理,任何機器識別處理都不可能完全避免用戶的投訴和異義,對於模型一定要了解業務特徵,能夠轉化為客服和用戶可以理解的語言去解釋,使得任何處理我們都有理有據。

    3.模型的更新速度:高對抗性場景下,模型快速更新是關鍵。

    數據畫像

    用戶畫像的底層是機器學習,那麼無論是要做客戶分群還是精準行銷,都先要將用戶數據進行規整處理,轉化為相同維度的特徵向量,諸多華麗的算法才可以有用武之地,像是聚類,回歸,關聯,各種分類器等等。

    對於結構化數據而言,特徵提取工作往往都是從給數據打標籤開始的。比如購買管道,消費頻率,年齡性別,家庭狀況等等。好的特徵標籤的選擇可以使對用戶刻畫變得更豐富,也能提升機器學習算法的效果(準確度,收斂速度等)。

    我們在項目中根據不同維度提取了數十個多個標籤,下圖展示了其中的一部分。這些標籤主要有三個來源:

    一個類是在IT系統中可以取得的信息,比如辦會員卡時留下的信息(性別,年齡,生日),購買管道,積分情況等;

    第二類是可以通過計算或是統計所獲得的,比如用戶對某類促銷活動的參與程度,對某種顏色/款式商品的偏好程度,是否進行過跨品牌的購買等;

    第三類則是通過推測所得,比如送貨地址中出現「宿舍」,「學校」,「大學」等字樣,則用戶身份可以推測為學生,出現「騰訊大廈」,「科技園」等信息時,則可判斷是上班族,並有很大概率是技術從業者。

    在標籤的設計上也帶有較強的行業性,比如是否偏好購買當季爆款或是新品多於經典款(時尚度);是否更傾向購買低價或打折商品(價格敏感度);是否喜歡購買高價商品或限量版(反向價格敏感度)。

    分析 | 大數據風控模型的基本流程

    對於已經打好的標籤,根據不同的分析場景進行離散化,可能將分類類型的標籤拆成多個0/1標籤,就可以進行一些機器學習的建模了,比如聚類,分類,預測,或者關聯性分析,最終生成的向量維度在數千個。

    風險定價

    量化風險管理的一個核心是風險定價,根據銀行自身的風險偏好來對資產進行定價,高風險資產定價較高,低風險產品定價較低,根據風險高低來制定資產收益,RBP(基於風險定價)已經成為主流。雖然對技術的應用日趨成熟,但現實的情況是,行業的業務模式仍然大量基於人海戰術,與上世紀八九十年代傳統金融企業的業務模式類似,在信用評級和風險定價方面過多依賴人的經驗。

    目前的互聯網數據+金融已經開始改變這一狀況。尤其是在P2P風控領域,互聯網大數據積累已經讓風控進入2.0時代。通過數據的積累,可以做到客戶開發和數據采集通過人工完成。

    多維度的風險定價系統

    中國現實的難處是,個人信用數據缺失,央行徵信只能覆蓋25%人群。同時金融機構風險定價水平不高,導致市場難以發展。目前京東用定價自己積累的數據推出了「京東白條」,螞蟻金服開發淘寶購買者數據推出了「花唄」,這些都有一個限制就是只能在指定的服務商消費才可以用。但這也從一定程度上說明利用大數據可以做到業務的功能。目前,已有一些P2P平台通過接入了多家第三方數據用於風控。通過對數據的整合、補充、調用、評判等,使風控模型運算結果更加準確。

    定制化的風險定價系統

    從商務智能的角度說,模型、評分、策略等都是為具體的業務服務的,脫離了具體場景的模型和評分是無本之木,無源之水,脫離了業務場景談模型的準確性,沒有意義。不同的業務場景,產生了不同的數據,不同的數據包含的規律,體現在數據分析中就是模型、參數和評分。

    這也要求評分的模型在設計之初,就要考慮如何更加智能。不同的人風控模型也會不同,因此定制化的風險定價系統將成為未來的趨勢。



    你可能會想看: