五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

python風(fēng)控建模實(shí)戰(zhàn)(分類器模型+回歸模型)

2021-02-04 17:33 作者:python風(fēng)控模型  | 我要投稿

在全球數(shù)字經(jīng)濟(jì)時代,有且只有一種金融優(yōu)勢,那就是基于消費(fèi)者大數(shù)據(jù)的純信用!


我們不妨稱之為數(shù)據(jù)信用,它是一種面向未來的財(cái)產(chǎn)權(quán),它是數(shù)字貨幣背后核心的抵押資產(chǎn),它決定了數(shù)字貨幣時代信用創(chuàng)造的方向、速度和規(guī)模。

數(shù)據(jù)信用判斷依靠的就是金融風(fēng)控模型。更準(zhǔn)確的說誰能掌握風(fēng)控模型知識,誰就掌握了數(shù)字貨幣的發(fā)行權(quán)!



?為什么需要風(fēng)控模型?

風(fēng)控模型目的將銀行風(fēng)險最小化并將利潤最大化。貸款有風(fēng)險,如果用戶借錢不還或故意騙貸,銀行就會有損失。風(fēng)控模型作用就是識別這些借錢不還用戶,然后過濾掉這些壞用戶。這樣銀行放款對象基本是優(yōu)質(zhì)客戶,可以從中賺取利息,從而達(dá)到利潤最大化,風(fēng)險最小化。

為了從銀行的角度將損失降到最低,銀行需要制定決策規(guī)則,確定誰批準(zhǔn)貸款,誰不批準(zhǔn)。 在決定貸款申請之前,貸款經(jīng)理會考慮申請人的人口統(tǒng)計(jì)和社會經(jīng)濟(jì)概況。

?

風(fēng)控歷史

世界上最早的銀行出現(xiàn)在意大利。 最早的銀行是意大利1407年在威尼斯成立的銀行。當(dāng)然類似于銀行的機(jī)構(gòu)可能存更早存在。只要有銀行,就會有風(fēng)險控制和管理,即風(fēng)控。早期風(fēng)控包括對借貸人資質(zhì)審核和賬戶核實(shí)。

隨著金融業(yè)發(fā)展,貸款流程逐漸完善,包括下圖流程

2000-2008后,全球逐步進(jìn)入大數(shù)據(jù)時代,隨著用戶數(shù)據(jù)整合,誕生央行征信,公安人臉數(shù)據(jù),芝麻信用分,同盾分,聚信立蜜罐分,百度黑中介分等參考數(shù)據(jù)。銀行,消費(fèi)金融公司,小額貸公司可以利用大數(shù)據(jù)建模,利用機(jī)器智能決策代替絕大部分人工審核,縮短信貸流程,減少貸款風(fēng)險,實(shí)現(xiàn)利潤最大化。

現(xiàn)代大數(shù)據(jù)時代的風(fēng)控部門主要分為貸前,貸中和貸后管理三個板塊。

信用逾期高發(fā)時代

隨著我國居民消費(fèi)心理發(fā)生改變和各大商家誘導(dǎo)性消費(fèi),不少朋友越來越依賴超前消費(fèi)了。我國14億人口,消費(fèi)群體龐大,各類產(chǎn)品也有著很大的市場,于是現(xiàn)在的消費(fèi)信貸市場成了很多銀行或者其他機(jī)構(gòu)發(fā)力的方向。根據(jù)央行公布的數(shù)據(jù)來看,商業(yè)銀行發(fā)行的信用卡數(shù)量繼續(xù)擴(kuò)張,但在“濫發(fā)”信用卡的背后,逾期壞賬不斷增加也成了銀行頭疼問題。

信用卡逾期半年以上壞賬突破900億

近日,央行公布了三季度支付體系的運(yùn)行報(bào)告,從央行公布的數(shù)據(jù)來看,我國商業(yè)銀行發(fā)行的信用卡數(shù)量、授信總額以及壞賬總額均在保持增長。

數(shù)據(jù)顯示,截至今年三季度末,我國商業(yè)銀行發(fā)行的信用卡(包括借貸合一卡)的數(shù)量達(dá)到了7.66億張,環(huán)比增加1.29%??偸谛蓬~度達(dá)到了18.59萬億元,環(huán)比增加3.80%。

下卡量在增加,加上授信總額在不斷增長,說明銀行依舊非常重視信用卡市場,但同時這也給銀行帶來了不小的麻煩。因?yàn)榻刂两衲耆径饶?,信用卡逾期半年以上的壞賬來到了906.63億元,環(huán)比大漲6.13%。

信用卡下卡數(shù)量不斷增加,說明在初審階段銀行并沒有管理的太嚴(yán)格,因此壞賬增加是客觀會存在的問題。但作為專業(yè)的金融機(jī)構(gòu),銀行顯然是不會坐視壞賬繼續(xù)漲下去,不然就會影響到銀行的正常經(jīng)營,也會引起監(jiān)管層的注意。

所以在這種情況下面,商業(yè)銀行會對已經(jīng)下卡的客戶進(jìn)行管理,一般是在消費(fèi)場景以及防范套現(xiàn)上面下功夫。所以為了你不被銀行二次風(fēng)控,從而對你的信用卡封卡降額,一些不合規(guī)的刷卡消費(fèi)最好還是別碰。

銀行風(fēng)控負(fù)責(zé)人改如何應(yīng)對持續(xù)上升信用卡壞賬?作者認(rèn)為識別壞客戶(騙貸和還款能力不足人群)是關(guān)鍵。只有銀行精準(zhǔn)識別了壞客戶,才能顯著降低逾期和壞賬率。

基于LendingClub數(shù)據(jù)的python風(fēng)控建模(附腳本和10萬多真實(shí)信貸數(shù)據(jù))


之前銀行是當(dāng)鋪思想,把錢借給有償還能力的人。這些人群算是優(yōu)質(zhì)客群。更糟糕的是但隨著量化寬松,財(cái)政貨幣刺激,M2激增,銀行,消費(fèi)金融公司,小額貸公司紛紛把市場目標(biāo)擴(kuò)大到次級客戶,即償還能力不足或沒有工作的人,這些人還錢風(fēng)險很高,因此借錢利息也很高。

國內(nèi)黑產(chǎn),灰產(chǎn)已經(jīng)形成龐大產(chǎn)業(yè)鏈條。根據(jù)之前同盾公司統(tǒng)計(jì),黑產(chǎn)團(tuán)隊(duì)至少上千個,多大為3人左右小團(tuán)隊(duì),100人以上大團(tuán)隊(duì)也有幾十上百個。這些黑產(chǎn)團(tuán)隊(duì)天天測試各大現(xiàn)金貸平臺漏洞,可謂專業(yè)產(chǎn)品經(jīng)理。下圖是生產(chǎn)虛假號碼的手機(jī)卡,來自東南亞,國內(nèi)可用,可最大程度規(guī)避國內(nèi)安全監(jiān)控,專門為線上平臺現(xiàn)金貸詐騙用戶準(zhǔn)備。如果沒有風(fēng)控能力,就不要玩現(xiàn)金貸這行了。放款猶如肉包打狗有去無回。


舉個身邊熟悉例子,作者在之前某寶關(guān)鍵詞搜索中,可以發(fā)現(xiàn)黑產(chǎn)和灰產(chǎn)身影。

關(guān)鍵詞:

注冊機(jī),短信服務(wù),短信接收,短信驗(yàn)證,app下單,智能終端代接m


黑產(chǎn)市場風(fēng)起云涌,銀行風(fēng)控負(fù)責(zé)人改如何應(yīng)對持續(xù)上升信用卡壞賬?作者認(rèn)為識別壞客戶(騙貸和還款能力不足人群)是關(guān)鍵。只有銀行精準(zhǔn)識別了壞客戶,才能顯著降低逾期和壞賬率。如何精準(zhǔn)識別壞客戶,改課程會手把手教你大家Python信用模型模型,精準(zhǔn)捕捉壞客戶,此乃風(fēng)控守護(hù)神。

金融風(fēng)控審批模型可以成為貸款人和借款人計(jì)算借款人償債能力的絕佳工具。對于貸方而言,模型可以幫助他們評估借款人的風(fēng)險,識別是否是騙貸用戶或還款能力不足用戶,并幫公司維持健康的投資組合 - 這最終將影響整個經(jīng)濟(jì)。

模型就像一個黑箱,當(dāng)用戶申請貸款時,模型會根據(jù)用戶信息,例如年齡,工作,職位,還款記錄,借貸次數(shù)等維度自動計(jì)算客戶壞客戶概率。業(yè)務(wù)線如果用模型計(jì)算出某用戶壞客戶概率較高,例如0.8,就會拒絕改客戶貸款申請。

因此風(fēng)控模型就像信貸守護(hù)神,保護(hù)公司資產(chǎn),免受黑產(chǎn)吞噬。模型模型自動化評分,1秒之內(nèi)決定客戶是否通過,貸前人員工作輕松多了!這樣,大數(shù)據(jù)時代下的風(fēng)控模型就此誕生。

(模型模型自動批量識別壞客戶)

?

第78課,模型訓(xùn)練截圖

模型最高性能,ks:0.5869,AUC:0.87135,遠(yuǎn)超互聯(lián)網(wǎng)上其它建模人員性能。

?模型降維測試

模型調(diào)參測試

接下來,我們展示一下部分python腳本建模和數(shù)據(jù)分析代碼

在課程中,我將研究Lending Club貸款數(shù)據(jù),該數(shù)據(jù)不平衡,大且具有具有不同數(shù)據(jù)類型的多個功能。 為了進(jìn)行建模,我將所有違約貸款作為目標(biāo)變量,并試圖預(yù)測貸款是否會違約。

導(dǎo)入數(shù)據(jù)
首先,導(dǎo)入必要的庫

?導(dǎo)入數(shù)據(jù)

?處理數(shù)據(jù)的副本,這樣我就不必為了節(jié)省內(nèi)存而再次重新讀取整個數(shù)據(jù)集。

檢查數(shù)據(jù)維度

?

?

?因此,我們得到很多變量。 知道這些變量的含義可以在以后的建模和數(shù)據(jù)分析中提供很多幫助。

了解數(shù)據(jù)
首先,讓我們檢查數(shù)據(jù)集中各個列字段的描述。

部分變量釋義

。。。。。。。。。。。。。。

通過查看列說明,我們可以做的一件好事是找到具有重要性的列,同時找到因缺少信息而多余的列。

讓我們還查看缺失值的數(shù)量和百分比,

?????

?

?

許多列中丟失數(shù)據(jù)的百分比遠(yuǎn)遠(yuǎn)超出了我們的工作范圍。 因此,稍后我們必須刪除數(shù)據(jù)量少于總數(shù)據(jù)量一定百分比的列。

我們還要檢查的另一件事是,與其他貸款相比,有多少貸款處于違約貸款狀態(tài)。 在此類數(shù)據(jù)集中進(jìn)行預(yù)測的常見現(xiàn)象是,新貸款是否會違約。 我將使用違約狀態(tài)的貸款作為目標(biāo)變量。

?

?很明顯,這是不平衡數(shù)據(jù)問題的一種情況,其中階級的價值遠(yuǎn)遠(yuǎn)小于另一個。 有用于解決此類問題的基于成本函數(shù)的方法和基于抽樣的方法,我們稍后將使用它們,以便我們的模型在嘗試預(yù)測貸款是否會違約時不會表現(xiàn)出高偏差。

?然后,查看我們正在使用的數(shù)據(jù)類型的分布

?因此,我們有很多具有對象數(shù)據(jù)類型的列,這將在建模時造成問題。
讓我們看看具有“對象”數(shù)據(jù)類型的列包含多少分類數(shù)據(jù):

?我們希望對僅包含2個分類數(shù)據(jù)的列進(jìn)行標(biāo)簽編碼,并對超過2個分類數(shù)據(jù)的一鍵編碼列進(jìn)行標(biāo)簽編碼。 另外,應(yīng)刪除諸如emp_title,url,desc等之類的列,因?yàn)樗鼈兯娜魏晤悇e都沒有大量唯一數(shù)據(jù)。 同樣,可以對一鍵編碼的列執(zhí)行主成分分析,以降低特征尺寸。

異常值檢測
讓我們檢查數(shù)據(jù)中是否存在異常。 通常在處理時間(例如工作年限)的列中發(fā)現(xiàn)可能的數(shù)據(jù)異常。 讓我們快速通過它們。

?

?我將用0填充空值,前提是借款人沒有工作很多年才能記錄其數(shù)據(jù)。 另外,我將使用正則表達(dá)式從所有數(shù)據(jù)中提取年數(shù)

?

?該變量看起來不錯。 此外,可以看出,工作了10年或以上的人更有可能借貸。

?

?很正常,違約貸款沒有償還付款計(jì)劃

探索性數(shù)據(jù)分析
讓我刪除所有丟失數(shù)據(jù)超過70%的列,因?yàn)樗鼈儗:吞剿鳠o濟(jì)于事。

?建模
現(xiàn)在,對于建模,我將使用兩種集成方法并進(jìn)行比較。
i)Bootstrap Aggregrating or Bagging
ii)Boosting
1)Bagging - Random Forest
集成決策樹算法
通過套袋方法進(jìn)行培訓(xùn)(重復(fù)抽樣替換)
裝袋:樣品中的樣品
RF:來自預(yù)測變量的樣本。 m = sqrt(p)用于分類,m = p / 3用于回歸問題。
利用不相關(guān)的樹

?創(chuàng)建分類器,

?
?

?劃分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)

釋放內(nèi)存

?通過去除均值并縮放到單位方差來標(biāo)準(zhǔn)化特征

sc = StandardScaler()X_train = sc.fit_transform(X_train)X_test=sc.transform(X_test)

對訓(xùn)練集進(jìn)行過采樣

?現(xiàn)在,我將嘗試不同的模型以獲得最佳的預(yù)測分?jǐn)?shù)。
使用Logistic回歸創(chuàng)建準(zhǔn)確性和召回率的基準(zhǔn),

?

?準(zhǔn)確率和召回得分對基線來說是令人滿意的。 但是,精度似乎很差。

對于我們來說,過度擬合將是一個巨大的問題。 因此,我使用的是隨機(jī)森林,因?yàn)樗梢酝ㄟ^隨機(jī)選擇要素來減少過擬合。

?

?我們的驗(yàn)證集精度很高,但是召回率卻很低。 使用此模型不是一個好主意,因?yàn)槲覀兊拇蠖鄶?shù)違約貸款將被錯誤分類。

2)boosting:
訓(xùn)練弱分類器
通過加權(quán)將它們添加到最終的強(qiáng)分類器中。 按精度加權(quán)(通常)
添加后,數(shù)據(jù)將重新加權(quán)
錯誤分類的樣本會增加體重
Algo被迫從錯誤分類的樣本中學(xué)習(xí)更多
為了提高效率,我將使用LightGBM分類器(評估指標(biāo)為AUC)以及Kfold交叉驗(yàn)證。

?結(jié)合使用LightGBM和Kfold交叉驗(yàn)證的功能

?
?
?
?
?
?
?
?

?

如我們所見,LightGBM在獲得高精度和高召回率方面做得非常出色。 因此,就我們評估的3個模型而言,該模型是最好的。
為了進(jìn)一步增強(qiáng)模型,可以進(jìn)行特征工程。 還可以通過將不同的貸款狀態(tài)放在一起來使用諸如“好貸款”和“壞貸款”之類的更廣泛的術(shù)語,以獲得更均衡的類別計(jì)數(shù),而不是違約/非違約。

?此課程采用catboost對稱樹算法比LightGBM更不容易過度擬合。

歡迎各位同學(xué)學(xué)習(xí):

《python風(fēng)控建模實(shí)戰(zhàn)lendingclub》視頻教程


?

之前博主錄制《python信用模型建模(附代碼)》課程是針對邏輯回歸模型模型;《python風(fēng)控建模實(shí)戰(zhàn)lendingclub》此課程是針對集成樹模型,包括catboost,lightGbm,xgboost。兩個課程算法原理是不同的。

此課程catboost集成樹算法有諸多優(yōu)點(diǎn),自動化處理缺失數(shù)據(jù),自動化調(diào)參,無需變量卡方分箱。學(xué)員學(xué)完后不再為數(shù)據(jù)預(yù)處理,調(diào)參,變量分箱而煩惱。此教程建立模型性能卓越,最高性能ks:0.5869,AUC:0.87135,遠(yuǎn)超互聯(lián)網(wǎng)上其它建模人員性能。

?

(lendingclub分類器模型數(shù)據(jù)下載地址)

(移動杯消費(fèi)金融回歸模型百萬獎金挑戰(zhàn)賽數(shù)據(jù)下載地址)

?

?

?

?

?

?

課程目錄

章節(jié)1 python編程環(huán)境搭建
課時1風(fēng)控建模語言,python,R,SAS優(yōu)劣對比
課時2Anaconda快速入門指南
課時3Anaconda下載安裝
課時4canopy下載和安裝
課時5Anaconda Navigator導(dǎo)航器05:38
課時6python第三方包安裝(pip和conda install)
課時7Python非官方擴(kuò)展包下載地址
課時8Anaconda安裝不同版本python
課時9為什么使用jupyter notebook及如何安裝
課時10如何用jupyter notebook打開指定文件夾內(nèi)容?
課時11jupyter基本文本編輯操作
課時12jupyter生成在線PPT匯報(bào)文檔
課時13jupyter notebook用matplotlib不顯示圖片解決方案

章節(jié)2 python編程基礎(chǔ)
課時14Python文件基本操作
課時15python官網(wǎng)
課時16變量_表達(dá)式_運(yùn)算符_值
課時17字符串string
課時18列表list
課時19程序的基本構(gòu)架(條件,循環(huán))
課時20數(shù)據(jù)類型_函數(shù)_面向?qū)ο缶幊?br>課時21python2和3區(qū)別
課時22編程技巧和學(xué)習(xí)方法

章節(jié)3 python機(jī)器學(xué)習(xí)基礎(chǔ)知識
課時23UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫介紹
課時24機(jī)器學(xué)習(xí)書籍推薦
課時25如何選擇算法
課時26sklearn機(jī)器學(xué)習(xí)算法速查表
課時27python數(shù)據(jù)科學(xué)常用的庫
課時28python數(shù)據(jù)科學(xué)入門介紹(選修)

章節(jié)4 lendingclub業(yè)務(wù)介紹(P2P鼻祖)
課時29lendingclub業(yè)務(wù)簡介
課時30lendingclub債務(wù)危機(jī)及深層次時代背景
課時31lendingclub官網(wǎng)數(shù)據(jù)下載(或本集參考資料下載)

章節(jié)5catboost基礎(chǔ)介紹
課時32catboost基礎(chǔ)知識講解-比xgboost更優(yōu)算法登場
課時33catboost官網(wǎng)介紹

章節(jié)6 lengding Club實(shí)戰(zhàn)_catboost分類器模型
課時34數(shù)據(jù)清洗和首次變量篩選
課時35catboost第三方包下載和安裝
課時36import導(dǎo)入建模的包
課時37讀取數(shù)據(jù)和描述性統(tǒng)計(jì)
課時38train,test訓(xùn)練和測試數(shù)據(jù)劃分
課時39fit訓(xùn)練模型
課時40模型驗(yàn)證概述
課時41樹模型需要相關(guān)性檢驗(yàn)嗎?
課時42交叉驗(yàn)證cross validation
課時43混淆矩陣?yán)碚摳攀?,accuracy,sensitivity,precision,F(xiàn)1分?jǐn)?shù)
課時44混淆矩陣python腳本實(shí)現(xiàn)
課時45計(jì)算模型ks(Kolmogorov-Smirnoff)
課時46catboost1_建模腳本連貫講解
課時47catboost2_第二次變量篩選
課時48catboost3_分類變量cat_features使用

章節(jié)7KS(Kolmogorov–Smirnov)模型區(qū)分能力指標(biāo)
課時49KS簡介
課時50step1獲取模型分
課時51step2_計(jì)算ks_方法1
課時52step3_計(jì)算ks_方法2
課時53step4_計(jì)算ks_excel推理
課時54step5_繪制KS圖
課時55step6_KS評估函數(shù)
課時56step7_KS腳本匯總_分治算法
課時57step8_KS缺陷

章節(jié)8AUC(Area Under Curve)模型區(qū)分能力指標(biāo)

課時58?roc基本含義
課時58excel繪制roc曲
課時59python計(jì)算AUC很簡單
課時60python輕松繪制roc曲線
課時61AUC評估函數(shù)_AUC多大才算好?
課時62Gini基尼系數(shù)基本概念和AUC關(guān)系

章節(jié)9pickle保存模型
課時63pickle保存和導(dǎo)入模型包_避免重復(fù)訓(xùn)練模型時間

章節(jié)10PSI模型穩(wěn)定性評估指標(biāo)(上)
課時64拿破侖和希特勒征服歐洲為何失???數(shù)學(xué)PSI指標(biāo)揭露歷史真相
課時65excel手把手教你推導(dǎo)PSI的計(jì)算公式
課時66PSI計(jì)算公式奧義
課時67PSI的python腳本講解

章節(jié)11PSI模型穩(wěn)定性評估指標(biāo)(下)
課時68step1.篩選lendingclub2018年Q3和Q4數(shù)據(jù)
課時69step2_計(jì)算train,test,oot模型分
課時70step3.計(jì)算Q3和Q4模型分PSI

章節(jié)12模型維度與邊際效應(yīng)
課時71邊際效應(yīng)基本概念
課時72模型維度與邊際效應(yīng),變量越多越好嗎?
課時73降維實(shí)操,結(jié)果讓人吃驚!
課時74模型變量數(shù)量越多,區(qū)分能力(ks)越高嗎?

章節(jié)13catboost分類變量處理
課時75 One-hot encoding熱編碼
課時76 cat_features分類變量處理(數(shù)值型)1
課時77 cat_features分類變量處理(字符串類型)
課時78 不同分類變量處理方法的結(jié)果對比

章節(jié)14catboost調(diào)參
課時79GridSearchCV網(wǎng)格調(diào)參簡述
課時80iterations樹的顆樹
課時81eval_metric評估參數(shù)(logloss_AUC_Accuracy_F1_Recall)
課時82learning_rate學(xué)習(xí)率
課時83樹深度depth(max_depth)
課時84 l2_leaf_reg正則系數(shù)L2調(diào)參

章節(jié)15多算法比較
課時85xgboost分類器模型
課時86lightGbm分類器建模
課時87邏輯回歸分類器和多算法比較結(jié)果

章節(jié)16消費(fèi)者信用評分實(shí)戰(zhàn)_回歸模型
課時88機(jī)器學(xué)習(xí)回歸競賽_一百萬獎金挑戰(zhàn)
課時89線性回歸基礎(chǔ)知識(最小二乘法OLS)
課時90梯度下降法gradient descent
課時91誤差error_偏差bias_方差variance
課時92shrinkage特征縮減技術(shù)_正則化
課時93ridge嶺回歸_lasso回歸_elasticNetwork彈性網(wǎng)絡(luò)
課時94sklearn_ridge嶺回歸腳本
課時95邏輯回歸_regression腳本
課時96支持向量回歸SVR腳本
課時97隨機(jī)森林randomForest回歸腳本
課時98xgboost regression回歸腳本
課時99catboost regressor回歸腳本
課時100lightGbm基礎(chǔ)知識講解
課時101lightGbm regressor回歸腳本
課時102sequencial線性模型回歸預(yù)測腳本

?




python風(fēng)控建模實(shí)戰(zhàn)(分類器模型+回歸模型)的評論 (共 條)

分享到微博請遵守國家法律
雷波县| 齐河县| 开远市| 梅河口市| 石楼县| 法库县| 西丰县| 永新县| 广河县| 晴隆县| 五华县| 枣阳市| 福安市| 衡阳市| 灌南县| 芜湖市| 南平市| 田东县| 岳阳市| 太仆寺旗| 新源县| 咸丰县| 铜山县| 金溪县| 清流县| 武平县| 襄樊市| 梁平县| 库伦旗| 广安市| 综艺| 延津县| 承德县| 成都市| 出国| 竹山县| 甘泉县| 徐水县| 崇阳县| 长治市| 福安市|