贷款 贷款攻略 新型贷款 案例:恒丰银行——对公客户贷后违约预测模型
案例:恒丰银行——对公客户贷后违约预测模型

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。更好的特征意味着只需用简单模型(小数据量复杂模型容易过拟合)。

基于以上数据,如何做数据预处理,从哪些角度提取模型输入特征,如何选择特征,是整个建模过程中比较关键的一步。

1.数据预处理

首先,由于数据中存在大量的缺失值,需要对缺失值数据进行预处理。对于类别型的变量我们视缺失值为一种特征值进行处理,而对于连续性变量我们一般用均值,中位数替代或者运用K近邻方法根据它周围的点来预估。

其次,数据中违约客户远远少于未违约的客户,针对类别不平衡问题,我们进行了过采样处理。从业务意义和模型稳定性方面考虑,我们对部分连续变量进行了离散化,离散化主要有两种划分方式:一种是等值划分(按照值域均分),另一种是等量划分(按照样本数均分)。

我们对数值类型的特征采用了等量划分的离散化方式:先将每一维特征按照数值大小排序,然后均匀地划分为10个区间,即离散化为1~10。前面已经对特征进行了离散化,如某个客户某个特征离散化后它的值是5,3,1,2,2,2,2,7,2,可以进一步统计离散特征中1~10出现的次数ni(i=1,2,…,10),即可得到一个10维计数特征。

基于这10维特征训练了xgboost分类器,得到一定精度的提高,说明这10维特征具有不错的判别性。对于无序的变量,我们一般对它进行One—Hot编码,解决了分类器不能处理类别特征的问题。为了防止异常值对模型的影响,我们对离群值进行了处理;为了统一量纲,对特征进行了归一化等操作。

2.特征提取

基于以上处理好的数据,我们从多个角度提取特征,其中主要包括以下几类特征。

1)基本信息特征定性地反映客户的资历,信用及还款能力,描述了授信企业基本情况。如经济性质,注册资本,信用评级状态,中小企业标志等。

2)行为特征根据客户的历史行为判断客户未来违约的可能,企业的历史行为反应了他的习性,而习性一般会延续。行为特征如历史逾期天数、历史逾期次数、历史逾期本金利息等。

3)图结构特征描述客户所在担保图的图结构特征,企业所在图中所处的位置对其它节点产生的影响。比如企业在图中的影响度值,中心程度等(如果图中的关键企业破产违约了,可能会对它相关的企业产生一定的影响)。

4)图行为特征描述客户所在担保图中客户的行为特征,企业是否会违约和给他担保的企业质量是密切相关的。比如子图违约率、子图违约天数、子图违约额度等。

5)社区行为特征描述客户所在社区中客户的行为特征,人以群分物以类聚,所以社区内的企业一般具有相似的性质。比如客户所在社区的违约率、逾期天数、罚息等。

3.特征降维与特征选择

特征选择是为了踢除原本特征里和结果预测关系不大的特征,而降维是做特征的计算组合构成新特征。前面我们基于原始数据生产了几百维特征,这么多维特征一方面可能会导致维度灾难,另一方面很容易导致过拟合,因此需要做降维处理,常见的降维方法有PCA、ICA、LDA等。

除了采用降维算法之外,我们也做了特征选择来降低特征维度。特征选择的方法很多,其中包括最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1,L2)、基于模型的特征排序方法。比较高效的是最后一种方法,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种方法。

基于决策树的算法(如randomforest,boostedtree)在模型训练完成后可以输出特征的重要性,我们综合了多种方法进行特征选择和解释判断,其中包括统计指标方法Z­Score,基于集成学习的特征重要性计算方法等,随后使用了shrinkage和subsampling等方法进行特征选择和比较。

特征分析

从以上数据中提取了上百个特征,那么这些特征对模型的影响有多大,是否对预测企业贷后违约有帮助?

依据行内近3年数据训练模型,观察基础信息,贷款行为,复杂网络相关特征的变化趋势。我们发现随着时间的变化,复杂网络图的特征越来越重要,进一步说明加入担保图进行担保贷后分析的必要性。以下分别举例介绍这3类特征的重要性。

静态特征:注册资本

上图每个季节中逾期客户和非逾期客户注册资本均值相差较大(已归一化处理),可以看出注册资本的多少对企业是否会逾期有一定的影响,注册资本较小的企业更容易逾期,这相对符合常理。

行为特征:历史逾期天数

从上图可以看出每个季节中逾期客户和非逾期客户历史逾期天数均值相差较大,说明过去逾期的天数越多,贷款逾期概率可能越大。

图特征:社区违约率

上图是一个担保链示意图,该担保链图包括2个社区(橙色为逾期客户,蓝色为非逾期客户),不同社区的违约率差距非常明显,这表明了社区特征的必要性。

构建模型

1)模型训练之前,我们先提取特征和标签,我们以每个季度为时间窗提取特征,这里时间窗设置为一个季度是因为我们统计发现近几年担保贷款逾期呈现出季节性周期规律,每个季度具有相似的走势和分布。

2)建模过程中,我们选取多种机器学习分类算法,并做相应的融合。其中用到基于树模型的集成学习方法,基本思想是把成百上千个分类准确率较低的树模型组合起来成为一个准确率较高的模型。

它的最大特点在于能够自动利用CPU的多线程进行并行计算,同时在算法上加以改进提高了精度。考虑到后期数据量不断增长,我们开发了该算法的分布式实现,部署于生产环境。

3)在部署生产环境之前,我们利用近3年的数据进行多次模型验证,优化和调参,以达到较高的精度和模型稳定性。

结果/效果总结

模型用数仓近3年的真实数据进行了验证,auc均在0.85以上(auc为度量分类模型好坏的一个标准,越接近1表明模型预测能力越强)。

上图为模型对所有违约客户,首次违约客户,非首次违约客户命中和未命中的分布图。首先提取客户2016年第三季度和第四季度行为特征和标签,并训练学习得到模型,然后模型预测2017年第一季度有活跃贷款的客户违约情况,模型预测最有可能违约的TOPN客户中,违约客户的命中覆盖率为64.24%,与传统方式相比提升了6倍左右。

其中首次逾期客户命中覆盖率为46.5%,非首次逾期客户命中覆盖率为66.9%。可以看出不管客户是首次还是非首次违约,模型都有较高的识别能力。即使客户没有历史逾期行为,根据担保图中企业风险的传导关联关系也可以较准确的识别未来可能产生违约行为的客户,这也论证了复杂图特征的重要性。

模型上线以来,对客户信贷中后期进行检测,提前发现大量违约风险,贷后违约坏账率逐渐下降,较之前的贷后违约数量平均减少30%,有效遏制了客户贷后违约风险,极大的减少了贷后违约损失并提升了风险运营效率。

从整个实施过程来看,深入挖掘分析复杂网络对识别企业风险信息至关重要,本案例主要基于担保网络挖掘风险信息,后期会不断探索交易图谱,供应链图谱,投资、高管任职图谱等对企业风险的影响,进一步提高模型识别违约客户的精度。

企业介绍:

恒丰银行股份有限公司,是12家全国性股份制商业银行之一。目前,在全国设有18家一级分行(省级分行),共306家分支机构;另外还发起设立了5家村镇银行。全国布局正在加速,大量分支行和子公司正在筹建开业,同时快速拓展海外业务和设立海外分支机构。截止2016年年底,恒丰银行总资产达1.2万亿,各方面实现了高速跨越式增长。

恒丰银行先后跻身“亚洲银行竞争力排名30强”、“中国企业500强”、“全球银行1000强”,在英国《银行家》杂志发布的“2016年全球银行1000强”排名中,位列第143位,正在向世界一流银行大步迈进。

恒丰银行较好地实现了盈利与稳健发展的平衡。盈利能力方面,恒丰银行在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位;稳健发展能力方面,恒丰银行在中国银行业协会发布的“商业银行稳健发展能力‘陀螺(GYROSCOPE)评价体系’”中,在综合能力排名中位列全国性商业银行第7位,全国性股份制商业银行前三。

欢迎更多大数据企业、大数据爱好者投稿数据猿,来稿请直接投递至:tougao@datayuan.cn

undefined
新型贷款 更多

快速申请

同意《百度金融服务条款》 快速申请

热门贷款

×
您在哪个城市工作
机构仅办理当地工作人士申请
全国
北京
其他城市