基于网络支付平台的信用风险管理研究—以蚂蚁花呗为例外文翻译资料

 2022-11-03 21:02:59

中文参考译文

1.介绍

2007-2009年的金融危机在金融机构中凸显了风险管理的重要性。在经济危机的大众媒体和学术文献中,一直特别关注建立大型银行的风险管理实践和政策。大多数人认为这些机构的风险管理或它的缺乏在塑造随后的经济危机扮演核心作用。尽管存在最近的焦点,然而,个别机构的风险管理政策在很大程度上仍然是黑盒。

在本文中,我们研究的实践和影响在六大美国金融机构风险管理,使用计算密集型“机器学习”技术应用到一个前所未有的大样本的户头级别信用卡数据。消费信贷市场是理解风险管理在大型机构中央有两个原因。第一,消费信贷在美国爆炸增长在过去的三十年里,在2014年底总计3.3万亿美元。从1980年代初的大萧条,美国家庭债务占个人可支配收入的比例翻了一番,尽管利率下降意味着偿债比率增长速度较低。其次,算法的决策工具,包括使用记分卡基于“硬”信息,在消费信贷已经越来越普遍(托马斯,2000)。考虑到大的数据量,以及更多的决策与商业信用贷款相比,这种新算法决策不应该奇怪的依赖。然而,这些工具对风险管理的影响,单个金融机构和投资者,对于整个经济,仍不清楚。

循环信贷额度信用卡账户,因此,放贷机构和投资者有更多的选项来积极地监控和管理它们与其他零售贷款相比,比如抵押贷款。因此,管理信用卡投资组合是一个潜在的重要的价值来源的金融机构。更好的风险管理可以为金融机构提供节省每年数亿美元的顺序。例如,银行可以对那些可能进入违约的账户削减或冻结信贷额度,从而减少风险敞口。通过这样做,他们可能避免增加账户的余额注定要违约,在业内被称为“前。“然而,削减这些信贷额度以减轻跑步之前也减少账户的信用额度的风险不会违约,从而疏远客户和潜在放弃有利可图的贷款机会。更准确的预测的拖欠率和违约率减少假阳性的可能性。发行者和投资者的证券化信用卡债务也将受益于这样的预测和工具。最后,鉴于房地产业的这一部分的大小——8610亿美元的循环贷款突出在2014年底——更准确的预测将改善宏观审慎政策决策,并减少对金融体系系统性冲击的可能性。我们的数据使我们能够观察到实际的风险管理行为由每家银行在账户层面,例如,信贷额度下降随着时间的推移,发现助跑,从而确定可能的成本节约银行对于一个给定的风险管理策略。数据进一步允许我们的横断面性质比较跨机构的风险管理实践,并检查不同企业如何积极、有效地管理他们的信用卡的风险投资组合。我们发现显著的异质性在信贷额度管理跨样本6个机构的行动。

我们比较一个机构的风险管理过程的有效性使用一个简单的测量:信用额度的比例减少的比例,成为拖欠预测地平线,对所有账户信用额度减少的百分比在同一时期。这个措施的程度机构针对“坏”账户,和管理敞口之前违约。1我们发现这个比例范围从小于1,这意味着银行更有可能减少的好账户比那些最终陷入违约,超过13,这意味着银行高度精确的瞄准坏账户。虽然这些比率变化随着时间的推移,横断面排名的机构仍然相对稳定,表明某些公司要么是更好地预测拖欠帐款,削减或视图线作为一种有益的风险管理工具。

因为上面的风险管理战略的有效实施需要能够识别银行账户可能违约,我们构建预测模型分类账户是好是坏。因变量是一个指示符变量等于1如果一个账户逾期90天(违约)在未来两、三个或四个季度。独立变量包括个人账户当前余额等特点,利用率,和购买体积;个人借款人特征从大型信用局,获得包括账户数量个体突出,拖欠的其他账户的数量,和信用评分;和宏观经济变量包括房价、收入和失业统计数据。总之,我们修建了87个不同的变量。

使用这些变量,我们比较三种建模技术:逻辑回归,使用C4.5决策树算法,随机森林方法。模型都是测试样本外,好像他们在那个时间点上实现,即。,没有未来数据作为输入用于这些测试。所有的模型都表现相当好,但决策树模型倾向于执行最佳的分类率。特别是,我们比较模型基于著名的精度和召回措施,措施结合起来,F测量和kappa统计。2我们发现决策树和随机森林模型优于逻辑回归对两组的措施。

有一个很大的横截面和时间异质性在这些模型。正如预期的那样,所有模型的性能随着预测地平线的增加下降。然而,模型的性能为每个银行在一段时间内保持相对稳定。3在银行,我们发现大量的异质性在分类精度。例如,在两个季度预测地平线,意味着F衡量表现最差的银行范围从63.8%到63.8%在最好的。Kappa统计显示类似的变化。

我们也估计的潜在成本节约使用这些机器学习积极的风险管理模型。基本的评估策略是使用上述模型分类账户是好是坏,然后减少坏账户的信用额度。节约成本将取决于模型的准确性和积极银行将如何削减信贷额度。然而,这种策略会带来的潜在成本削减信贷额度好账户,从而疏远客户和失去未来的收入。我们遵循Khandani等的(2010)方法来估计模型的“附加值”,和报告不同程度的节省成本削减,从没有削减削减当前余额帐户限制。包括疏远客户的成本,我们保守假设客户错误归类为坏将偿还他们的当前余额和关闭他们的账户,银行失去未来所有收入来自这些客户。

最终,这种方法代表了储蓄银行将实现通过冻结信贷额度的账户由我们的模型预测违约,相对于银行存了什么如果有完美的远见,削减信贷限制,只有坏的账户。因此,它只代表潜在的储蓄从特定的风险管理活动我们讨论本文(即削减信贷额度),它不应该被解释为一个百分比节省整个信用卡投资组合,其中包括其他来源的收入,包括兴趣和购买费用。

关于这一标准,我们发现我们的模型表现良好。假设减少坏的行账户将节省30%的上涨目前的平衡,我们发现我们的决策树模型将节省大约55%的潜在好处相对完善的风险管理,而采取任何行动的两个季度地平线预测(这包括费用削减的账户行)。当我们前往往预测地平线,模型没有执行,和节约成本下降约25%和22%的三个连续的视野,分别。在银行的这些结果相差很大。银行最大的节约成本的增值76%,46%,和35%预测视野;银行与最小的成本只会站获得47%,14%,9%通过实现我们的模型在三个视野。当然,还有许多其他方面,银行的整体风险管理程序,所以这些银行的质量风险管理策略不能排名只根据这些结果,但结果表明,有大量的异质性对银行提供风险管理工具和有效的策略。

Khandani等(2010)是论文最喜欢我们的机器学习工具应用到非常大的金融数据集。我们的纸是由Khandani分化等人在两个重要方面。第一,不像Khandani等(2010)专注于单个银行,我们银行的横截面数据。因此,我们比较模型预测在银行违约,并比较在相同的银行风险管理。——其他银行的横截面的优点是我们比较犯罪的司机的能力在不同的银行。一套司机我们看宏观经济变量。另一方面,Khandani等(2010)有显著的单一银行更丰富的数据集,在信用卡和借记卡账户级事务以及平衡支票账户信息和CD。

本文的其余部分组织如下。在第2部分中,我们描述我们的数据集,并讨论它周围的安全问题和所使用的样本选择过程。在第三节中,我们概述模型规格和我们的方法构建有用的变量作为输入我们采用的算法。我们还描述了机器学习框架为单个银行创造更强大的预测模型,并提出我们的实证结果。我们应用这些结果来分析银行风险管理和风险司机在银行在第四节的关键。我们在第五部分得出结论。

2.数据

美国主要的金融监管机构从事大型项目收集详细的信用卡数据来自美国几家大型金融机构。如下详细,数据包含了从银行内部帐户级别数据与消费者数据合并从美国大型商业资信咨询机构,由超过5亿条记录的个人账户在6年期间。它是一个独特的数据集相结合的详细数据与横断面的好处比较个别银行在银行。

底层数据包含在这个数据集是保密的,所以周围有严格的条款和条件使用和传播的结果,以确保隐私的个人和机构参与这项研究。第三方供应商的合同作为报告的金融机构之间的中介,商业资信咨询机构,监管机构,在监管机构最终用户不能够识别任何个人消费者的数据。我们也禁止显示结果的方式,使银行的标识的数据收集。

2.1分析组

两个子集的信用卡数据聚合我们称之为户头级别和信用局数据。帐户级别的数据收集从六个美国大型金融机构。它包含帐户级别(贸易)变量为每个单独的信用卡账户的机构的书籍,报告每月2008年1月开始。信用局数据从一个主要的信用局,并包含个人消费者的信息公布季度开始2009年第一季度。

这个过程的结果在186年合并后的数据集包含原始数据项(106帐户级别项目和80年信用局项目)。帐户级别数据包括月末余额,信用额度,借款人收入,借款人的信用评分,支付金额、账户活动,犯罪,等等。信用局数据包括客户级变量,如总信用额度,总余额在所有卡片,拖欠帐款,等等。

然后我们增加信用卡数据与宏观经济变量在县和国家层面,利用美国劳工统计局(Bureau of Labor Statistics)的数据(BLS)和房价指数(HPI)数据从联邦住房金融局(FHFA)。劳工统计局数据是县级,来自国家和城市就业,收入,和小时(SM)系列和当地失业率(LA)系列,每一个都被收集在当前就业统计数据程序。的数据是在州一级的快乐指数。劳工统计局数据匹配使用邮政编码。

考虑到保密限制的数据,分析在我们的模型的单位为个人帐户。虽然数据个人帐户级别和信用局的信息,我们不能多个帐户链接到一个消费者。也就是说,我们不能确定两个人信用卡账户属于同一个人。然而,信用局数据尽管我们确定帐户的总数,每个个人账户的所有者突出。同样的,我们不能确定独特的信用局记录,因此我们为一些人有多个记录。例如,如果个人有五个开放信用卡从两个金融机构,这些说法我们不能追溯到单个A。然而,每个五个户头级别的记录,我们会知道从信用局数据的每个账户的所有者共有五个开立信用卡账户。

考虑到保密限制的数据,分析在我们的模型的单位为个人帐户。虽然数据个人帐户级别和信用局的信息,我们不能多个帐户链接到一个消费者。也就是说,我们不能确定两个人信用卡账户属于同一个人。然而,信用局数据并允许我们确定帐户的总数,每个个人账户的所有者突出。同样的,我们不能确定独特的信用局记录,因此我们为一些人有多个记录。例如,如果个人有五个开放信用卡从两个金融机构,这些说法我们不能追溯到单个A。然而,每个五个户头级别的记录,我们会知道从信用局数据的每个账户的所有者共有五个开立信用卡账户。

2.2样本选择

数据收集的金融监管机构从2008年1月开始用于监管目的。由于管理上的原因,银行的数据已经改变了随着时间的推移,虽然总数已经呆在八个或更少。然而,收集一直覆盖大部分的信用卡市场。并购也改变了人口在此期间。

我们最后的样本包括六个金融机构,选择因为他们有可靠的数据生成样本。尽管数据收集2008年1月开始,我们的示例开始在2009年第一季度恰逢信贷局数据收集的开始。样本期间贯穿2013年底。

非常大的数据集的大小迫使我们画一个随机子样品的全部人口数据。最大的银行在我们的数据集,我们样本2.5%的原始数据。然而,有大量的异质性的信用卡投资组合机构的规模,我们样本10%,20%,20%从最小的三家银行在我们的样例。原因很简单地呈现在银行样本大小可比,所以可用于机器的数据量的差异——学习算法并不推动的结果。

这些次级样本选择使用一个简单的随机抽样方法。从2008年1月的数据,每一个信用卡账户的18位基于加密的帐号的唯一标识符。标识符是简单序列从某个常数和增加每个帐户。个人账户保留他们的标识符,因此可以被跟踪。随着新账户添加到样本在随后的时期,他们惟一标识符分配,增加每个帐户。账户收取了,出售,或关闭,他们只是退出样本,和独特的标识符是永久退役。因此,我们有一个面板数据集通过时间跟踪个人账户,预测犯罪的必要条件,也反映了金融机构的投资组合的变化。

一旦建立了户头级别样本,我们将它与信用局数据。这个过程也需要照顾,因为报告频率和历史覆盖两个数据集之间的不同。特别是,户头级别数据月度报告,2008年1月开始,而信用局公布季度数据,在2009年第一季度开始。我们使用提供的链接文件合并数据供应商月度水平保留帐户级别的粒度数据。因为我们合并的季度与月度账户信用局数据级数据,每个信用局观察在合并后的样品重复三次。然而,我们只保留最后的几个月的每个季度我们的模型。

最后,我们合并的宏观经济变量样本使用的五位邮政编码与每个帐户相关联。虽然我们没有很长时间序列在我们的示例中,有大量的横向非均质性,我们用来识别宏观经济趋势。例如,居民可以在州一级,和一些就业和工资变量可用县级。大多数公布季度的宏观经济变量,这使我们能够捕捉短期趋势。

最后合并数据集保留约70%的信用卡账户。从这里,我们只保留个人信用卡。样本的大小在所有银行稳步增加随着时间从570万年的约570万信用卡账户在660万年第四季度到660万年第四季度。

3.经验设计和模型

在本节中,我们比较三种基本类型的信用卡拖欠模型:决策树,随机森林,正规化的逻辑回归。除了运行一系列的“不同模型之间的赛马,我们寻求更好地了解每种类型的模型的条件可能更有用。特别是,我们感兴趣的模型比较在不同的时间范围和如何改变经济状况,和银行。

我们使用开源软件Weka运行我们的机器学习模型。Weka为数据挖掘提供了广泛的机器学习算法(参见http://www.cs.waikato.ac.nz/ml/weka/ 的更多信息)。我们首先简要概述我们使用三种类型的分类器。对这次讨论的目的,我们假设我们解决一个两类分类问题,所以学习算法——放一个训练数据集,包括对(x,y),其中xisin;x特性或属性向量(可以包括分类,以及实值变量),和yisin;{ 0,1 }。学习算法的输出是一个映射从X到yisin;{ 0,1 }(或者,在逻辑回归的情况下,[0,1],输出代表公关(y = 1))。现在我们简要描述下属这三个模型的算法。

决策树是强大的模型可以看作是分区的空间X,与特定的预测y(0或1)对于每一次这样的分区。如果模型分区空间k互斥区域R 1,R k,然后返

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140759],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。