英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
客户流失预测和营销保留策略
——基于AUC参数选择技术的支持向量机在B2B电子商务工业的应用
摘要:电子商务已经为企业和顾客提供了新的机会去轻松分享信息、寻找和购买产品,同时也让客户从一家企业流向另一家企业变得更加容易,增加了客户流失的风险。在本文的研究中,通过测试新模型:基于AUC参数选择技术(SVMauc)的支持向量机(SVM)的预测能力,我们针对B2B电子商务行业开发了一个客户流失预测模型。通过基准测试逻辑回归、神经网络和经典的支持向量机测试SVMauc的预测性能。研究表明参数优化程序对于预测性能十分重要,当被应用于嘈杂、不平衡以及非线性营销数据时SVMauc表现出的良好的泛化性能远优于其他方法。因此,我们的研究结果证明客户流失预测的数据驱动方法和营销保留策略的开发要比B2B电子商务行业一般使用的管理启发式算法预测性能更好。
关键词:流失预测模型;B2B电子商务;支持向量机;参数选择技术;营销保留策略
- 前言
现代营销中客户流失是一个突出的概念,不应该被B2B电子商务公司所忽视。如今,由于获取信息的能力不断提高,客户保留的时间愈发短暂,顾客在竞争者中切换自己的选择也变得愈发简单和低成本。许多公司意识到了这一点并开始着重识别潜在的顾客流失,通过对可能流失的客户实施激励措施以阻止客户转向竞争者。因此,出于留住客户的目的,学者和实践者都发现为了降低客户流失的风险,建立一个尽可能准确的客户流失预测模型十分关键。客户流失表明在一定的时间段客户停止与一个企业建立商业往来的倾向。客户流失预测以建立一个预测模型为主要部分,该模型将客户离开企业的可能性从最高至最低排列。因此,一个准确且高效的流失预测模型可以根据以往客户的行为给流失者分配高的流失可能性,给未流失客户分配较低的流失可能性。同时,顾客流失预测也帮助企业开发对于流失者和非流失者不同的、有针对性的维系措施,目的是对流失者实施针对性的激励政策以说服他们留下。
企业应该配备能够准确识别有可能流失的顾客的模型,这一点在如今的B2B环境中变得愈发关键与清晰,因为如今严峻的全球经济前景、逐渐增加的基于网络的对比购物以及电子商务环境的一大特征:顾客的平均价值要比B2C中的顾客平均价值更高。事实上,B2B环境下的客户数量更少,但是购买量更大且购买次数更频繁,因此带来更高的价值,维系客户被视作发展商业关系的中心环节。更重要的是,由于B2B客户普遍都会花费较大的金额,在这一环境下顾客维系会给企业运营带来极大的经济回报。
然而,尽管说服客户留下的观点在B2B环境中被普遍接受,但是还没有得到直接的实践。该观点主要存在两点研究空白:缺乏实证研究的文献资料以及缺乏在更有效、更准确的流失预测模型方面的共识。事实上,不同行业中所有预测顾客流失的研究大部分都集中于B2C的背景,在学术和实践两方面B2B环境都没有受到应有的关注,尤其在工业营销期刊上缺乏深度研究。这种实证研究的缺乏起源于一个事实:与B2C环境截然相反,大数据还没有应用到B2B环境,即使有数据的提供,B2B环境下对数据的分析实践还远没有发展起来。
此外,流失模型方面的文献表明对于建立一个更加准确的预测模型,尤其是针对B2B行业建立更准确和高效率的流失预测模型还没有达成普遍共识。现有文献中的预测模型大部分都是对于传统方法的研究,比如逻辑回归或者决策树,只有小部分使用例如神经网络或支持向量机的准确预测模型。因此,分类技术在客户流失预测领域的应用仍然有待发掘。这也表明为B2B环境开发一个准确且高效率的流失预测模型的需要,该模型比常用的模型预测性能更好,并且能够捕捉B2B行业的特征以降低客户流失风险,否则将大笔激励资金使用在流失风险较低的顾客上会造成很大浪费。考虑到客户数量少且购买量与交易额都较大,这种准确预测的需求在B2B环境下尤为明显。
为了填补这些研究空白,目前的研究针对:(a)分析B2B环境下的客户流失预测;(b)针对B2B环境开发一个高效且准确的客户流失预测模型,测试基于AUC参数选择技术(SVMauc)的支持向量机(SVM)的预测能力。
本文的其他部分结构如下:下一章提供了关于顾客流失模型及电子商务流失管理简要的文献回顾,然后对方法论研究及数据收集过程作简要描述,在第五章讨论研究结果,第六章是对营销管理者的应用建议,最后的研究局限及未来研究方向对我们的研究作出总结。
-
背景
- 客户流失预测模型
最近十年来,为了在竞争愈发激烈和全球性的市场环境中存活,客户流失预测受到了越来越多的关注,两种主要思想在管理类文献中发展起来。
第一种包括传统的分类方法,例如决策树与逻辑回归,这些方法对连续型数据的分析十分有帮助。然而,它们不能保证在大规模、非线性、高维度的模型构造方面的准确度与泛化能力。
相反,第二种思想基于人工智能方法,例如神经网络、进化学习、遗传算法、随机森林算法、改进的平衡随机森林算法。这些方法可以克服传统方法的缺点,有较好的非线性映射能力、较好的鲁棒性和预测精度。但是,它们也可能导致较低的泛化能力与模糊的模型构建,例如神经网络不能以简单的方式明确表达发现的模式。
然而,现存文献表明这些模型的结果很少且经常是冲突的,特别是在B2B环境下。而且考虑到B2B环境客户少、交易量大的特征,我们更加需要针对B2B环境开发一个流失预测模型。本文的研究中我们介绍了B2B环境下流失预测的支持向量机,评估了它的预测能力并且将它与逻辑回归和神经网络作出了比较。
-
- 电子商务环境下的客户流失管理
电子商务已经为顾客提供了许多新机会。网络、电子商务和社交媒体的快速扩张已经让电子商务环境中顾客行为的研究成为一项基础性的研究。电子商务和社交媒体会通过信任建立机制与影响顾客在线购买商品或是流失的意图来开发营销策略。事实上,快速发展的电子商务对网络环境下的顾客忠诚度与流失管理提出了重要的研究问题。这种快速发展也反映出了电子商务和社交媒体相对于传统的实体商店突出的优势:网络中更加容易的互联与参与、分享信息更简便、灵活度更高、加强市场推广、结构费用更低、交易更快、产品线更广、便利度和定制化程度更高。这些优点使社会化商务发展成充满活力和盈利性的电子商务渠道,这也是很关键的一点,因为社交媒体中的顾客参与是开发新的营销策略的关键因素。电子商务给企业带来多方面的影响,例如让口头的交流变得更加便利、增加销量、在商业环境下分享信息、为顾客提供社会支持,同时也提高流失风险。
然而,电子商务和社交媒体同样也面临着自己的挑战。对企业来说电子商务环境下客户维系的重要性愈发清晰,因为顾客购买量更大且购买次数更加频繁,带来的交易价值也更高。结果,世界范围内电子商务和社交媒体的竞争者只存在鼠标点击的距离,消费者能够以较低的时间和金钱投入去比较和对比相互竞争的产品和服务。因此,电子商务让顾客在相互竞争的企业间转变自己的选择变得更加简单。
最后,要强调电子商务顾客流失管理的七个主要特征:(1)流失与非流失的预测是一个典型的二值分类问题;(2)数据通常是不平衡的,也就是说电子商务流失客户的数量只占整体数据的小部分(通常为样本总体的5%-10%);(3)数据包括相关数据与不相关数据,因此整合数据的任务十分复杂;(4)大型学习应用中的数据不可避免地会存在不同类型的噪声;(5)预测电子商务客户流失的任务要求将用户根据流失的可能性大小进行排序;(6)由于电子商务的虚拟性,了解顾客的身份会比较困难;(7)识别客户的流失原因是冗长的任务。
-
方法论
- 支持向量机
支持向量机是基于数据学习理论的分类技术。这些技术当被应用到营销数据库时非常有用,因为它基于结构风险最小化原理将实际风险的上限降到最低。
在流失预测的环境下,支持向量机在高维空间建立一个或是一组超平面,通过将分离类的两个超平面间的差距最大化,达到最优区分流失者与非流失者。特别地,支持向量机还有如下优点:(1)只有两个自由参数可供选择,即上界与内核参数;(2)由于支持向量机通过解一个线性约束二元方程问题完成训练,得出的解是唯一、最优且全局的;(3)支持向量机基于结构风险最小化原理,这意味着这种类型的分类器较其他降低经验风险的分类器而言降低了实际风险的上界。
接下来,为了阐明我们的方法选择,我们就一个典型的二值分类问题对支持向量机作简要概述。首先定义标志的训练示例 [xi,yi],由输出向量 xi ϵRn以及类代表值yiϵ{-1, 1}, i = 1, hellip; , I组成。对于非线性分离案例,分离二元决策类的最优超平面定义的决策规则由以下方程式给出:
(1)
其中Y 代表结果,yi是训练示例xi的类代表值,表示內积。该向量相当于输入,向量xi, i = 1,hellip;, N, 代表支持向量,b 和alpha;i是决定超平面的参数。K(x,xi) 是一个生成內积的核函数,在输入空间用不同类型的非线性决策表面构造向量机。
核函数有几种不同的类型,例如线性核函数,径向基函数(RBF),d次多项式核函数,Sigmoid核函数(risin;N)。用支持向量机构建预测模型时正确选择核函数是最重要的因素之一。下一小节我们将首先阐明为什么RBF被用作默认核函数,然后解释选择最优罚参数C与核参数gamma;的网格搜索方法和交叉验证程序。
-
- RBF核函数及最优参数选择方法
研究中我们决定使用RBF核函数作为默认核函数优化超平面,RBF核函数由以下方程式表述:
(2)
其中delta;2 是径向基函数核的带宽,我们决定使用RBF核函数主要是因为以下原因:(1)这种类型的函数可以将输入空间的非线性边界映射到更高维度的特征空间。因此,与线性核函数不同,RBF核函数可以处理非独立与独立变量间的非线性关系;(2)RBF核函数的整体性能很好。基于以上论证,我们使用RBF核函数作为默认核函数。
RBF核函数需要设置两组参数:C与gamma;,其中C是误差项的罚参数,gamma;是核参数。C与gamma;的选择对支持向量机的性能起关键作用。然而,在不可见数据中验证经过训练的支持向量机时,没有决定这些参数值的总则,并且预先也不可能知道哪种(C , gamma;)的组合会带来最优的性能。Hsu等人建议对C和gamma;的选择进行网格搜索并对训练数据进行v折交叉验证以得到最优的参数C与gamma;的值,从而使分类器可以准确预测不可见数据。本文的研究中,对参数C 和gamma;的网格搜索在训练集中使用十折交叉验证。网格搜索通过评估C和gamma;的指数序列(C = 10minus;4, 10minus;3, 10minus;2, 10minus;1, 100, 101, 102, 103,104; gamma; = 10–4,10minus;3, 10minus;2, 10minus;1, 100, 101, 103, 104)得以实现。基本上,所有的(C , gamma;)对都会得到测试,其中交叉验证准确度最高也就是正确分类占比最高(PCC)的参数对会被选择。不同的是,在我们的研究中使用基于接受者操作曲线下最高的交叉验证面积的交替参数选择技术,使用这种参数选择技术的原因是相较于传统技术它的性能更优。事实上,不同于PCC,AUC在所有可能的阙值中将敏感性与特异性作为单个类的性能指标。这种交替参数选择方法十分重要,因为即使是预测性能上一些小的改变也会显著提高基于这些预测模型的市场投资的回报。一旦获取到最优的参数对,整个训练集将被再次训练。两种参数选择方法都将被用于验证不可见数据集以及两种类型的支持向量机基准的性能。为了展开调查,我们免费下载了LIBSVM SVM工具箱用于MATLAB。
-
- 神经网络
本文使用的是通过反向传播规则与十折交叉验证程序训练的前馈多层感知器神经网络模型(MLP)。通常,MLP的激活函数是一个双曲正切函数,由输入层、隐藏层和输出层组成。输出可由以下方程式表示:
(3
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138815],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。