英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
基于对抗性代理损失函数的有序回归模型
Rizal Fathony Mohammad Bashiri Brian D.Ziebart
伊利诺伊大学芝加哥校区计算机系
芝加哥,IL 60607
{rfatho2, mbashi4, bziebart}@uic.edu
摘要
有序回归模型的样本标签预测任务致力于寻求在有序标签上进行最小误差的标签预测工作。广泛使用的绝对误差是其中典型的例子。当前许多研究采用对抗性损失函数,例如铰链损失函数。与这些方法不同的是,本论文采用了独特的代理损失函数以应对训练数据难以拟合的情况。本文提出的模型在基于UCI数据集的实验中取得了良好的实验表现,证实了模型的有效性。
引言
对于许多分类工作,预测的离散类标签之间具有顺序信息,例如差,中等,优秀,完美。鉴于将标签预测为一个距离非常远的标签的危害要大于将标签预测为一个相近的标签,绝对误差损失函数经常作为有序回归模型的典型损失函数。有序回归模型致力于预测标签使得该损失函数的值最小。
许多现有的方法将有序回归模型划分为使用现有监督学习技术的子任务模型。研究者从回归的角度看待子任务模型并从中学习一个线性回归函数以确定类标签的阈值[1–5]。其它方法从分类的视角,使用损失敏感的分类工具以对样本进行预测[6,7]。然而,由于预测模型采用的损失函数是一个典型的非凸损失函数,因此必须对该损失函数进行优化以提升模型的表现效果。在上述两种观点的视角下,采用铰链损失函数,逻辑损失函数,以及幂指损失函数,以替代传统的损失函数的方法应运而生,然而这些方法均未有比传统方法更有优异的效果表现。
为了处理上述局限性,本论文致力于通过下文所述的公式化的对抗性有序回归模型框架以寻求一个更具有鲁棒性[8]的有序回归预测模型:在最坏的情况下,哪种类型的分类器能够在仅给出部分标签分布信息的情况下最小化绝对误差?本论文通过构造新型的损失函数,该损失函数由传统的损失函数以及拉格朗日势能函数相结合[9]。
研究背景以及相关工作
有序回归问题
有序回归的任务是对具有有序标签的样本进行标签预测,使得最终的损失函数值最小化。目前使用最为广泛的损失函数为绝对误差损失函数。本论文的研究内容也是由该损失函数作为出发点。表格1为四种不同样本标签的该损失函数矩阵表示。预测函数为。该问题设置的监督学习目标是构建概率预测预测器,以一种根据经验分布使训练样本损失最小化的方式,是真实样本的分布标签。
表格 1 有序回归模型损失矩阵示意图
0 |
1 |
2 |
3 |
1 |
0 |
1 |
2 |
2 |
1 |
0 |
1 |
3 |
2 |
1 |
0 |
一种传统的有序回归方法是将任务简化成连续预测模型,同时最小化绝对误差[10]然后预测标签为最近类的标签[11];更加先进的方式是使用一种累积连接模型[12]。本论文的主要工作是在以上方法的基础上出发,同时对其进行改进,使其能够被切分成几段非凸函数的最小化绝对误差的经验主义模型。
基于阈值的有序回归模型
基于阈值方法的有序回归模型是当前有序回归模型中最流行的,其通过函数对样本的标签进行预测,同时划分出个阈值分别为。标签通过与该个阈值进行比较来划分为个标签类别。当预测标签符合时,其被归为对应的类别。基于阈值方法构建的损失函数有两种不同的方法对的选择进行优化。一种是基于当分类错误时,对所有阈值进行惩罚,第二种时仅对分类错误的阈值进行惩罚。
所有的阈值方法通过使用如下的方式对错误的阈值进行惩罚:。Shashua 以及 Levin[1]基于上述损失函数惩罚方式对铰链函数进行了研究,Chu以及Keerthi[2]提出了一个相似的方法,模型名称为SVORIM。Lin以及Li[3]提出了增强型有序回归模型,上述所有方法均使用幂指损失函数对传统的损失函数进行替代。最终Rennie以及Srebro[4]提出了一个统一化方法用于对传统损失函数进行改进。
不同于对所有阈值进行惩罚的损失函数构建方式,另一种损失函数构建方式为仅对判错类的类阈值进行惩罚,其惩罚方式如所示。基于该种损失函数构建策略,Chu以及Keerthi[2]构建了SVOREX模型;Lin以及Li构建了基于右阈值的增强型有序回归模型。Rennie以及Srebro[4]也为该种损失函数的构建方式提供了统一的框架。
将有序回归模型简化至二分类问题的框架
Li以及Lin通过扩展训练样本的方式提出了一种将有序回归模型简化至二分类模型的框架。针对每个训练样本,简化模型创造了个用于扩展训练样本的数据,并且为每个扩展样本分配对应的权重。扩展样本的二分类标签可以用来回答该问题:“是否的排名要比高?”这个简化框架允许选择如果从原始样本中扩展寻来你样本并且如何转换成二分类问题。当基于阈值的有序回归模型用于扩展训练样本并且支持向量机也被使用的时候,模型能够用来求解一系列二次规划问题,其中包括了SVORIM以及SVOREX两个模型。
基于损失敏感的分类方法的有序回归模型
除了使用基于阈值的有序回归模型,或者将有序回归模型简化成二分类模型,有序回归模型也可以映射至一个空间结构当中,这种方法称为基于损失敏感的分类方法。当前两种最流行的基于有序回归模型其中一种即为基于OVA模型[6,13]再加上损失敏感的分类方法构建而成,在以上方法的基础上,再将有序回归模型转化成二分类问题。不同于转换成二分类问题,Tu以及Lin将基于敏感损失的有序回归模型转化成单边回归模型OSR[7],该模型也可以看作OVA模型的一种扩展。
对抗性预测
本论文建立了最小化对抗性损失函数以及最大化熵之间的对偶性[14],其采取了最小化损失函数以及最大化损失对手损失函数的零和游戏的方法。此外,对手被限制在只能选择与训练样本数据分布相似的数据[14]。最终通过最大化熵的方式,来构建训练样本的最大似然估计。Grunwald以及Dawid[15]给出了该方式的最大熵原理的正确性。多变量方法[16]以及非IID设置方法[17]证明了该方法的有效性。最近的相关研究显示对于这种特殊的零和游戏分类的方式,这种对抗性损失函数的公式化等价于损失函数的经验风险最小化,如公式(2-1)所示:
(2-1)
其中。与多分类的Crammer-Singer铰链损失函数[18]相比,本论文提出的该损失函数提供了一个关键的理论又是:其保证了Fisher一致性[16]。尽管当前Crammer-Singer损失函数在许多应用中均受到欢迎,例如结构化支持向量机[19]。总结一下本章的内容,即本论文进一步对基于绝对误差的有序回归模型进行进一步分析,并提出了一种新型的替代的损失函数,能够比传统的损失函数提供更好的分类预测。
对抗性有序回归模型
基于零和博弈的公式化
本论文研究一种在给定未知分布的样本的情况下的鲁棒性最强的有序回归模型。本模型采用了基于零和游戏的预测方式,其目标在于使得两个对立的预测标签进行对抗,使得预测各自更具同类型分布的训练样本预测出来的标签损失函数值最小:
(2-2)
矢量特征是从符合分布的训练集样本中提取而来的。该有序回归问题可以被看作基于熵以及损失敏感的损失函数,其目标在于使得类标签之前的绝对平均误差最小(该例子在表1中进行了体现)。在为损失敏感的有序回归模型构建对抗性预测博弈之后,公式(2-2)的目标函数可以转换成公式(2-3)的形式:
(2-3)
此处表示拉格朗日模型向量参数;是一个拉格朗日函数;为标签分布向量;矩阵为零和博弈矩阵。公式(2-3)为凸函数并且零和博弈能够使用线性方法进行求解。
模型的特征提取
针对不同的训练样本,我们思考了两种不同的特征表示方法:
(3-1)
第一种特征称为阈值回归特征表示,维度为,其中的表示我们的输入空间。特征包含一个用于分享特征权重的矢量以及一个阈值集合。首先我们把权重向量与每个样本的阈值相乘,然后通过阈值相乘的结果来对未知样本进行预测。
图 3.1 被使用的多类别向量权重的样例
第二种特征称为多类别特征表示方法,维度为,其中包含了一个类特征权重集合。当有序标签存在多个方向因此不能被有效地划分阈值空间地时候,这个特征表示方法是相当有效的,如图1所示。
基于纳什均衡的对抗性损失函数
当前已经对本论文的主要技术结构进行了介绍:一种用于替代传统损失函数的新型损失函数,通过该损失函数构建对抗性有序回归模型。
定理1. 一个对抗性有序回归模型预测器是通过对参数进行选择,使得总体的风险损失函数最小而得到的,风险损失函数如公式(3-1)所示:
(3-2)
其中
证明草图:使得以及是目标函数的最优解,将对抗模型的纳什均衡的值设置根据矩阵的以及计算得到,其中通过计算可以发现,即使改变矩阵的部分行与列,纳什均衡的值仍然不会得到改变。通过该求解方式得到的闭合解,能够将整体的对抗性有序回归模型映射至一个经验损失函数。
其中损失函数表示不同类别之间。本论文中所用到的两种特征表示,基于一个基本的理论即对每个特征元素进行最大化能够被独立实现,该理论在在公式(3-2)中得到了体现。
基于阈值回归特征表示的损失函数替换
在基于阈值回归特征的有序回归模型中,参数包含了一个用于分享特征权重的向量以及个间隔阈值。基于公式(3-2),基于阈值回归特征的对抗性损失函数的公式可以用公式(3-3)进行表示:
(3-3)
该模型的损失函数拥有一个简洁明了的阈值回归模型的间隔,如图2所示:该图的间隔基于以及两者的平均值。该阈值的惩罚系数与跟本论文相关的工作中所用到的惩罚系数不同,该阈值的惩罚系数仅对分类标签错误的阈值进行惩罚。
在计算得到样本标签的阈值之后,采用二分搜索的方法对未知样本的标签进行预测,因此搜索阶段所的算法时间复杂度为。
基于多类别特征表示的损失函数替换
在基于多类别特征表示的有序回归模型当中,针对每个类别的标签设置了一个相对应的特征权重向量的集合,进而多类别特征表示的有序回归模型的对抗性损失函数可以表示成公式(3-4):
(3-4)
可以将该公式看作对大小的线性超平面的最大化。对于一个含有三个不同类别的有序回归模型,在损失函数中每个真实标签类别对应六个平面。该模型中搜索阶段所用的时间复杂度为。
图 3.2 数据点的对抗性损失函数计算示意图
模型的一致性属性
该预测模型的实验设置是理想实验设置,即能够真实评估所有训练集的特征表示,并能够考虑所有可测量函数的空间。Fisher一致性需要训练模型产生贝叶斯最优决策边界[19–21]。假设真实样本标签符合分布,损失函数在满足公式8的情况下是可以被看作是符合Fisher一致性的:
(3-5)
Ramaswamy 以及 Agarwal[21]提供了一个充分必要条件,即代理损失函数在多类别损失函数的层面上满足Fisher一致性,其中包括有序判别模型。Pedregosa等人[19]最近的研究显示,基于阈值的有序回归模型在使用基础的二分类损失函数为凸的时候是一致的。
针对本论文提出的方法,满足Fisher判别性等价于公式(3-6):
(3-6)
其中可以发现,将一个常量应用于所有的不会对所有的的值产生影响,因此本论文设置,以对冗余的一致性分析进行移除。本论文通过定理2以建立的重要的最小化属性。
定理2. 对的向量进行最小化约束,使其符合损失函数的反射性特征,该优化过程的初始值从负整数值开始,然后逐渐增加直到变为0,最后再逐渐减小。
简略证明:其中可以证明,对于人任何不满足损失函数反射性质的,能够使用满足损失函数反射性质的几个步骤构造。
例如满足定理2的要求,且值分别为,以及。通过使用上述的最小化约束的关键属性,本论文在下面的定理中构建了损失函数的一致性。
定理3. 有序回归模型的对抗性损失函数是具有Fisher一致性的。
简略证明:此处仅考虑的可能指,以满足损失函数特征。对于对应类别的,如果将预测为标签,则与其损失函数的值等于贝叶斯损失。因此,最小化具有反射特性的,相当于找到了贝叶斯最优解。
图 3.3 对
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19952],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。