英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
基于SVR的高血压住院人数的医学气象预测研究
Guangyu Zhai1,2 , Guorong Chai*1 and Haifeng Zhang1
1兰州大学管理学院,兰州,730000
2兰州理工大学经济管理学院,兰州,730050
*相应的电子邮件:chaigr@lzu.edu.cn
摘要:本研究的目的是通过探讨高血压发病率的气象因素,建立高血压预测模型。研究方法是选择2010年到2012年兰州的相对湿度、空气温度、能见度、风速和空气压力(计算的最大、最小和平均值,5天作为一个单元)作为标准数据,通过交叉验证算法,将同一时期的高血压发病率的标准数据作为输出相关变量,得到最优预测参数。然后通过SVR算法的学习和训练,建立了高血压发病率的SVR预测模型。结果表明,高血压预测模型由15个输入自变量组成,训练精度为0.005,最终误差为0.0026389。基于SVR模型的预测精度为97.1429%,高于统计预测方程和神经网络预测方法。结果表明,SVR模型通过简单的计算、小误差和较高的历史样本拟合和独立样本预测能力,为高血压预测提供了一种新的方法。
- 介绍
据统计[1],世界上1/3的人患有心脑血管疾病,每年有1500万人死于心脑血管疾病,占死亡总人数的3/5以上。在中国,每年大约有260万人死于心脑血管疾病[2]。国内外许多研究表明,气象条件是引起心脑血管疾病发病率和死亡率的诱因之一[3]。高血压是最常见的心血管疾病之一,它会导致血管、脑、心脏、肾脏等重要器官的病变,同时也会引起高血压危象、高血压脑病等严重并发症,危及人的生命。医学气象预报,根据气象、气候、气象因素和某些疾病的关系,采用医学术语和天气预报的研究方法,预测未来特定气象条件对疾病发生、加重或缓解的影响[4]。近年来,随着人们生活水平的提高,对医学气象预报的研究越来越受到重视[5]。目前,我国对心脑血管疾病预测的研究方法包括逐步回归法、自动交互检测器(AID)、交叉验证法、人工神经网络等,建立了气象因子与患者数之间的统计关系,建立了预测模型。在一些城市,已经建立了一些疾病发病率的预测模型,并在气象发展的基础上制定了医学气象预报系统,将疾病水平预报发布给公众。
支持向量回归(SVR)采用简化算法[6]。与其他训练方法相比,SVR在处理大量数据时具有较快的收敛速度,适合对大样本进行回归分析。本文分析了气象因素对高血压病的影响,通过逐步回归方法,选择了对高血压有显著影响的因素和参数,建立了SVR预测模型,并进行了预测实验。
- 资料和方法
2.1数据源
兰州(36°-36°10′04 n,103°330′-104°E),位于中国西北的甘肃省的中心。从全国5家一级医院收集每日高血压住院人数,共有13326例住院患者,其中2010年3394例,2011年3887例,2012年6045例。通过计算MICAPS接收到的2010~2012日8小时的气象资料,可以得到住院日前5天的15个气象因子,如平均气温、最高日气温、日最低气温、日平均气压、日最高气温等、ST压力、日最低气压、日平均相对湿度、最高日湿度、日最低湿度、日最大风速、日最小风速、日平均能见度、日最高能见度和日最低能见度。
2.2 方法
以高血压患者住院日数作为反应变量,以住院前5天的相关气象因素作为独立变量。采用SVR模型分析气象因素变化对高血压住院患者数的影响。
SVR的基本思想是:在SVM[7]的基础上,提出了支持向量回归方法[8]。假设给出一组训练数据(是系统输入向量,是系统输出向量,I是样本数),支持向量回归方法用下面的公式计算回归函数:
(1)
在上述公式中,是从输入空间X通过非线性变换获得的高维空间。SVR与线性回归和非线性回归等常用回归算法的区别在于SVR是基于结构风险最小化原理,使用不敏感的损失函数,而不是平方误差损失函数来测量返回值和目标值。作为不敏感损失函数为:
(2)
基于上式,不敏感损失函数可以表示为:
(3)
与平方误差损失函数相比,它对加性噪声不敏感,平均值为零、对称分布和较小的总尺寸,这使得回归算法对这种噪声具有更好的鲁棒性,训练样本集干扰小,避免了不同的回归结果。此外,不可能使回归方程和回归对象完全符合有限的训练样本。为了得到准确的结果,需要大量的训练样本,这在现实中是很难实现的。因此,采用不敏感损失函数具有重要的现实意义。
通过最小化(1)中的系数,
(4)
在上面定义损失函数的表达式中,第一项是经验风险,这是由(3)中不敏感的损失函数决定的。这种定义损失函数的方法允许我们用小样本点来表示表达式(1)中的决策函数。第二项是正则化项,C是正则化常数,在经验风险和正则化项之间折衷。如果C值增大,经验风险对损失函数的影响将增大。是流水线值,决定训练样本的逼近精度。根据问题的实际情况,需要预先给出C和值。然后,搜索和b使得表达式(4)中的损失函数最小化问题等于:搜索和b,定义松弛变量来最小化它们:
(5)
约束条件为:
(6)
(7)
通过引入拉格朗日乘子,求解具有不等式类型的优化问题:
(8)
在上式中,是拉格朗日乘子,满足条件,,在鞍点,求L关于的微分。
(9)
(10)
(11)
将(9)、(10)、(11)带入(8),可以得到一个优化方程:
(12)
满足约束条件:
(13)
(14)
根据Karush Kuhn Tucker(KKT),在表达式(12)中,只有部分系数不等于零,它们定义了问题中的支持向量。表达式(10)可以写成:
(15)
然后,表达式(1)中定义的决策函数可以写成:
(16)
- 结果与讨论
3.1 SVR建模与预测结果检验
3.1.1 建模。 建模的目的是利用基于SVM方法的回归模型对兰州市高血压住院患者进行回归拟合,如图所示。模型假设:2010年1月1日至2012年11月影响高血压患者的前5天气象因素包括平均气温、最高气温、最低气温、平均气压、最高气压、最低气压、平均相对湿度、最高湿度、最低湿度、最大风速、最小风速、平均能见度、最高能见度和最低能见度,被视为独立变量。结果表明,高血压患者的发病率与当日气象因子的变化没有明显的关系,但与前五天的气象因子变化密切相关,前五天气象因素的积累对高血压患者的发病率有显著影响[9]。因此,前五天的气象因素是预测模型的输入变量。7月到2012年11月的住院病人数作为预测的因变量。预测模型如下。
图1.SVR高血压预测模型
3.1.2 参数选择。 目前国内外关于SVM参数优化选择的方法还没有统一的方法。当前最常用的方法是通过调节参数找到C(罚参数)和G(核函数参数)在一定范围内的值。对于固定的C和G,训练集被视为原始数据集,交叉验证用于获得C和G训练集,以验证分类精度,最后选择C组和G组的最高验证分类精度的训练集作为最优参数,但有一个问题:有多少组C和G对应最高的验证分类精度?如何处理这种情况?该方法是以最小的参数选择C和G组,以达到最大验证分类精度作为最优参数。如果有几个对应于C的G组,则搜索中的第一组C和G是最优参数。
其原因是:高C将导致学习的过度状态,即训练分类精度很高,但测试集分类精度很低(分类器泛化能力降低)。因此,对于所有可以达到最高的验证分类精度的C,G组,相对较小的惩罚参数C被认为是一个更好的选择。本研究将2010~2012年间高血压住院患者数与入院前五天的气象因素相匹配,交叉验证系数为C=11.3173,G=0.125,CVMSE=0.0026389。图2是CV参数选择结果的等值线图。
图2 SVR参数选择结果
3.1.3.训练和回归预测。 利用2010年1月至2012年11月的高血压住院患者数建立模型,根据95%和5%的比例构建前5天的气象数据样本、训练集和测试集。利用2012年10月1日至2012年12月9日共70个样本构建预测集,即采用最优回归模型预测2012年10月1日至2012年10月9日住院高血压患者的数量。为了简化预测验证,计算平均每日高血压住院次数,以正负20%为介质,然后减少和增加40%,预测患者的人数分为5个等级32。这是由媒体公布的医学气象预测结果,通常包括5个等级:很少高血压患者,一些高血压患者,高血压患者增加,许多高血压患者,高血压患者数量显著增加,如表1。通过逐次逼近优化参数和重复训练,最终确定了兰州市高血压住院患者的预测模型参数,其中C、G、W分别为3.1.2。利用SVR建立预测模型预测兰州市高血压住院患者的数量,结果如图3所示。分类预测精度达到97.1429%,远高于统计方法和人工神经网络。本研究采用气象因子作为预测模型,预测高血压患者的预测值与实际值的相关系数为0.95,通过了显著性检验。此外,预测值波动较大,反映了高血压患者在第三和第四等级随时间的波动情况,住院时间在第三、第四级时随时间的变化而增加。结果表明,气象因素所建立的预报模型具有较好的预报效果,预报值与真值的相关系数为98.016%,经检验,其显著性检验值=0.01。根据患者人数的预测等级,高血压住院患者的预测值和真实值在同一等级的准确率为97.1429%,均方误差值为0.0026389,是一个令人满意的结果。结果表明,高血压病的预测模型可以以气象因素作为预测变量,通过预测值与真值的比较,可以看出预测值能反映真实值的变化趋势,但不能预测第二、第五级的高峰时间,说明非气象因素对高血压病的数量也有重要影响。这些因素都可以直接导致心脑血管疾病,如节假日、节庆和病理因素(工作压力、饮食习惯等)。
图3 基于SVR方法的高血压住院患者每日预测结果比较
表1 高血压住院患者按等级预测
- 结论
本文以气象因素为预测变量,通过相关参数逐步回归筛选相关参数,构建了基于SVR的兰州高血压病预测模型。结果表明:
- 兰州市高血压住院患者月变化明显,与气象因素有关;影响高血压住院患者的气象因素包括前五天的温度、压力、能见度、风速和露点温度,此外,住院人数也受天气条件变化的影响,尤其是强沙尘暴天气。
- 高血压住院人数分为5个等级。该预测模型对同等级高血压病的预测准确率较高,实际预测结果良好,具有实际的商业应用价值。
- 必须明确气象条件只是高血压病的因素之一,其他因素可能包含在周期性变化和趋势中。从每周数的变化看,高血压住院人数也受节假日、临床专家等社会经济因素的制约。因此,有必要考虑这些因素,设计一个更精确的预测模型。
致谢
这项工作是由中国博士后科学基金(2016m600827)、国家科学数据共享平台的具体科目的人口与健康(2016ncmizx09)、中国国家自然科学基金(71472079)、中国部重点项目哲学社会科学教育(16JZD023)赠款支持的。此外,作者还要感谢匿名审稿人和编辑的有用意见,这有助于提高这篇稿件的质量。
参考文献
- Goncalves, F. L. T., Braun, S., 2007. Influences of the weather and air pollution on cardiovascular disease in the metropolitan area of Sao Paulo. Environ Res. 104(2), 275-281.
- Liu, F., Zhang, J. L., Lu C., 2004. Review of Researches on Relationship of Meteorological Factors and Cardiovascular Diseases in China. Meteorological Science and Technology (in Chinese). 32(6), 425-428.
[3] Dan
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23083],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。