基于支持向量机的航空发动机振动预测模型研究(精选11篇)
基于支持向量机的航空发动机振动预测模型研究 第1篇
基于支持向量机的航空发动机振动预测模型研究
提出了一种基于支持向量机的`航空发动机振动参数预测方法.分析了支持向量机用于时间序列预测的基本理论,对时间序列进行了相空间重构,采用互信息法计算了延迟时间,运用平均一步绝对误差选取了嵌入维数,在此基础上建立了基于支持向量机的时间序列一步预测模型.应用某发动机飞参记录数据对发动机振动参数进行预测,预测精度比RBF神经网络更高.研究结果验证了应用支持向量机模型进行发动机参数预测的正确性和可行性.
作 者:刘林刚 李学仁 陈永刚 吴立勋 LIU Lin-gang LI Xue-ren CHEN Yong-gang WU Li-xun 作者单位:刘林刚,李学仁,陈永刚,LIU Lin-gang,LI Xue-ren,CHEN Yong-gang(空军工程大学工程学院)
吴立勋,WU Li-xun(陆军航空兵学院)
刊 名:微计算机信息 PKU英文刊名:CONTROL & AUTOMATION年,卷(期):200824(16)分类号:V2关键词:支持向量机 相空间重构 振动预测 嵌入维数
基于支持向量机的航空发动机振动预测模型研究 第2篇
将最小二乘支持向量机(least square support vector machine,LS-SVM)应用于航空发动机气路故障诊断.首先,分析了用于气路故障诊断的巡航偏差数据类别,建立用于进行机器学习的诊断模型训练集,构建基于LS-SVM的.气路故障诊断模型;其次,采用模式搜索法优化LS-SVM建模,获取最优建模参数;最终,通过直接面向地空数据链(aircraft communication addressing and reporting system,ACARS)链路的报文解析组件,实时获取发动机巡航偏差数据集,远程诊断发动机气路故障.航路应用和对比实验表明:最小二乘支持向量机模型具有较高的诊断精度,适用于气路故障的远程诊断.
作 者:王旭辉 黄圣国 舒平Wang Xuhui Huang Shengguo Shu Ping 作者单位:王旭辉,黄圣国,Wang Xuhui,Huang Shengguo(南京航空航天大学,民航学院,南京,210016)
舒平,Shu Ping(中国民用航空总局,安全技术中心,航空安全研究所,北京100028)
基于支持向量机的航空发动机振动预测模型研究 第3篇
关键词:油料,消耗预测,支持向量机
部队油料消耗量具有较强的突发性。大样本数据预测不能很好地反映未来的油料消耗, 使用近期消耗数据作为预测数据最佳。因所得到的样本数据少, 为有限样本。但传统的统计预测、经验非线性预测法等决策方法, 存在一定局限性。如应用传统的统计预测方法前提是样本数目趋于无穷大时的渐进理论, 非线性方法得到的模型通常非全局最优。支持向量机则解决了上述问题。
1. 支持向量机 (SVM) 基本理论
支持向量机算法没有以传统的经验风险最小化原则作为基础, 而是建立在结构风险最小化原理基础之上, 是一种新型的结构化学习方法, 能较好解决有限数量样本高维模型的构造问题, 预测性能好。
(1) 最优分类面对一个给定训练样本集, 机器学习的结果是一个超平面, 该超平面可以将训练样本分为正负两类。最优分划直线就成为最优分类面, 如图1所示。
图1中, 实心点和空心点为两类样本, H为分划直线, 对于给定的分划函数的法向量, 有两条直线H1, H2, 它们的距离叫做分类间隔 (Margin) 。分划直线方程为:
使间隔最大等价于使ω2最小, 且使最小的分类面就叫做最优分类面, H1、H2上的训练样本点就称作支持向量。
(2) 核函数支待向量机中不同的内积核函数形成不同的算法, 主要有三类:
1) 多项式核函数:
2) 径向基核函数:
(3) 支持向量机的回归分析
设样本集{ (xi, yi) } (i=1, 2, 3n) , xi∈Rn是输入向量, yi∈R为输出向量, n为样本容量。SVM回归采用非线性映射φ (x) :RmRM, 决策线性回归函数为:
上式中:ω为权值矢量, b为阈值, () 表示特征空间中的点积。SVM采用最小化结构风险Rstr来确定参数ω和b:
Remp为经验风险代表训练误差;12ω2为正则化部分, C为惩罚参数;L为损失函数;ε为误差阈值, 经验风险Remp由损失函数来度量的。
2. 基于支持向量机的油料消耗时间序列预测模型
2.1 模型的设计
SVM预测模型建立分为:样本的获取与预处理、模型的选取与参数的确定、用拟合数据建立模型、将待预测的数据输入模型得到预测结果四个步骤。
2.2 基于libsvm工具箱的实例应用
设xt, t=1, 2, N, 是时间序列数据, 预测就是求f:RkR, 使得:
用支持向量回归方法构造函数f (x) , 训练样本集为:
k为嵌入维数;τ为时间延迟;N为原始时间序列点数;L为向量个数。
1) 时间序列样本的获取与预处理
表1列出了某部队连续5年 (2004-2008年) 每季度某种油料的消耗明细表
从表1数据可看出:该部油料消耗总数量逐年增加, 具有明显的季节性趋势, 个别季度的油料消耗数据有突变。针对上表中的小样本数据以及数据变化特性, 确定时间延迟τ=4, 嵌入维数为2, 即k=2。即分别用前两年各季度的油料消耗数据来预测下一年度相应季度的消耗数据。2004年至2008的16个数据作为训练样本, 2004年的4个数据作为测试样本, 确定训练样本集为:
测试样本集为:
为了降低误差, 对样本数据进行归一化处理:
Load data.mat%data为样本数据集
2) 时间序列核函数及参数的选取
选径向基核函数 (2.3) 为核函数, 参数为核函数的宽度σ和惩罚参数C。
3) 预测结果及分析
本例子是在MATLAB2007环境下基于libsvm工具箱实现的。训练结果为:
s可以看出最优参数对为:C=256, σ=0.00098, 均方根误差MSE=0.0079, 因此说明模型的预测精度较高。
用消耗数据作为训练样本, 建立回归预测模型, 拟合仿真如图2所示。
将测试样本输入到建立的预测模型得到2008年各季度的油料消耗预测值。预测数据与原始数据如表2所示。
3. 结论
基于支持向量机的航空发动机振动预测模型研究 第4篇
【关键词】支持向量机 股票价格预测 量化分析
【中图分类号】G64【文献标识码】A 【文章编号】2095-3089(2016)10-0227-01
一、引言
随着金融市场的逐步完善,证券交易所的交易量也在不断的提升,预测未来一段时间内的证券价格成为广大投资者密切关注的问题,同时产生了许多优秀的证券分析预测方法[1],如基本分析和技术分析(K线图、移动平均线和OBV线等)。然而这些方法从本质上来讲只是分析方法,其预测结果不很理想。近年来,国内外学者纷纷采用人工神经网络[2]、支持向量机[3]等方法对证券交易数据,特别是股票市场的数据进行处理,试图揭示证券交易数据背后所蕴含的意义,并对其价格进行预测。目前,国内外关于证券价格预测的方法主要有证券投资分析法、时间序列分析法、人工神经网络法和支持向量机方法[4]等。
自2000年以来,国内外对支持向量机的研究不断地增加,SVM应用于证券价格预测领域的优势可概括为:
(1)SVM具有坚实的数学理论基础,是专门针对小样本学习问题提出的。
(2)从本质上讲,SVM算法是一个凸二次规划问题,可以保证得到的解是全局最优解。
(3)SVM采用核函数方法,有效的解决了复杂计算问题。
(4)SVM应用了结构风险最小化原则,因而具有很好的推广能力。
基于以上优点,我们可以相信SVM在证券价格预测领域将越来越受推崇。
二、支持向量机简介
支持向量机分类的目标是能在某特征空间中学习到一个分类超平面,使得在这个空间中能够将数据线性分开。支持向量机的研究最初是针对模式识别中的二类线性可分问题提出来的。由于股市的数据是非线性的,SVM对数据进行非线性映射,通过映射?覬:X→F ,将数据映射到一个合适的特征空间F中,从而使数据线性可分,然后在F中构造最优超平面。由于优化函数和分类函数都涉及样本空间的内积运算, 因此在变换后的高维特征空间E中需进行内积运算<?覬(xi),?覬(xj)>,根据满足Mercer定理,对应线性变换空间中的内积,<?覬(xi),?覬(xj)>=k(xi,xj)。采用适当的核函数k(xi,xj),就能代替向高维空间中的非线性映射,实现非线性变换后的线性分类。
三、支持向量机在股票价格预测中的应用
(1)支持向量机核函数的选取问题
支持向量机方法是将数据映射到一个Hilbert特征空间中,然后在此特征空间中对数据进行处理,数据分类时选择合适的核函数非常重要。目前的方法大部分是使用一种径向基函数Guass核函数,同样可以作为核函数的还有径向基函数吴函数和Wendland函数,在对径向基函数和Guass核函数做了充分研究的基础上,对支持向量机中的核函数可以进行分析和改进。
(2)将改进的分类方法应用到股票价格预测中
将分类方法应用到股票价格预测中时,要面临以下问题: 一是变量的选取问题, 我们希望在选择尽量少的向量的基础上达到做好的预测效果。 二是变量的处理问题, 目的是不能出现向量被覆盖的问题。
四、总结
随着非线性理论、统计学、系统论、信息论、控制论和人工智能技术的空前发展,证券价格预测也开辟了新思路。支持向量机作为一种新的机器学习方法,它基于严格完备的数学理论,引入结构风险最小化原则,可以得到全局最优解,解决了陷入局部极小点的问题,利用支持向量机对证券时间序列进行预测是目前金融预测领域的最好方法之一。
参考文献:
[1]彭丽芳, 孟志青, 姜华等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006, 25(3):88-91.
[2]彭望蜀.基于BP神经网络与支持向量机的股票指数预测模型比较[J]. 南方金融, 2013(1):71-72.
[3]克里斯蒂亚尼尼.支持向量机导论[M].电子工业出版社, 2004.
[4]刘道文, 樊明智.基于支持向量机股票价格指数建模及预测[J].统计与决策, 2013(2):76-78.
作者简介:
基于支持向量机的航空发动机振动预测模型研究 第5篇
基于支持向量机的人的全面发展评价模型及省份实证
摘要:根据“坚持以人为本,树立全面、协调、可持续的发展现,促进经济社会和人的全面发展”的科学发展观的内涵,通过人的全面发展评价指标的海选、筛选和理性分析构建了人的全面发展综合评价指标体系.建立了基于支持向量机(Support Vector Machines,SVM)的人的全面发展评价模型,并对我国典型的14个省级行政区人的全面发展状况进行实证分析.本文的`创新与特色一是通过高斯核支持向量机把评价指标空间映射到高维特征空间,解决了人的全面发展评价影响因素非线性赋权问题.克服了现有评价方法均采用线性加权方式计算评价结果、不能表达指标与评价结果间的真实关系的缺陷.二是通过正交设计确定支持向量机训练样本的输入数据,并通过AHP确定训练样本的权重,得到指标训练样本的评价结果作为训练样本的输出.解决了在没有训练样本输入和输出情况下如何确定指标训练样本的问题.这就解决了在缺乏训练样本输入、输出数据情况下如何应用支持向量机进行回归,以得到评价结果的问题.三是通过人口累积比重、收入累积比重、通货膨胀等可获得数据指标计算准基尼系数和准国民幸福指数,解决了基尼系数和国民幸福指数的间接测算问题,进而解决了现阶段因统计数据缺失、而无法进行省级行政区人的全面发展评价的问题. 作者: 迟国泰程砚秋李刚 Author: CHI Guo-taiCHENG Yan-qiuLI Gang 作者单位: 大连理工大学工商管理学院 辽宁大连116024 期 刊: 管理工程学报 ISTICPKUCSSCI Journal: Journal of Industrial Engineering and Engineering Management 年,卷(期): ,26(1) 分类号: C962 N945.16 关键词: 科学发展观 人的全面发展 综合评价 支持向量机 基尼系数 机标分类号: F83 G32 机标关键词: 支持向量机全面发展评价模型实证ChinaEmpirical ResearchSupport Vector MachinesBasedEvaluation ModelDevelopment训练样本评价结果发展评价综合评价指标体系国民幸福指数问题省级行政区数据基尼系数输入和输出 基金项目: 国家社会科学基金重大资助项目,国家自然科学基金资助项目,大连市第二批科技计划资助项目,中央高校基本科研业务费专项资金资助项目 基于支持向量机的人的全面发展评价模型及省份实证[期刊论文]管理工程学报 --2012,26(1)迟国泰程砚秋李刚根据“坚持以人为本,树立全面、协调、可持续的发展现,促进经济社会和人的全面发展”的科学发展观的内涵,通过人的全面发展评价指标的海选、筛选和理性分析构建了人的全面发展综合评价指标体系.建立了基于支持向量机(Support...
基于支持向量机的航空发动机振动预测模型研究 第6篇
销售预测是指根据历史销售信息, 采用一定的销售预测模型进行分析, 然后给出未来销售情况报告的过程。高质量的销售预测对企业的经营决策起着至关重要的作用。在实际销售预测工作中, 某些模型在某个特定的时间或系统之下具有良好的预测效果, 但是面对动态的变化的现实, 采用任何单一的预测方法均不可能达到令人满意的效果[2]。因此, 为了有效利用各个单一预测模型的优势, 人们开始研究组合预测方法。自从Bates和Granger在1969年提出组合预测模型以来, 组合预测方法便被广泛应用于各个领域[3]。
本文提出的是基于灰色预测模型和支持向量回归机的组合预测模型, 这种模型不仅能够充分利用产品销售的历史数据的信息 (纵向) , 同时能够充分利用产品的影响因素的数据信息 (横向) , 这样不仅能够提高预测精度, 而且能够较好反映经济预测中的短期和长期的变化规律。
1 组合销售预测模型原理
灰色预测法是时间序列预测法的一种, 它是由华中科技大学控制科学与工程系的邓聚龙教授于1982年提出的一种预测方法[4]。与传统的时间序列预测法相比, 灰色预测方法的预测效果更好。支持向量机 (Support Vector Machine, SVM) 是由V N VAPNK等共同提出的一种专门解决小样本情况下机器学习问题的智能学习技术[5]。它最初用于模式识别问题, 由于它对小样本数据的智能学习以及较高的泛化能力, 近年来已经逐渐应用到用于解决回归问题。
1.1 灰色预测法的预测
本文构建的预测模型第一步就是利用GM (1, 1) 模型进行预测, 首先利用产品的历史数据序列进行GM (1, 1) 预测得到预测值, 然后对预测值的预测精度进行评价, 即按照预测精度等级划分表 (如表1所示) 进行评价, 如果预测精度比较低就需要进行残差的修正。
GM (1, 1) 模型预测残差修正的过程仍然采用GM (1, 1) 模型, 具体的修正过程叙述如下:由于灰色预测的原始数据序列必须为非负数据, 因此首先对预测值和实际值之间的残差序列进行预处理, 即将所有残差修正为非负序列, 新的残差为;然后利用预处理后的残差序列进行GM (1, 1) 预测;最后将残差预测值进行后处理, 即利用预处理的反过程得到真正的残差预测值。改进的GM (1, 1) 模型的预测值是原始数据的预测值和残差序列预测值之和。
1.2 支持向量回归机的预测
本文利用产品的影响因素的值和实际值之间的关系进行预测, 在win SVM的支持下, 将影响因素的值作为输入值, 实际值作为输出值, 通过win SVM自己的学习来得到预测模型进行预测。大多数实际问题是非线性的, 为了提高预测精度, 本文所采用的单一模型是支持向量回归机模型, 而不是多元线性回归模型。
本文所采用的是基于核函数的ε支持向量回归机。
1.3 组合预测
通过研究和分析各种组合预测方法, 变权重的组合预测方法的预测精度高于单项预测模型和固定权重的组合预测模型的预测精度。信息技术的发展使得人们可以利用计算机解决这些复杂的问题, 在其他领域的预测文献中, 许多人就利用人工智能技术中的BP神经网络来进行组合预测。综合利弊, 本文的组合过程采用了支持向量回归机模型。
1.4 预测结果的评价
误差的度量方式有绝对度量和相对度量两种。为了更好地对预测结果进行评价, 本文采用的是相对误差度量方式, 即百分误差、平均百分误差和平均绝对百分误差度量方式。
2 实证研究
影响石油销售的影响因素有很多, 包括国民经济、产业结构、人口数量及结构、能源消费结构等等。为了验证本文所采用的模型的有效性, 我们采用国民生产总值、第二产业比例、重工业占工业比重、常住人口数量以及非农业人口比例作为石油销售的影响因素, 而将某一地区原油产量代替石油的销售量。针对天津市的石油销量的数据如表2所示。
由于所采用的历史数据样本数目少, 我们将2000~2007年的数据作为训练数据, 而后四年的数据作为预测数据。具体的预测过程如下:
(1) 借助matlab软件工具进行灰色预测方法的预测。利用原油产量的2000~2007年的历史数据进行灰色GM (1, 1) 预测。
(2) 利用win SVM进行支持向量回归机的预测。将前八组数据作为训练样本, 后四年作为测试样本。在对训练样本进行大量实验的情况下, 发现采用dot核函数的情况下, 惩罚系数为10, ε为0.001, 训练样本的平均相对误差比较小为-0.00735。
(3) 将上述两种预测结果进行组合预测。为了使预测结果效果更佳, 我们选择径向基核函数, 经过大量实验, 发现C=9000, 时预测效果较好, 因此每种方法的预测结果如表3所示。
从组合预测的效果来看, 很明显, 本文所采用的预测效果最好。
3 结语
本文不仅利用支持向量机代替多元线性回归, 同时利用支持向量机进行了组合预测。与多元线性回归相比, 单一预测模型中的支持向量回归机, 不必知道输出值和输入值之间的关系, 通过样本数据的学习即可获得输入值和输出值之间的关系, 而回归预测是通过建立复杂的回归方程进行预测。而且, 利用支持向量回归机进行组合预测, 不仅能够解决传统变权重计算复杂度大的问题, 而且解决了神经网络的泛化能力低以及易陷入局部极小值的问题。
目前, 人们对于组合预测的研究仍然在不断发展, 相比已经非常完善的定常的权系数的组合研究, 对于变权重的组合预测的研究还处于基础阶段。通过研究可知, 基于时间的变权系数的组合预测更能体现预测的时间变化, 更能提高预测效果。鉴于变权重系数在预测中的优势以及当前对其研究存在的不足, 有理由相信, 它将会成为在预测方面的研究热点。
参考文献
[1]Song, H., Witt, S.F., Wong, K.F., &Wu, D.C.A nempirical study of forecast combination in tourism[J].Journal of Hospitality and Tourism Research, 2009 (33) .
[2]韩冬梅, 牛文清, 杨荣.线性与非线性最优组合预测方法的比较研究[J].情报科学, 2007, 25 (11) .
[3]Bates J M and Granger C W J.The combination offorecasts[J].Operations Research Quarterly, 1969, 20 (4) .
[4]刘思峰, 党耀国, 方志耕, 谢乃明.灰色系统理论及其应用[M].北京:科学出版社, 2010.
[5]陈刚, 高尚.能源需求的支持向量机预测[J].科学技术与工程, 2008, 8 (3) .
基于支持向量机的航空发动机振动预测模型研究 第7篇
【关键词】支持向量机 属性约简法 区域物流 需求预测
一、引言
区域物流需求预测是物流系统发展的关键技术,可为上级管理部门规划和下级物流企业决策提供指导。目前,我国广大学者为准确预测区域物流需求未来变化趋势,曾提出多种物流需求预测方法,而随着计算机发展、人工智能技术不断成熟,BP神经网络、支持向量机(SVM)等新型预测方法也孕育而生。如何更为行之有效地进行区域物流需求预测,对整个区域内物流系统规划与管理、运行与决策具有重大意义。
二、预测指标体系
(一)基于属性约简法的预测指标筛选
根据国内经济物流发展情况与关系,初步确定区域物流需求八大预测指标:区域生产总值、第一产业产值、第二产业产值、第三产业产值、区域社会消费品零售总额、区域人均消费水平、区域进出口总额、区域快递业务量。货运量为物流需求的量化變量。
为减少计算量,选用属性约简法进行指标筛选。
1.属性约简方法的选择。属性约简[1-2]是粗糙集理论研究的核心内容之一。属性组合爆炸是致使最小属性约简成为NP-hard问题的原因,因此为得到一个最优或次优的约简集,常常运用启发式算法。
基于正区域算法的属性约简无需建立可分辨矩阵,时间与空间复杂度相对可分辨矩阵较小,更具优势。因此本文选用基于正区域算法的属性约简作为预测指标的筛选方法。
2.基于改进求核算法的属性约简。篇幅限制,不再赘述粗糙集理论,下面详细介绍基于正区域算法的属性约简。
在粗糙集理论中,往往需要求出核,再利用启发式信息进行约简。而核是通过正区域定义的,因此正区域的有效计算对整个属性约简至关重要。
目前最行之有效的算法之一是徐章艳等[3]设计的一种基于基数排序的改进的求核算法(正区域算法),时间复杂度为O(|C||U|),具体步骤如下:
Step1:基于基数排序的属性连续化
设决策表S={U,C,D,V,f},条件属性集合C中元素α的最大、最小值分别为Mα、mα。
(1)取α最值间隔为1,根据包括首尾在内的间隔数建立相应数量的空队列;
(2)若?字存在于论域U中,将?字加至第f(?字,α)-m个队列中,修改该队列首尾的指针;
(3)count初始化为零;
(4)依次搜索队列,若为非空,则将该队列中所有元素在属性α上的值改为count,执行后count值自增1;
(5)得到在α上有序且值连续的新决策表S,其值域为[0,M’α]。
Step2:计算简化决策表S’
其实质是删除决策表重复元素,定义如下:
决策表S={U,D,D,V,f}中,记U/C={[u’1]C,[u’2]C,…,[u’m]C},U’={u’1,…u’m};
设POSC(D)=[ui1’]CU…U[uis’]C,其中?坌uis’∈U’且uis’/D的绝对值等于1(s=1,…,t);记U’pos={ui1’,…,uit’},U’neg=U’-U’pos,则有简化决策表S’={U’,C,D,V,f}。
计算步骤如下:
(1)计算U/C={X1,X2,…,Xm};
(2)对于?坌Xi∈U/C,若Xi/D的绝对值等于1,则任意取元素?字∈Xi,令x.is_pos=1,U’pos新增元素?字,反之?字.is+pos=0,U’heg新增元素?字。
Step3:基于简化决策表S’的改进求核算法
(1)初始i=0,当i<|C|时执行循环体,循环体每执行一次则i++,否则break;
(2)内部循环:
循环1:
若i≥0,则第i-1属性执行基数排序;
循环2:?字指向链表首地址;
循环3:若?字?埸?覫
循环3.1:
若f(?字,D≠f(x→link,D)且?字与?字→link同属正区域的同一等价类或分属正负区域的同一等价类,
则Core(C)=Core(C)U{ci},break;
循环3.2:
若?字与?字→link非同一等价类,则?字为链表下一元素指针;
(3)得到原始决策表S的核Core(C)。
以上提出的算法是基于不相容决策表执行的,对于相容或不相容决策表均能实现求解,适应范围广。对于相容决策表,循环3.1执行条件可简化为f(?字,D)≠f(?字->link,D)且?字与?字→link属于同一等价类。这样就得到基于正区域算法的属性约简结果。
(二)预测指标体系的建立
以江苏省为例,根据江苏省统计年鉴,筛选后的预测指标为自变量,货运量为目标函数,建立区域物流预测指标体系,如下图所示:
图1 江苏省物流需求预测指标体系
受数据的可获得性限制,实际预测时可能会调整指标应用情况。
三、基于SVM的物流需求预测模型
(一)预测模型的选择
回归分析、时间序列均为线性模型,不能满足求出系统发展主要因素的条件;灰色关联分析具有样本需求少、计算简单的优势,然而根据通过原始数据预测未来的工作特点,其同样缺乏对影响因素的考虑;BP神经网络的自学习、自适应特性克服了非定量因素无法用数学公式严谨表达难题,较传统预测方法,精确性更高,但结果容易陷入局部最优、出现拟合或发生维数灾难。而支持向量机[4-5]凭借结构风险最小化原理可避免BP神经网络过学习或欠学习现象,获得全局最优解,在处理有限样本问题中具有非线性拟合精度高、抗噪声性能强等无可比拟的强大优势。
(二)预测模型的建立
1.数据归一化处理。本文中七个输入输出指标量纲不一致,采用极差最大值变换法进行归一化处理,
公式如下:
通过上式将各指标数据转化至区间[-1,1]内,可以提高支持向量机收敛速度。
2.支持向量机基本模型。支持向量机基本原理是通过非线性映射,将低维空间即输入因素x1,x2,…,xn变换到高维特征空间,从而进行线性建模,寻找输入输出变量之间的关系。如下图所示:
图2 STV原理图——最优分隔超平面
设样本?字i为d维向量(i=1,2,…,n),训练集L={(?字i,yi)|i=1,2,…,n},根据一个带有权值向量与偏置量的映射函数,在高维特征空间建立的数学模型为:f(?字)=ωT·φ(?字)+b(1)
其中,ω、b分别为模型辨识参数——权值向量和偏置量。
根据最小风险原则,对辨识参数ω、b进行处理:
(2)
其中,C(ei)、Remp(f)、‖ω‖2分别为损失函数、经验风险和置信风险。
进一步分析,想要求解式(2),即可转化为一个约束优化问题:
(3)
其中,γ为惩罚系数(又称正则化系数),ei为误差。
为方便计算,上述约束优化方程组可利用Lagrange乘子αi,转换为以无约束优化问题形式存在于对偶空间内的方程,即:
(4)
至此,建立Lagrange函数后,SVM使优化问题转化为求解线性方程组。
令y=(y1,y2,…,yn)T,α=(α1,α2,…,αn)T,根据KKT条件可以得到矩阵:
(5)
其中,1N为元素向量,E为单位矩阵,。
在非线性数据建模中,人们普遍认为径向基(Radial basis function,简称RBF)函数性能为支持向量机众多核函数中最优,径向基函数为:
(6)
基于RBF函数构造的支持向量机分类函数为:
(7)
其中,σ为径向基函数的宽度系数。
3.支持向量机参数的确定。在SVM算法中,根据其工作原理可知,惩罚系数γ与核函数宽度系数σ是支持向量机学习性能的共同决定参数,两参数值的大小决定了拟合情况的好坏。现常采用的参数确定方法为交叉验证法,这里选用五折交叉检验法,具体方法不再赘述。取多次交叉检验的差错率的均值,重复多次交叉验证,再取平均,得到对算法精度的估计值。
参考文献[6]提出利用人工鱼群算法优化参数,通过模仿鱼群觅食追尾行为,进行高效率搜索,根据文章中给出的算法流程,总结出以下物流预测步骤:
图3 物流预测步骤流程图
四、结语
区域物流需求预测是个复杂的建模过程,通过上文研究,可以得到整个建模流程:确定研究对象;了解背景,查阅相关资料;分析研究对象影响因素,初步确定指标;利用改进属性约简法分析筛选预测指标,确立预测指标体系;选择SVM作为预测模型;建立预测模型;在最后,收集到原始数据后,需对不同的预测方法进行检验分析,并证明预测结果合理性。
参考文献
[1]黄鑫.基于DTRS-SVM模型的广东省物流需求预测研究[D].广东工业大学,2015.
[2]邹志超.基于正区域的属性约简算法的研究和改进[D].暨南大学,2011.
[3]徐章艳,刘作鹏,杨炳儒.一个复杂度为max(O(||U|),O(|C|~2|U/C|))的快速属性约简算法[J].计算机学报,03:391-399,2006.
[4]梁毅刚,耿立艳,张占福.基于核主成分——最小二乘支持向量机的区域物流需求預测[J].铁道运输与经济,34(11):63-67,2012.
[5]李自立.基于支持向量机的区域物流需求预测研究[D].武汉科技大学,2009.
[6]陈海英,张萍,柳合龙.人工鱼群算法优化支持向量机的物流需求预测模型研究[J].数学的实践与认识,46(2):69-75,2016.
基金项目:本论文受2016年大学生创新创业训练计划项目(xcx2016021)资助。
基于支持向量机的航空发动机振动预测模型研究 第8篇
针对VBR视频流量预测问题,国内外学者对其进行了大量的研究,提出一些预测模型[2]。传统预测模型主要基于时间序列分析,并基于线性建模,然而由于VBR视频流量受到多种因素影响,具有非线性、突变性等变化特点,难以建立精确的数学模型,因此时间序列预测模型的预测误差较大,在实际应用中存在着很大的局限性[3]。大量研究表明,VBR视频流量具有混沌特性,因此近年来出现了基于混沌理论的人工智能VBR视频流量预测,首先对VBR视频流量数据进行相空间重构,然后采用神经网络对数据进行学习,建立VBR视频流量预测模型,获得较高的预测精度[4,5]。神经网络是一种基于经验风险最小化原则的机器学习算法,要求样本数量大,且存在一些自身难以克服的缺陷,如: 网络结构复杂,收敛速度慢,易陷入局部极小,对VBR视频流量预测结果产生不利影响[6]。支持向量机( Support Vector Machine,SVM) 是一种针对小样本、高维数的机器学习方法,泛化性能优异,解决了神经网络存在的缺陷,被公认为是较好的替代神经网络的非线性预测方法[7]。然而VBR视频流量具有多尺度特性,SVM仅在一个尺度上对样本数据进行预测,对VBR视频流量数据的逼近性能并不能令人满意[8]。
由于VBR视频流量具有时变、非线性和突发性等特征,单一的模型已经不适合预测这种复杂流量,小波核函数具有多尺度学习性能,可以描述多分形的VBR视频流量特性,为此,采用小波核函数来构造SVM的核函数,利用小波分析和SVM的优点,建立一种基于小波支持向量机的VBR视频流量预测模型( WSVM) ,并通过仿真实验测试WSVM模型的预测性能。
1 WSVM的VBR视频流量预测模型
1. 1 相空间重构
对于VBR视频流量时间序列: x( t) ,t = 1,2,,N,通过选择合适的嵌入维( m) 和延迟时间( τ) 就可对其进行重构,产生一个多维的VBR视频流量时间序列
式中,M=N-(m-1)τ。
1. 2 支持向量机
设含有n个样本的VBR视频流量训练集: { ( xi,di) ,i = 1,2,,n} ,xi∈ Rd是第i个训练样本的输入列向量,xi= [xi1,xi2,,xid]T,di∈ R为相应的输出值,SVM通过利用非线性映射函数φ( x) 将输入数据映射到线性空间中进行线性估计
式中:ω 为权值,b为偏置项[9]。
通过对式( 2) 进行最小化估计,得到ω 和b的值
式中: yi为SVM的输出; ε 为不敏感损失函数。
通过引入松弛变量,找到 ω 和b的值
式中,ξi为松弛变量。
引入Lagrange乘子,式( 3) 的决策函数变为
式中: k( xi,x) 为核函数; ɑi和 ɑi*为Lagrange乘子。
1. 3 小波核函数
小波分析是由一个母小波函数 φ( x) 通过平移和伸缩变换产生一系列小波函数的叠加。
式中: α 是伸缩因子; b是平移因子[10]。
设母小波函数为 ψ( x) ,那么满足平移不变核定理的小波核函数为
对于VBR视频流量预测问题,采用Morlet小波,即
因此,可以得到相应的小波核函数
综合上述可知,VBR视频流量预测的WSVM回归函数为
1. 4 WSVM的VBR视频流量预测模型结构
WSVM的VBR视频流量预测模型结构见图1,WSVM的结构具体为: 1) 第1 层为VBR视频流量输入数据{ x1,x2,,xn} ,通过为m和 τ 重构而成的训练集; 2) 第2 层为输入数据向量和SVM核函数计算; 3) 第3 层为WSVM的输出结果。
1. 5 WSVM的VBR视频流量模型工作步骤
1) 收集VBR视频流量数据,进行预处理,并划分为训练集和测试集两部分。
2) 根据互信息法和虚假最近临点算法计算VBR视频流量数据的m和 τ。
3) 采用m和 τ 对VBR视频流量的训练集和测试集进行相空间重构。
4) 初始化WSVM参数,主要包括Lagrange乘子 ɑi和ɑi*、伸缩和平移因子 α,b的初始值。
5) 将训练集输入到SVM建立式( 4) 的VBR视频流量预测目标函数,然后采用SMO( Sequential Minimal Optimization) 算法对其进行求解,得到最优的 ɑi和 ɑi*,b值。
6) 将 ɑi和ɑi*,b值代入式( 10) ,建立VBR视频流量预测模型,然后采用测试集对模型性能进行检验。
7) 计算测试集的预测误差,如果误差满足预先设定的阈值,则表示建立了最优VBR视频流量预测模型,否则返回步骤5) 继续学习,找到更优的 ɑi和 ɑi*,b值。
8) 采用建立的最优VBR视频流量预测模型对未来某一时刻的视频流量进行预测。
WSVM的VBR视频流量预测模型工作流程见图2。
2 仿真实现及验证
2. 1 数据来源
采用Berlin大学的MPEG - 4 视频迹( trace) 数据库的“Silence of lambs”,帧速率为30 f /s( 帧/秒) ,连续采集280 帧数据,前200 数据作为训练集,最后80 个数据作为测试集,数据见图3。在AMD 3. 0 GHz CPU、2Gbyte RAM、Windows XP的平台上,采用MATLAB 2010a编写程序实现仿真实验。
2. 2 对比模型和评价指标
为了使WSVM的仿真结果具有可比性,采用径向基核函数支持向量机( RBF - SVM) 、小波神经网络( WB-PNN) 作为对比模型,并采用平均相对误差( MAPE) 和均方根误差( RMSE) 以及训练时间作为模型性能的评价指标。MAPE,RMSE分别定义如下
式中: yi和 分别为VBR视频流量的实际值和预测值; n为测试集的样本数。
2. 3 数据的预处理
WSVM对区间[0,1]的数据最为灵敏,为了提高WSVM的训练效率,对重构后的训练集进行归一化处理,具体为
式中: x和x'分别表示原始数据和归一化后的数据; xmin和xmax分别表示最小值和最大值。
2. 4 VBR视频流量数据重构
采用互信息法计算VBR视频流量的 τ ,得到 τ = 1,用虚假最近邻点法计算最优m ,得到m = 5,然后根据τ = 1,m = 5 对VBR视频流量数据训练样本集和测试样本集进行重构,得到多维的VBR视频流量时间序列。
2. 5 结果与分析
2. 5. 1 拟合性能对比
将重构后的VBR视频流量训练集分别输入到WSVM,RBF - SVM,WBPNN进行学习,建立相应的VBR视频流量预测模型,然后对训练集进行拟合,拟合结果的绝对误差见图4。从图4 可知,WSVM的拟合精度最高,拟合值与实际值最吻合,拟合误差远远小于对比模型RBF -SVM,WBPNN,对比结果表明WSVM是一种有效、拟合精度高的VBR视频流量预测模型。
2. 5. 2 泛化能力对比
评价一个预测模型性能的优劣,主要考察其预测能力,为此建立VBR视频流量模型对测试集进行预测,均采用一步预测,具体方式: 采用前200 个VBR视频流量数据作为最原始的训练集,对第201 个数据进行预测,然后采用滚动方式将第201 个数据合到训练集,对第202 个数据进行预测,依次类推,最后得到全部80 个测试样本的预测结果,WSVM、RBF - SVM、WBPNN的预测结果见图5。各模型对测试集预测结果的MAPE、RMSE和训练时间见表1。
从图4、图5 和表1 可知,在所有模型中,WSVM的综合性能最优,拟合精度最高,预测误差最小,其优越性主要体现在3 个方面:
1) 在所有模型中,WSVM拟合精度最高,与VBR视频流量值最吻合,拟合结果比较稳定,WBPNN模型的拟合精度要优于RBF - SVM,这表明,采用小波核函数的多尺度学习性能能够更加准确地对VBR视频流量变化趋势进行拟合。
2) WSVM的预测精度高于WBPNN和RBF - SVM,WBPNN虽然拟合精度高,但是其预测精度低,泛化能力差,这主要是由于WBPNN易出现过拟合现象,而WSVM训练实际上是一个二次凸规划问题,在有限样本情况下,可以建立全局最优的VBR视频流量模型。
3) 训练速度。WSVM的训练时间为10. 5 s,远远小于WBPNN、RBF - SVM的训练时间,提高了VBR视频流量训练速度。
3 小结
基于支持向量机的航空发动机振动预测模型研究 第9篇
摘 要 :首先利用Lasso方法在影响粮食价格波动的众多因素中选出了粮食储备、粮食生产成本、粮食产量、粮食政策、生产需求、贸易需求、心理预期等7个主要影响因素;然后在Lasso变量选择的基础上利用支持向量机进行粮食价格的回归与预测,同时,把Lasso、支持向量机、Lasso-支持向量机及ARIMA方法的拟合预测效果进行比较,实证结果表明,Lasso-支持向量机组合方法的拟合预测效果要优于另外三种方法。
关键词:粮食价格预测;影响因素;Lasso;支持向量机
中图分类号:F069
一、引言及文献综述
粮食作为一种基础产品,其价格的波动会对我国粮食生产、粮食相关产品的进出口以及国家宏观经济调控产生深远影响,关系到消费者和生产者的切身利益。深刻了解和剖析影响粮食价格波动的各种因素,在此基础上建立相关的预测模型分析和预测粮食价格的变化趋势,有助于有关职能部门调控粮食价格并制定相应的措施,从而正确引导粮食市场的健康运行、保障粮食产品的供求平衡。
目前,国内外关于粮食价格预测研究的方法主要有定性和定量两大类,在定性分析方面,朱险峰 [1]所做的系列价格预测研究比较有代表性,他通过分析库存、产量、国际市场上粮食价格的变动等一些影响因素,研究我国粮食价格的波动趋势,进而预测粮食的现货价格和期货价格。在定量分析方面,主要采用的是普通时间序列分析方法,其中最具代表性的是ARIMA方法,姚霞等[2]利用ARIMA模型并以青椒价格为例预测了时鲜农产品价格的动态变化;桂文林等[3]采用X-12-ARIMA模型分解我国粮食消费价格月度定基指数,得到了趋势循环、季节和不规则因素,进而分析了粮食价格的季节特征及其深层成因;陈兆荣等[4]利用ARIMA-SVM组合模型并结合1999-2011年我国农产品价格指数月度数据对我国农产品价格进行了预测。其他时间序列方法也有所应用,如苗开超[5]运用指数平滑模型对农产品价格进行了预测;刘家富等[6]利用向量自回归模型分析了国内大豆以及豆油市场的价格传导机制。除此之外,神经网络和支持向量机等方法也得到了不同程度的应用,如彭琳[7]利用NARX神经网络方法对云南省的农产品价格进行了预测;孙超等[8]分析了我国粮食价格波动的主要影响因素,并利用支持向量机(SVM)方法建立了我国粮食价格的预测模型。支持向量机是基于结构风险最小化原则提出来的一种统计学习方法,该方法一改传统方法的经验风险最小化原则,从而使其有更好的泛化能力,尤其是较好地解决了小样本、非线性、过拟合和局部极小等几类常见的问题。我们知道,粮食价格数据是典型的小样本数据,而且,影响粮食价格的众多因素之间也存在着不确定性和非线性的关系,所以可以采用支持向量机方法进行预测,但是影响粮食价格的因素很多,各个影响因素之间可能会存在严重的多重共线性,如果不加选择地引入众多影响因素来进行粮食价格的预测,往往不能取得良好的预测效果。一个理想的模型应该是既不遗漏重要的自变量,也不包含没有影响或影响很小的自变量,过多地引入变量不仅会大大增加计算量,也会降低估计和预测精度。
虽然支持向量机方法比较适合处理具有非线性关系的小样本数据,但是不能进行变量选择,而Lasso方法可以同时进行参数估计和变量选择,Lasso方法本质上还是线性回归方法,它不适合处理非线性问题,所以,本文提出了基于Lasso与支持向量机的粮食价格组合预测方法。首先利用Lasso方法对粮食价格波动的影响因素进行选择,剔除与粮食价格不相关或相关性很小的变量数据,以达到降低数据维数的目的;然后利用支持向量机的非线性运算能力,逼近历史数据所隐含的函数关系,完成对粮食价格的拟合和预测,同时,把Lasso、SVM、Lasso-SVM及ARIMA方法的拟合预测效果进行比较。
二、Lasso及支持向量机方法
1. Lasso方法
Lasso方法(最小绝对值压缩与选择方法)是Tibshirani.R[9]在1996年提出来的一种的有偏估计方法,其本质是通过添加约束条件对模型系数进行压缩,将没有影响或影响较小的自变量的回归系数自动压缩到零,这不仅在一定程度上能消除多重共线性的影响,而且在对参数进行估计的同时也实现了对变量的选择。
三、建模与实证分析
1. 数据来源及变量选择
根据经济学理论及已有的研究结论,我们从粮食储备、粮食生产成本、粮食产量、粮食政策、生活需求、生产需求、贸易需求、心理预期以及外部冲击等9个方面共选取了21个变量[13-16]。具体如下:用粮食类零售价格指数代表粮食价格;用粮食库存量x1、期末库存消费比x2反映粮食储备;用粮食生产价格指数x3反映粮食生产成本;用总产量x4、 粮食作物播种面积x5、成灾面积x6反映粮食产量;用农业支出x7、农业支出占财政支出的比重x8反映粮食政策;用城镇居民人均可支配收入x9、农村居民家庭人均纯收入x10、城镇居民人均粮食消费x11、农村居民人均粮食消费x12反映生活需求;用农业生产资料价格指数x13、国内生产总值指数x14、世界能源价格指数x15反映生产需求;用粮食净进口x16、人民币对美元汇率x17反映贸易需求;用上一期真实粮价增长率x18、货币和准货币(M2)供应量x19反映心理预期;用同期通货膨胀率x20、世界谷物价格指数x21反映外部冲击。
本文选取的数据区间是1978-2013年,粮食库存量、期末库存消费比数据根据美国农业部信息网数据计算得出;粮食生产成本数据来自《全国农产品成本收益汇编》;世界谷物价格指数、世界能源价格指数数据来自世界银行数据库;农业支出、农业支出占财政支出的比重、城镇居民人均粮食消费、农村居民人均粮食消费数据来自中国农村统计年鉴;其他数据均来自《中国统计年鉴》。
2. 基于Lasso回归的变量选择
基于支持向量机的航空发动机振动预测模型研究 第10篇
煤体本身所具有的裂隙性与多孔性是煤层注水的先决条件。当向煤体注水时, 注水一般首先在大孔和裂隙中以较快的速度流动, 这一过程称之为压力渗流;水由大的裂隙进入微小空隙时, 外部的注水压力基本消失, 此时毛细力及润湿等将起主导作用, 这一过程称之为自然渗流, 自然渗流的最终结果是使得注水水分在煤体中呈均匀分布[1]。现有理论表明:通过对煤体的注水过程可使煤体的力学性质发生显著的变化, 煤体的强度与弹性变小, 塑形增大, 进而使得煤体的透气性急剧下降, 从而最终形成对瓦斯逸散与粉尘飘散的有效抑制作用[2]。
我国自20 世纪50 年代开始在大同矿务局、开滦矿务局等地尝试煤层注水工作, 相应的煤层注水技术的相关研究与试验也在不断地进行。在实践中, 为了达到良好的注水效果, 必须确定合理的注水工艺参数, 具体包括钻孔参数 (钻孔长度、钻孔间距与封孔长度) 与注水参数 (注水量、注水压力、注水流量与注水时间等) [3]。
2 基于PSO-SVM的煤层注水效果预测模型
在煤层注水效果预测方面, 早先大多采用多元回归分析与数量化理论进行模型构建与预测[4]。目前, 利用智能建模与优化方法构建煤层注水效果预测模型方面大多采用基于BP神经网络的建模方法。然而, 作为传统统计学样本无穷大渐进理论基础上发展起来的神经网络建模方法, 其对于训练样本的数量要求较大, 同时极易陷入局部最优, 在小样本情况下神经网络的建模精度难以取得较好的应用效果。而支持向量机可以克服神经网络难以避免的问题, 已有的研究成果表明支持向量机具有优于神经网络的逼近能力与泛化能力, 同时具有全局最优性。而在实际的煤层注水生成实践中, 可获取的训练样本数据规模有限, 同时出于成本约束考虑, 多次进行重复性实验缺乏可行性。因此, 本文考虑基于支持向量机训练小样本数据以取得较好的模型预测逼近与泛化能力。
2.1 支持向量机
支持向量机 (Support Vector Machine, SVM) 由Vapnik首先提出, 其主要思想是构建一个分类超平面作为决策曲面, 从而使得正例与反例之间的隔离边缘最大化。作为基于统计学理论的VC维理论, 支持向量机是一种结果风险最小化的近似实现过程, 其学习算法是对有限样本信息在模型复杂度与学习能力之间的一种适当的折衷考虑, 因此支持向量机具有较好的数据泛化能力。
支持向量机一般用于数据回归预测方面的应用, 其基本思想是基于有限的观测样本数据, 构建可以充分反映输出变量与输入变量之间联系的函数关系, 且这种函数关系属于连续变量。
设有输入和输出样本集:为输入变量, Yi为输出变量。通过支持向量机训练回归生成函数f (X) , 使得由该函数所求得的每个输入样本的输出值与输入样本对应的目标值相差不超过误差, 同时使得回归出的函数尽可能的平滑。在非线性支持向量机回归方面, 一般引入核函数K (xi, xj) , 将低维非线性问题转换为高维线性问题[11]。相应地, 优化问题则转化为:
最终得到最优的非线性回归函数:
2.2 PSO优化支持向量机的煤层注水效果预测建模
在支持向量机的参数优化方面, 本文选取具有较高在线优化速率的粒子群优化算法 (Particle Swarm Optimization, PSO) , PSO算法具有参数设置少、操作简单、易于实现等优点, 目前该算法已经成为在线优化方面广泛使用的优化方法[12]。与其它进化算法类似, PSO算法也是根据对环境的适应度来计算移动个体的位置, 然而, 其将每个个体视为搜索空间中的一个单独的、没有体积质量的虚拟粒子, 同时其在搜索空间中以一定的速度飞行。通过对个体 (局部最优值) 与群体 (全局最优值) 的飞行历史经验, 动态的调整粒子的飞行速度与方向, 通过不断更新粒子自身的位置与速度直至找到最优解。
以支持向量机预测模型, 本文提出了一种基于粒子群算法 (PSO) 优化支持向量机参数的煤层注水效果预测模型, 该模型的基本构建流程为:首先根据样本数据中煤层注水效果影响因素的个数确定相应的输入变量 (包括注水压力, 钻孔长度, 注水时间等变量) 和输出变量 (煤层湿润半径) ;其次确定支持向量机的核函数以及核函数的取值范围;其次构建初始化粒子群和支持向量机的相关参数, 并建立初始的支持向量机模型, 最后通过对PSO-SVM的训练与学习过程得到最优的支持向量机模型。PSO优化支持向量机煤层注水效果预测算法流程如下所示:
3 实验仿真及结果分析
本文实验环境分为硬件环境和软件环境。其中, 硬件环境为Intel (R) Core (TM) i3-3110M CPU、2.40GHz、4.00G内存和250G硬盘;软件环境为Windows 7 操作系统和Matlab2010。在Matlab环境下, 建立PSO优化支持向量机的煤层注水效果预测模型, 其中支持向量机核函数为RBF核函数, 惩罚参数C取值0.5。训练数据从不同矿区、不同采区的注水资料中进行筛选得到, 其中训练样本数据35 个, 测试数据5 个。部分训练样本数据在表1 中给出。
利用第二部分所提出的基于PSO优化支持向量机的煤层注水效果预测模型, 以上述35 个训练样本数据为基础训练模型参数。通过训练好的预测模型对5 个测试数据进行仿真实验测试, 其中比较算法采用BP神经网络预测模型。实验结果如下图1 所示, 比较真实效果值、基于BP神经网络的预测值以及本文所提出的PSO优化支持向量机 (PSO-SVM) 模型预测值可见, 针对5 个测试样本数据本文所提出的PSOSVM预测模型全部优于传统的基于BP神经网络的预测模型, 该结果验证了PSO-SVM预测模型在煤层注水效果预测中的优势。
此外, 本文对上述煤层注水效果预测实验的相对误差进行了统计分析, 分别对5 组样本数据在基于BP神经网络预测模型与基于PSO-SVM预测模型的最终结果与真实值之间的相对误差进行了统计, 相应的结果如图2 所示。对5 组样本数据的相对误差进行平均值计算, 得出基于BP神经网络的注水效果预测相对误差为4.003%, 而基于PSO-SVM的注水效果预测相对误差减小到2.026%, 预测精度有了进一步的改善与提升。
4 结语
本文所提出的基于PSO优化支持向量机的煤层注水效果预测模型与传统的BP神经网络预测模型相比较具有明显的精度优势。在实际中, 煤层注水过程属于动态非线性过程, 在后续的研究工作中如何结合煤层注水过程的内在动力学机理模型, 构建注水效果的动态预测模型, 为更精准、更节能的煤炭开采与生产过程提供科学、合理的决策依据。
参考文献
[1]王青松, 金龙哲, 孙金华.煤层注水过程分析和煤体润湿机理研究[J].安全与环境学报, 2004, 4 (1) :70-73
[2]黄新杰.煤层注水湿润半径的数值模拟研究[D].安徽理工大学, 2007
[3]骆大勇.煤层注水压力对注水效果的影响研究[J].矿业安全与环保, 2014 (5) :26-28
基于支持向量机的航空发动机振动预测模型研究 第11篇
关键词组合预测;Lasso;支持向量机
中图分类号F069 文献标识码A
AbstractIn view of the connection between Lasso and support vector machine and their respective advantages, we gave three kinds of combination forecast model, which includes series combination forecast, parallel combination forecast and embedded combination forecast. Then we used them in China's grain price forecast. The empirical results show that compared with the prediction results of single prediction method both series combination forecast and embedded combination forecast based on Lasso and Support Vector Machine have higher prediction accuracy.
Key words combination forecast; Lasso; support vector machine
1引言
在实际建模过程中,往往会涉及到自变量的选择问题.如果模型中的自变量太多,可能会削弱估计以及预测的稳定性,相反,自变量太少则会导致所拟合的模型与实际情况有太大的偏差.因此,如何从众多影响因素中选择最适合的解释变量就显得十分重要.Lasso[1]是一种带有惩罚因子的线性模型估计方法,它用模型的惩罚函数压缩模型的系数,绝对值较小的系数会自动压缩为0,从而使得参数估计和变量选择可以同时实现,而且有利于我们更好地解释模型.Lasso回归模型既像最佳子集回归那样便于解释,同时又具有岭回归类似的稳定性,该方法的进一步完善及其应用已成为统计学研究中的热点问题之一.
支持向量机 (SVM)是在统计学习理论[2]的基础上发展起来的一种新的、非常有效的机器学习方法,主要用于解决小样本的学习规律 [3],它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“传导推理”,大大简化了通常的分类和回归等问题,较好地解决了小样本、非线性、过拟合和局部极小等问题.目前,支持向量机已经广泛应用于生物学、化学以及经济学等实际领域.同时,学者们也在对该方法进行不断的改进,其中一个很重要的方面是探索支持向量机与其他方法的融合和进行支持向量机的稀疏性研究[4]-[8].Lasso方法和支持向量机这两种预测模型均适用于小样本数据,但单一模型存在一定的应用盲区.Lasso方法在变量选择问题上比传统的逐步回归、岭回归和主成分回归等方法具有优越性,并且Lasso方法能同时实现对变量的选择和模型参数的估计,但Lasso方法不能用于非线性模型,而支持向量机能够处理非线性的问题,但不能进行特征筛选.因此,本文将Lasso方法和支持向量机组合起来进行拟合和预测,在预测过程中弥补其各自的缺点,实现它们的优势互补,可望比单一方法更能有效地利用信息,从而得到高精度、高效率的组合预测模型.
2基于Lasso方法与支持向量机的
组合预测模型
2.1Lasso及支持向量机方法
Lasso回归即最小绝对值压缩与选择算子(Least Absolute Shrinkage and Selection Operator),它是 Tibshirani.R(1996)提出的一种关于线性回归的新方法.Lasso回归是在普通线性最小二乘的基础上加了一个约束条件,使各系数的绝对值之和小于某一常数,从而将没有影响或影响较小的自变量的回归系数自动压缩到零.
当s 支持向量机是一种小样本“机器”学习方法,比较适合解决分类和回归两大类问题.本文主要是应用支持向量机的非线性回归模型,其核心是引入核映射的思想与结构风险的概念.设有样本数据集{xi,yi},其中xi∈RD(xi包含D个特征),yi∈R,集合F={ff:RD→R},其中f是回归函数,若f(xi)是非线性的,我们可以通过非线性映射将原输入训练样本由输入空间映射到高维特征空间H,并在高维特征空间H中构造线性支持向量回归机.训练样本xi满足如下条件:yt(xi·ω+b)-1+ζi≥0,ζi≥0,ζi为松弛变量,ζi≥0,i=1,...,n.这时求解最大化支持向量机边界的优化方程为: min 12‖ω‖2+c∑ni=1ζi s.t. yi(xi·ω+b)-1+ζi≥0, ζi≥0,i=1,...,n 通过求解上式可得到最终判别函数:fxi=sign∑ni=1αiyiKxi,xj+b,其中,c为惩罚参数,用于控制模型的复杂度,Kxi,xj为核函数,不同的核函数可以构造不同的支持向量机. nlc202309040158 2.2基于Lasso方法与支持向量机的组合预 测模型 所谓组合预测就是设法把不同的预测模型组合起来,综合利用各个预测方法所提供的信息.从信息利用的角度来说,任何单一预测方法都只利用了部分有用信息,而且信息利用的程度也是不同的,把两种或两种以上的预测方法相结合,可以弥补单一方法在某些方面的不足之处.把Lasso方法与支持向量机组合起来进行预测,理论上是可行的,可以综合利用两种方法所提供的信息,尽可能地提高预测精度.组合的方式多种多样,本文主要尝试三种方式的组合,即串联型组合、并联型组合和嵌入型组合,并在实证过程中比较不同组合的预测效果. 1)基于Lasso方法与支持向量机的串联型组合 基于Lasso方法与支持向量机的串联型组合模型就是把Lasso预测方法与支持向量机在预测模型中按串联方式连接,即一方的输出作为另一方的输入,而最终的输出即为整个模型的预测结果.该模型首先要求利用Lasso方法筛选出众多自变量中的主要变量,剔除与因变量关联度很小的变量,然后将主要影响因素作为支持向量机模型的输入,通过不断地学习与训练,得出最后的预测值. 2)基于Lasso方法与支持向量机的并联型组合 基于Lasso方法与支持向量机的并联型组合模型就是分别用Lasso方法和支持向量机来进行预测,然后将其各自的预测结果进行组合,给出一个平均的预测输出.该模型中的一个关键问题就是需要确定单项预测方法的加权系数.根据组合预测确定权系数的不同,将组合预测模型分为固定权系数组合预测模型和变权系数组合预测模型.固定权系数组合预测方法的权系数确定比较简单,有关研究一直占主导地位且应用最为广泛,所以本文也采用固定权系数组合预测.在阅读了关于组合预测的相关文献后,我们选择目前最常用的拟合误差的误差平方和最小来计算组合预测模型的权系数.具体求解过程如下: 设同一预测对象的某个指标序列为{xt:t=1,2,…,n },存在m种单项无偏预测方法对其进行预测,第i种单项预测方法在t时刻的预测值为xit,i=1,2,…,m, t=1,2,…,n,称eit=xt-xit为第i种单项预测方法在第t时刻的预测误差,设l1,l2,…,lm分别为m种单项预测方法的加权系数,为了使组合预测保持无偏性,加权系数应满足: ∑mi=1li=1,li≥0,i=1,2,…m. 设t=l1x1t+l2x2t+…+lmxmt为xt的组合预测值,et为组合预测在t时刻的预测误差,则有: et=xt-t=∑mi=1lieit. 设Q1表示组合预测误差平方和,则有 Q1=∑nt=1e2t=∑nt=1∑mi=1∑mj=1lieitljejt. 以预测误差平方和最小为准则的线性组合预测模型即为下列最优化问题.该问题可以利用MATLAB最优化工具箱求解. minQ1=∑nt=1e2t=∑nt=1∑mi=1∑mj=1lieitljejt li≥0,∑mi=1li=1. 对Lasso方法与支持向量机两种方法进行组合,即当m=2时构建组合模型,得到最优组合系数的公式解如下: l1=∑nt=1e22t-∑nt=1e1te2t∑nt=1e21t+∑nt=1e22t-2∑nt=1e1te2t, l2=∑nt=1e21t-∑nt=1e1te2t∑nt=1e21t+∑nt=1e22t-2∑nt=1e1te2t. 3)基于Lasso方法与支持向量机的嵌入型组合 基于Lasso方法与支持向量机的嵌入型组合模型就是以Lasso模型、支持向量机模型对目标系统的预测值作为支持向量机预测模型的输入向量,相应时刻的目标系统的实际值作为输出目标值,建立起组合模型的预测样本对,调整相关的参数,然后用一定数量的样本来训练支持向量机,使训练和测试时不同的输入向量得到相应的输出值,这样经过不断地学习及测试,就实现了支持向量机组合预测模型. 3组合预测模型在粮食价格预测中的应用 粮食价格数据是典型的小样本数据,粮食价格的影响因素众多,而且粮食价格与其众多影响因素之间存在着不确定性和非线性特点,传统预测方法对于解决此类高度非线性且影响因素众多的问题具有很大的局限性,基于Lasso方法与支持向量机的组合预测模型则适合处理此类问题.本文用粮食类零售价格指数代表我国粮食价格,根据粮食价格波动理论和已有的研究结论,我们共选取了影响粮食价格的21个变量[9-12],具体包括粮食库存量、期末库存消费比、粮食生产价格指数、粮食总产量、 粮食作物播种面积、成灾面积、农业支出、农业支出占财政支出的比重、城镇居民人均可支配收入、农村居民家庭人均纯收入、城镇居民人均粮食消费、农村居民人均粮食消费、农业生产资料价格指数、国内生产总值指数、世界能源价格指数、粮食净进口、人民币对美元汇率、上一期真实粮价增长率、货币和准货币(M2)供应量、同期通货膨胀率以及世界谷物价格指数.并且选择1978-2009年的32个样本作为拟合训练样本,2010-2013年的4个样本作为预测检验样本.在进行粮食价格预测的实证过程中,主要使用Matlab(2010b)并结合libsvm-3.20工具箱完成.先用Lasso方法选出对粮食价格影响较大的变量,再运用基于Lasso与支持向量机的串联型组合预测模型、并联型组合预测模型及嵌入型组合预测模型对我国粮食价格及其影响因素进行实证研究,为了比较预测效果,另单独使用Lasso模型、支持向量机模型对我国粮食价格进行预测.我们可根据预测误差来评价预测效果的好坏,预测误差越小,预测越准确.常用的评价指标有平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)等,其定义由以下的公式给出: nlc202309040158 从表1可以看出:五个模型的平均绝对百分比误差(MAPE)都在10% 以下,有较好的预测效果,说明这五个模型都可以用来对我国的粮食价格进行预测.如果从单个预测模型与组合预测模型的预测效果对比来看,并联型组合预测模型的预测效果不是很理想,它与单一预测模型的预测效果基本上差不多,而串联型组合预测模型和嵌入型组合预测模型的预测效果则要大大优于单一的预测模型,它们的平均绝对百分比误差(MAPE)均在3%以下,要远远低于其他预测模型的平均绝对百分比误差.这说明在针对类似粮食价格等的预测问题上,使用基于Lasso与支持向量机的串联型组合模型和嵌入型组合模型进行预测有一定的优势,能够提高预测精度,拥有更好的预测性能. 4结语 分析了Lasso方法和支持向量机各自的建模机理和特点之后,发现Lasso方法和支持向量机这两种预测模型均适用于小样本数据的项目预测,但单一模型都存在一定的应用盲区.Lasso方法可以进行变量筛选和回归,但它不能用于处理非线性问题.支持向量机能够处理具有非线性关系的数据,但是不能进行特征筛选.所以,针对Lasso方法与支持向量机两者的联系与各自的优势,给出了基于Lasso与支持向量机的串联型、并联型和嵌入型三种组合预测模型,并将其运用到我国粮食价格的预测中.实证结果表明,组合预测模型的预测效果整体上要优于单个预测模型,把Lasso方法与支持向量机进行组合预测提高了粮食价格预测的精度.从3个组合预测模型的预测效果来看,它们的预测精度表现出较大的差异性,串联型和嵌入型组合预测模型的预测效果要远远优于并联型组合预测模型. 参考文献 [1]Tibshirani,R. Regression Shrinkage and Selection Via the Lasso [J]. Journal of the Royal Statistical Society.1996(58):267-288. [2]Vapnik V. The Nature of Statistical Learning Theory (Second Edition) [M]. New York: Springer Verlag,1999:225- 260. [3]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. [4]颜静.灰色模型与支持向量机融合的研究[D].武汉:武汉理工大学计算机科学与技术学院,2010. [5]姚潇、余乐安.模糊近似支持向量机模型及其在信用风险评估中的应用[J].系统工程理论与实践,2012(3):550-554. [6]彭望蜀.基于BP神经网络与支持向量机的股票指数预测模型比较[J].南方金融,2013(1):71-73. [7]王玲、薄列峰、刘芳、焦李成.稀疏隐空间支持向量机[J]. 西安电子科技大学学报(自然科学版),2006(6):896-901. [8]吴晓萍、赵学靖、乔辉、刘东梅、王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013(9):2748-2754. [9]王淑艳.我国粮食价格波动因素分析与预测研究[D].哈尔滨:东北农业大学经济管理学院,2013. [10]王川.我国粮食市场价格的影响因素分析[J].农业经济,2010(7):24-27. [11]罗锋,牛宝俊.我国粮食价格波动的主要影响因素与影响程度[J].华南农业大学学报(社会科学版),2010(2): 51-58. [12]马林林,金彦平,张安良.我国粮食价格波动影响因素探析[J].价格理论与实践,2011 (10): 23-24.