多元一次回归模型(精选10篇)
多元一次回归模型 第1篇
关键词:科研,预算,多元一次回归模型
0 引言
X公司是以勘察设计为主的技术开发与应用型企业, 研发资金投入量大, 研发成果显著, 其研究成果的运用对我国基建领域具有重大影响, 因此规范化编制科研项目预算对X公司的研究开发活动具有重要的作用。
1 科研项目预算编制存在的不足
长期以来, X公司各科研项目承担单位在研发活动中未让财务人员积极参与其中, 科研合同编制中人员预算、其他支出预算、投入预算等各项预算为研发技术人员根据科研项目做出的主观判断, 使财务人员无法了解研发课题的工作内容、参与人员、合同有效起止时间, 导致人员费用、其他支出预算及投入预算无法准确归集, 也无法判断相关费用是归集在研究开发费用还是生产经营开支中, 导致研发费用预算指标与实际发生偏离较大。X公司科研预算的编制缺乏科学的预算编制依据和理论, 不利于科研项目的管理和企业科技开发的顺利开展。
针对X公司科研开发预算编制中存在的问题, 本文提出了以下解决方案, 希望对以X公司为代表的高科技企业科研费用预算管理提供借鉴和参考价值。
2 科研项目预算编制方法和过程
在现实经济活动中, 一个变量往往受到很多个变量的影响, 表现在线性回归模型中的解释变量有多个, 这样的模型被称为多元线性回归模型。在X公司编制研发项目预算中, 最主要的预算指标为研发费用总额预算的确定。根据X公司近年来研发费用开支的变动情况以及笔者从事财务工作的经验可以判断出, 研发费用的发生可能与以下因素 (自变量) 相关:企业总资产、主营业务收入、主营业务成本、职工薪酬总额、利润总额、净利润、研发人员数量。
本文根据X公司近五年的财务数据, 通过建立多元一次回归模型, 选择最相关的研发费用因素来准确的预测出X公司2014年度研发费用总额, 为X公司研发费用预算编制提供思路和依据。
2.1 研发费用相关因素模型的建立
本文搜集了X公司2008-2013年上述所有指标的数据, 构建了多元一次回归模型:Y=c+a×x1+b×x2+c×x3+d×x4……… (1)
式中:Y———研发费用投入额;c———常数。
自变量x1、x2、x3、x4…———相关因素, 根据相关因素的数量确定;a、b、c、d…———相关因素的系数。
本模型主要作用是根据X公司近期年份所发生的研发费用相关因素来测算2014年度研发费用投入额。
2.2 研发费用相关因素的选择
上述自变量中除了研发人员数量外, 企业总资产、主营业务收入、主营业务成本、职工薪酬总额、利润总额、净利润都存在于资产负债表与利润及利润分配表之中, 因此各自变量可能存在自相关的问题, 所以本文拟采用逐步回归法 (Stepwise Regression) 对自变量进行挑选, 选择出最相关自变量因素, 并形成最终的回归模型。然后再以此模型来预测X公司2014年的研发投入。
X公司2008年至2018年研发费用相关数据如表1所示。
本文使用SPSS16.0英文版进行数据分析, 对表1因变量、自变量采用逐步回归法分析, 结果如表2、3所示。
注:a.Predictors: (Constant) , 职工薪酬总额;b.Predictors: (Constant) , 职工薪酬总额, 营业成本.
注:因变量为研发投入;t为t检验, 是偏回归系数为0 (和常数项为0) 的假设检验;Sig.为偏回归系数为0 (和常数项为0) 的假设检验的显著性水平值.
由表2、表3可得出与X公司研发费用投入额相关性最高的两个因素是职工薪酬总额和营业成本 (表3中模型2) , 即职工薪酬总额和营业成本两个指标的变动对研发费用投入额影响最大。表2中显示该模型的判定系数为0.994, 非常接近1, 表示方程拟合程度很好。表2显示方程常数及两个自变量的显著性均明显低于0.05, t检验数值较高, 表明各因素显著性通过检验。
根据表3构建的多元一次回归系数得到模型如下:
研发费用投入额=-41396.79+0.35×职工薪酬总额+0.214×营业成本 (2)
2.3 研发费用预算金额的确定
X公司有完善的预算体系, 在每年年初的时候会对集团全年的各项主要财务经营指标进行预测, 编制预算报表, 上报上级单位进行批复, 因此我们获得的2014年度预算数据可信度高。根据构建好的回归模型2即可预测公司2014年度研发投入。
根据X公司2014年的预算指标, 全年职工薪酬预算总额为68, 000万元, 全年营业成本预算135, 000万元, 将此两项数据套入上述模型方程 (2) , 可得到:X公司2014年研发费用预算=-41396.79+0.35×68, 000+0.214×135, 000=11, 293.21万元。
根据逐步回归分析的结果确定了研发费用开支相关性最大的应付职工薪酬和营业成本指标, 并套用回归模型计算出2014年X公司研发费用开支为11, 293.21万元, 该数据的预测具有较高的准确性, 可作为X公司2014年度研发费用预算投入额。X公司研发领导小组可根据这个研发投入额有效的安排2014年研发项目的资金使用计划, 将预算资金投入额层层分解至具体的科研项目, 使研发费用支付更加科学合理化, 提高研发项目预算执行过程的控制力度。
在已知收支预算表中其他指标预算数的前提下, X公司预算部门根据预测的研发费用开支数为基础, 结合其他已知指标预算数, 可准确的计算出下一年度所得税额, 进而推算出下一年度的净利润额, 为X公司预算编制的精准性、科学性、合理性提供了更好的依据, 完善了预算编制的措施和手段, 提高了X公司预算编制的准确性, 对X公司科研项目预算的编制具有借鉴意义, 有利于2014年度公司各种资源的合理配置和经营目标的完成。
参考文献
[1]论企业全面预算管理体系的构建与实施[J].管理观察, 2009/03, 中国期刊全文数据库.
[2]企业如何加强全面预算管理[J].辽宁经济, 2009/01, 中国期刊全文数据库.
多元一次回归模型 第2篇
基于多元线性回归的飞机巡航阶段燃油流量模型研究
本文在深入分析真实飞行QAR数据的基础上,首先确定了在飞机巡航阶段影响燃油流量的`因素,然后采用多元线性回归分析方法,建立了该机型巡航段燃油流量模型.通过将实际燃油流量数据与模型预测流量数量进行比较,结果表明所建立的模型具有较好的效果,为航空公司提高燃油消耗监控效率提供了参考.
作 者:王长坤 作者单位:中国民航大学航空自动化学院,中国,天津,300300刊 名:科技致富向导英文刊名:KEJI ZHIFU XIANGDAO年,卷(期):“”(4)分类号:关键词:QAR 多元线性回归 显著性检验
多元一次回归模型 第3篇
【关键词】多元线性回归 银行网点 资源配置
一、引言
随着互联网金融的深入发展,其弱物理化的实质,对银行物理网点传统上的经营客观造成了较大冲击。为了顺应发展,各银行也借鉴国内外经验,纷纷推出“小而精”、“个性化”、“智能化”的网点,以多元化转型服务迎接移动互联时代的挑战。银行渠道管理理念也应同步甚至未雨绸缪。作为银行经营成本最昂贵的渠道,物理网点的营运已不能沿用传统方式,仅通过市场经验来判断营业面积、设施、人员等资源投放,甚至粗放式的追求大面积营业网点、豪华装修形象工程,来取得竞争优势。渠道资源投入应有大数据的思维,基于对历史数据的提炼分析,以及未来宏微观经济发展的预测,选择最优的资源投入品种和数量,在确保客户体验的同时,优化渠道投入产出结构,促进经营效能最大化。
本文拟采用多元线性回归模型对于银行物理网点的资源投入进行实证分析,可以对未来网点资源投入进行预测,以使资源得到合理配置。同时也为网点制定未来营运计划提供方法论依据。
二、指标选取
衡量网点资源配置合理性的指标较多,应根据全面性、代表性、科学性以及数据的可获得性原则选取指标。本文从网点资源配置的一个实例,即网点设备配置入手,探讨影响资源配置的经济指标。
网点的设备配置与设备自身功能类型、网点业务结构、设备对客户服务能力、网点最大负荷能力、客户对设备的潜在接受程度等因素相关。根据对设备需求的影响因素分析,预选取的经济指标为:设备功能覆盖、业务结构、日均服务能力、客流高峰、客户年龄结构这5类。本模型中样本数据来源于国内某商业银行经过一段时间运营验证设备配置合理的45家网点。
三、模型构建与检验
(一)研究假设
基于对网点设备配置的专业知识和经验判断,我们选取了设备功能覆盖、业务结构、日均服务能力、高峰服务能力、客户年龄结构这5类经济指标,作为预测网点设备配置的解释变量。结合数据的可获得性,考虑数据自身特点,本文假设影响网点资源配置数量的解释变量如下:
Y:合理的设备配置数量
X1:设备功能覆盖率=设备日均业务量/网点日均业务总量;
X2:业务结构比率=对私日均业务量/网点日均业务总量;
X3:日均服务能力=In(设备日均服务客户量)
X4:高峰客流压力=In(网点高峰客流量)
X5:客户年龄结构=网点到访客户里中青年客户占比
设备日均服务客户量、网点高峰客流量的量纲较其他因变量大得多,取对数形式,可减少多重共线性,并在一定程度上消除量纲影响。
(二)模型构建
根据假设条件设置网点设备配置的多元线形回归模型为:
运用Eviews8.0对45家网点数据进行OLS回归,初步回归结果如下:
由回归结果可知,解释变量整体对因变量拟合的相关系数Adjusted R-squared=0.854067,整体拟合程度较好。回归的常数项的t统计的P值>0.05,不能拒绝该项显著为零的原假设。解释变量X1、X3、X4、X5的参数t统计的P值小于0.05,拒绝原假设,设备功能覆盖率、设备日均服务能力、网点高峰客流压力、客户年龄结构对于网点的该种设备配置有显著的影响。
剔除影响不显著的因素,重新进行OLS回归,得到设备配置初步回归模型为:Y=1.34029X1+0.434947X3+0.376715X4+ 1.605963X5
(三)模型检验
应用OLS时要求模型的误差项必须满足无偏性、同方差、无序列相关、解释变量和误差项相互独立。由于本文构建的模型并非采用时间序列数据,故而进行异方差、多重共线性检验。
1.异方差检验。采用White检验法,由于Obs*R-squared的概率值0.3184大于显著性水平0.05,所以不能拒绝原假设,原回归模型不存在异方差。
2.多重共线性检验。解释变量X1、X3、X4、X5的两两之间相关系数如下表,由于X3和X4的相关系数为0.778374,存在较强相关性,因此需要对模型进行修正。
(四)模型修正
由于只有X3与X4的相关性较为显著,故而本文采用逐步剔除的方法对回归模型进行修正。运用OLS方法分别做出因变量Y对X1、X3、X5解释变量的回归;以及因变量对X1、X4、X5解释变量的回归。优先选择整体拟合程度更好,且各解释变量在统计上显著不为零的回归结果。经分析,应保留X1、X3、X5作为回归模型的解释变量。进一步检验修正模型的有效性,对其进行无常数项的回归,经检验不存在异方差以及多重共线性。
经过反复回归验证,最终构建出的网点设备配置的多元线性回归模型如下:
设备功能覆盖率、设备日均客户服务能力、客户年龄结构这几个自变量对因变量起到了显著的影响。
四、模型应用
根据实证分析结果,对于该种类型的设备配置,为达到科学合理的投入产出运行效果,应从设备自身功能类型、对客户服务能力、客户接受程度着手进行分析预测。如果这三方面的条件发生较大变动,可运用模型的线性关系对设备投入进行调整,确保资源的合理配置和有效利用。
对于物理网点营业场所、人员、设施、运行物料等相关资源投放,应充分分析,从宏微观视觉全面分析,选取有代表性、合理的经济指标,进行分析预测,从数量和结构上选择最优的方案,并且随内外在条件变化,调整资源投放结构,实现高效能的渠道经营管理。
多元一次回归模型 第4篇
关键词:旅游消费,多元线性回归,实证分析
一、背景
20世纪30年代以来, 随着经济增长和居民收入水平的提高, 全球旅游业急剧扩张, 逐步成为世界上发展前景广阔, 产业规模庞大的新兴产业之一。根据世界旅游组织统计, 国际旅游业已经成为国际服务贸易中交易额最大的产业之一, 同时旅游业也成为世界上最大的产业, 为全球经济发展做出了不可忽视的贡献。
近年来, 随着我国经济的迅速发展和人们生活水平的不断提高, 我国旅游产业规模不断增大, 出游人数和旅游总收入都不断上升, 旅游业呈现出蓬勃发展趋势。旅游业是高度敏感型产业, 要受到包括政治、经济、文化等各方面因素的影响, 通过调整上述因素, 可以为发展旅游业提供更好的环境, 从而更好地促进我国旅游业持续健康发展。本文将根据旅游经济学的相关理论, 寻找影响我国旅游消费数量的因素, 收集我国历年旅游行业统计数据及其影响因素的统计数据, 再运用计量经济学方法, 对影响我国旅游业消费的因素进行分析, 最后找出影响我国旅游消费数量的显著因素。
从图1中我们可以发现1994年以来旅游人数和旅游收入不断上升, 尤其是2004年以来旅游业处于一个高速发展的时期。
二、模型设定及应用的数据
通过对国内旅游市场的分析, 我们认为有如下潜在因素会对旅游消费产生影响:旅游人数X1, 城镇居民人均旅游花费X2, 农村居民人均旅游花费X3, 国内生产总值X4, 居民消费价格指数 (1978=100) X5, 城乡居民人民币储蓄定期与活期存款总计的年底余额X6。设定计量模型为:
其中, Y为旅游消费 (即旅游收入) 。
模型采用的数据如表1所示。
三、模型数据分析
利用Eviews软件, 采用表1数据对该模型进行OLS回归, 结果如表2所示。
从表2的结果我们可以发现, 该模型的可决系数R2=0.998947、 =0.998045, 拟合程度很高;DW≈2通过检验, 方程不存在自相关;F检验值1107.152显著, 模型整体通过检验;X1、X2、X3、X5、的Prob (T-statistic) 均小于0.05, 通过t检验, 但X4 (GDP) 的Prob (T-statistic) =0.4244, 未通过t检验, GDP与旅游消费关系度不大, X6 (CX) 的Prob (T-statistic) =0.1229, t检验的效果也不是太显著。
注:LS:旅游收入 (亿元) , RS:国内旅游人数 (百万人次) , CZ:城镇居民人均旅游花费 (元) , NC:农村居民人均旅游花费 (元) , GDP:国内生产总值 (亿元) , ZS:居民消费价格指数 (1978=100) , CX:城乡居民人民币储蓄定期与活期存款总计的年底余额 (亿元)
因而在原有模型的基础上剔除X4 (GDP) , 再一次进行OLS回归, 结果如表3所示。
从表3的结果我们可以发现, 该模型的可决系数R2=0.998839、 =0.998114, 拟合程度很高;DW≈2通过检验, 方程不存在自相关;F检验值1376.757显著, 模型整体通过检验;X1、X2、X3、X5、的Prob (T-statistic) 均小于0.05, 通过t检验, X6 (CX) 的Prob (T-statistic) =0.0723, 也基本可以接受。
综上所述, 模型的结果为:
四、模型结论分析
从上面的测算的模型可以知道:国内旅游人数每增加1百万人次, 旅游消费就会增加5.217062亿元;城镇居民人均旅游花费每增加1元, 旅游消费就会相应增加4.857372亿元;农村居民人均旅游花费每增加1元, 旅游消费就会相应增加3.024277亿元;居民消费价格指数 (1978=100) 每增加1个指数, 旅游消费就会减少5.720355亿元;城乡居民人民币储蓄定期与活期存款总计的年底余额每增加1亿元, 旅游消费就会减少0.005887亿元。由此我们可以发现, 国内旅游人数、城镇居民人均旅游花费、农费价格指数对旅游消费的影响比较大, 而城乡居民人民币储蓄定期与活期存款总计的年底余额则相对影响较小, GDP对于旅游消费并没有很大的直接联系。在这之中城镇居民人均旅游花费比农村居民人均旅游花费对旅游消费影响要显著。
参考文献
[1]、达摩达尔.N.古扎拉蒂.计量经济学基础[M].中国人民大学出版社, 2005.
[2]、李子奈, 潘文卿.计量经济学[M].高等教育出版社, 2008.
[3]、于俊年.计量经济学软件:EViews的使用[M].对外经济贸易大学出版社, 2006.
[4]、蒋存虎.关于我国入境旅游收入的实证分析[J].商场现代化, 2006 (10) .
[5]、王占祥.我国国内旅游收入的影响因素分析[J].商场现代化, 2008 (12) .
[6]、牛利民, 杨开福, 朱道静.影响我国旅游消费的经济因素分析[J].资源开发与市场, 2008 (24) .
[7]、张玮.影响我国旅游收入因素的实证分析[J].太原城市职业技术学院学报, 2007 (5) .
多元一次回归模型 第5篇
【关键词】 澜沧江;水路客运量;多元线性回归预测模型
0 背 景
水路客货运量预测分析工作是航运生产经营活动的重要环节,是航运规划、统计工作的重要组成部分。加强水路客运量预测分析工作,及时掌握水路运输市场发展动态和需求,是水路运输业积极适应市场环境、在竞争中找准发展方向的有效途径,也是实现跨越式发展、制定相应措施、使有限的水上运输资源发挥更大作用的基础和重要环节。
澜沧江-湄公河作为一条流经东南亚6个国家的重要国际河流,不仅是我国通向中南半岛乃至东南亚的中轴线,而且是连接东盟与我国的重要水路通道,又是发展潜力最大、运输成本最低的黄金水道。澜沧江-湄公河区域各国之间的经济、文化合作如火如荼地开展,水上运输发展迅速,加快该水运大通道建设对促进沿岸各国深化合作、巩固长久的睦邻友好关系具有重大而深远的意义。因此,为了满足该区域经济社会发展对水上交通运输的需求,科学、准确地预测客运量成为一项重要的研究课题,可以作为我国加快澜沧江航运开发建设决策、综合交通运输布局的重要依据,可以为区域水运交通规划和管理提供必要的依据。
本文通过建立澜沧江-湄公河客运量多元线性回归模型,利用模型进行预测,并对模型精度进行检验。
1 澜沧江-湄公河客运量多元线性 回归预测模型的构建
目前,预测水运客运量的方法有很多种,如回归分析法、指数平滑法、灰色预测法等。多元线性回归预测模型因具有模型简洁、预测精度较高等优点而最为常用,本文将利用多元线性回归模型预测澜沧江-湄公河客货运量。
1.1 自变量选取
某一区域水上客货运输需求常常与该区域社会、经济、环境等多种因素相关。澜沧江-湄公河航道与印度洋连接,形成内河与海洋互联的水运大网络,将我国与太平洋、印度洋国家连通,对大湄公河次区域经济发展产生深远的影响,且具有重要的战略地位。区域经济总量的增长将带动航运需求的增长,同时航运发展速度与国内生产总值(GDP)的发展速度成正比,尤其是与第二、第三产业GDP关系密切。因此,本文选取云南省GDP、第一产业总值、第二产业总值、第三产业总值、固定资产投资、社会消费品零售总额为自变量。
1.2 样本数据
澜沧江-湄公河航运资源的开发带动了当地旅游业的发展,2005―2013年澜沧江流域客运量逐年增长(见表1)。
通过对澜沧江流域的实地调研,获取了云南省航务管理局、统计局、商务局、海关等部门的相关数据(见表2)。
1.3 相关性分析
为了保证线性模型的合理性,首先需要分析自变量和因变量之间的相关性,皮尔森相关系数(Pearson correlation coefficient)可以较为准确地反映变量之间的线性相关程度。用r表示相关系数,r的绝对值越大,表明相关性越强。
1.4 澜沧江-湄公河客运量多元回归预测模型的建立
现假设用于建立多元线性回归预测模型的自变量为x1,x2,x3,x4,x5,x6;因变量为y。采用2005―2013年澜沧江客运量历史统计数据,建立客运量多元线性回归预测模型
1.5 模型检验
通过运用数理统计的理论和方法,对所建立的预测模型进行检验,相关参数取值的可靠性检验主要包括拟合优度、方程显著性、变量显著性等。利用MATLAB软件对上述指标进行分析,统计结果见表4。
通过表4可以看出,当9组自变量自由度为7且显著度为0.05时,R2>99%,因此,可以认为多元线性方程拟合优度很好,具备合理性。通过分析近9年客运量实际值、拟合值和残差值关系发现,实际值与拟合值贴合较好(见图1)。
2 澜沧江-湄公河客运量的预测
2020年客运量的预测可通过自变量在本时间段内的预测值计算得到。预测云南省 2014―2020年间GDP年均增长率为12%,2020年GDP年均增长率为8%,利用指数曲线回归拟合方法得到自变量x1,x2,x3,x4,x5,x6的预测值(见表5)。
根据式(2)得到澜沧江-湄公河客运量预测值,预计到2020年客运量达150万人次。
3 结 语
多元一次回归模型 第6篇
回归分析预测时首先对预测对象(因变量)进行定性分析,确定影响其变化的一个或多个因素,然后通过预测对象和影响因素的多组观察值建立起适当的回归预测模型进行预测。这种方法利用了因变量和自变量之间的因果关系,因而也称因果回归分析法。在经济领域中,一个经济变量往往受多个因素的影响,因此,需要建立多元回归模型进行预测,但在多元回归模型中对回归方程是显著的结论并不满足,原因在于回归方程显著并不是意味着自变量对因变量的影响都是重要的,主要任务是从这些变量中剔除那些次要的、可有可无的变量,以建立一个更简单的回归方程,从而更好的对y进行预测,而逐步回归分析正是解决此问题的一个很好的方法。逐步回归具体的做法是将变量单个引入,但每引入一变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的异步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。引入和移出都以给定的显著性水平为标准。
在经济发展的基础上,保持财政收入稳定持续增长始终是政府追求的主要目标之一。改革开放以来,河北省财政收入随着财政体制的调整和经济发展而不断增加。为保持财政收入的这种持续稳定地发展,需要了解影响财政收入的主要因素,为促进财政收入与经济的协调发展制定相应的对策。
本文通过选择以下八个变量,来分析三大产业的增加值、社会的人口数、消费情况以及旅游外汇等因素对本省财政收入的发展有何影响,并建立数学模型来预测未来河北省的财政收入。
1 多元回归统计模型在经济预测中的应用
设财政收入y为因变量,自变量如下:x1农业增加值(亿元);x2工业增加值;x3建筑业增加值;x4第三产业增加值;x5人口数(万人);x6社会固定资产投资总额;x7旅游外汇收入(万美元);x8最终消费(亿元)。记该地区第t年的财政收入为yt,农业增加值为x1 t,工业增加值为x2 t,,最终消费为x8 t,则建立多元线性回归模型:,其中是待估计的回归系数,ε是随机误差,影响y的其它因素作用都包含在随机误差ε中。
上述自变量X都与因变量Y有相关性,但并不是都存在显著的相关性。从中挑选出对因变量Y有显著影响的变量建立回归模型,下面用逐步回归的方法通过Matlab软件有效地选择变量。Matlab统计工具箱中的逐步回归命令是stepwise,它提供人机交互式画面,研究者可以在画面上自由地引入和移出变量,进行统计分析,通过Matlab计算可以看出x1x8的置信区间均不包含零点,即都可以选入模型,但随着选择可以看到下面的变化:(引入x1、x2,移出x3、x4;引入x5,移出x6;引入x7,移出x1;引入x8,移出x2)此时,自变量x1、x2、x3、x4、x6被移出模型,此时模型中含x5、x7、x8。由R2=0.9968指因变量y(财政收入)的99.68%可由模型确定,F=1968远远超过F检验的临界值,p远小于a,可见含x5、x7、x8的模型可用(此时的剩余标准差RMSE=11.01),也可得x5、x7、x8的回归系数分别为-0.06449、-0.0 0 1 0 3 4、0.2 2 2 5.利用公式计算,其中表示平均值,利用逐步回归得模型为:。。
由于除x5、x7、x8外的相关系数的置信区间均包含零点,说明上述方法存在缺点。为寻找改进的方向,常用残差分析法(残差ε指实际的财政收入值与模型估计的财政收入值之差,是随机误差ε的估计值。为了对残差进行分析,研究残差ε和x5、x7、x8的关系,发现均对残差造成一定的影响,故在上述方法的基础上加入,得到新的模型如下:
继续利用逐步回归的方法确定回归系数,在回归模型中把包含零点的变量移去(具体方法同上)。可得到的回归系数并分析出x5,x7的平方项对模型的贡献很小,试着把他们移去,可得R²=0.9978、F=2878、RMSE=9.110较之前的R²小了点,但其F值却大大的增加了,故可知此时的模型更加适合。
2 结论
通过上面建立的模型看到,产业结构与财政收入有着密切的关系。其中对财政收入的贡献率最大的是工业。工业是河北省的支柱产业,尤其是钢铁行业,可称之为河北的“第一行业”,积极发展钢铁行业是增加河北省财政收入的一个有效手段。
外汇旅游收入是河北省财政收入的又一主要来源。河北的旅游业,自1980年以来,持续高速发展,尤其近年来,旅游收入的增长速度已高于全国旅游业平均增速,也高于河北省同期国民经济平均增速。
通过模型的研究发现商业对河北省经济的影响作用日益突出,商业的灵活性及多样性等特点已经成为其发展的主要驱动力。为了有效的提高财政收入,发挥商业的积极作用,促进消费是十分重要的。
3 合理化建议
通过上面建立的最终模型,如果知道了工业增加值、外汇旅游收入以及最终消费,可以大致的预测河北省全年的财政收入。但由于本模型在选择影响因素时的不全面和模型存在的误差,使得财政收入的预测无法准确地进行。但可以根据上面的分析结果,为提高河北省的财政收入提出一些建议。
(1)促进钢铁等支柱产业的可持续发展。改善产业布局,引导投资方向,提高企业的综合竞争能力,同时还要注意加强宏观调节,促进我省工业的持续、快速、协调、健康发展。
(2)大力发展旅游等服务产业。充分发挥我省旅游资源、区位和市场的独特优势,加快发展旅游、房地产等新兴服务业。
(3)加强中小城镇的建设。利用城镇的基础建设,发展产生大量的商机、吸引外资和创造大量的就业机会。
与此同时,还应加强基础设施建设,着眼于未来,增强重点地区、重点流域的防灾、抗灾能力,以期减少损失增收减支。
摘要:本文通过选择合适变量,来分析三大产业的增加值、社会的人口数、消费情况以及旅游外汇等因素对本省财政收入的发展有何影响,并建立了多元回归数学模型来预测未来河北省的财政收入,并给出了合理化建议。
关键词:经济预测,多元回归分析,逐步回归模型,财政收入
参考文献
[1]樊重俊.非线性经济预测中的神经网络模型与应用[M].统计与决策,2008:51~53,16.
[2]许增福.基于径向基神经网络的经济预测方法[M].经济师,2008:30~35,05.
多元一次回归模型 第7篇
当今,发展物流产业首先要考虑的问题就是有合理的指导思想,精确的前瞻性极为关键。在已有的客观条件下,怎样对企业的购存销达到准确的预测,才能使物流费用最少,社会经济效益最佳,对用户的服务质量最好,是物流管理所要研究的主要问题。本文拟就应用多元线性回归模型以提高预测的可靠性。
2 多元线性回归概述
在物流管理分析系统中,与某一变量y有关的变量可能是多个,研究变量y与变量x1,x2,Λ,xp之间的定量关系称为多元线性回归分析。其数学模型为
各εα相互独立,E(εα)=0,D(εα)=σ2,α=1,2,Λ,n,估计参数β采用最小二乘法,可求出多元线性回归方程
多元线性回归模型的检验方法有:判定系数检验(R检验),回归系数显著性检验(T检验),回归方程显著性检验(F检验)。
1.判定系数检验
多元线性回归模型判定系数的定义与一元线性回归分析类似。判定系数R的计算公式为:R=R接近于1表明Y与X1,X2,...,Xk之间的线性关系程度密切;R接近于0表明Y与X1,X2,...,Xk之间的线性关系程度不密切。
2.回归系数显著性检验
在多元回归分析中,回归系数显著性检验是检验模型中每个自变量与因变量之间的线性关系是否显著。显著性检验是通过计算各回归系数的t检验值进行的。回归系数的t检验值的计算公式为:t=bj/sb1(j=1,2,...,k),式中sb1是回归系数bj的标准差。在多元回归模型中,某个变量回归系数的t检验没有通过,说明该变量与因变量之间不存在显著的线性相关关系,在回归分析时就可以将该变量删去,或者根据情况作适当的调整,而后用剩下的自变量再进行回归分析。
3.回归方程的显著性检验
回归方程的显著性检验是检验所有自变量作为一个整体与因变量之间是否有显著的线性相关关系。显著性检验是通过F检验进行的。F检验值的计算公式是:F(m,n-m-1)=
式中:,为回归平方和,其自由度为m;Q=,为剩余平方和,其自由度为(n-m-1)。多元回归方程的显著性检验与一元回归方程类似,在此也不再赘述。回归方程的显著性检验未通过可能是选择自变量时漏掉了重要的影响因素,或者是自变量与因变量间的关系是非线性的,应重新建立预测模型。
3 实证研究
下面以中国钢铁炉料西北公司为例,对多元回归分析法的应用加以说明。
中国钢铁炉料西北公司经销的钢材种类中,以型材和不锈钢为主,而在型材和不锈钢中,又分别以无缝钢管和不锈钢型材为主,其余种类辅之,只占微乎其微的销售额。每年所获利润主要取决于A(无缝钢管)、B(不锈钢型材)两种产品的销售量。企业经营所需的型材和不锈钢便在以上两家集团采购。该企业在19972006年期间的A、B两种产品的销售量及每年所获利润统计资料如表1所示。
如何通过分析,得出敏感性因素,使企业在资金一定的情况下,选择优化的采购策略,为企业的下一阶段的经营提供科学的指导依据?
分析过程:确定敏感性因素
由已知得,
设样本回归直线方程为:
根据公式求得参数估计量为:
所以,样本回归直线方程为:
参数估计量的经济含义为:
=-13.83表示如果A、B两种产品的销售量为0的情况下,则该公司一年平均亏损13.83百万元;
=0.564表示在其他条件不变的情况下,A产品销售量每增加一万吨,该公司的利润平均增加0.564百万元;
=1.099表示在其他条件不变是情况下,B产品销售量每增加一万吨,该公司的利润平均增加1.099百万元。
不难看出,在现有资金一定的情况下,该企业若加大B产品的采购量,则可以获取更大的利润。
4 结论
运用多元回归分析法,可以从更多的方面对影响物流企业盈利的因素进行分析,更好地完成其估测功能。
但本预测方法也存在一些不足之处,首先,可能存在异方差,自相关,多重共线性等问题;其次,应用回归分析产生的经验回归公式直接进行预测精度是不够的,它只能用于决策上宏观性参考,但随着收集资料的日益全面,精度会大幅度提高,完全可以满足物流成本预测精度的要求;再次,分析方法仅限于回归分析,应用范围不是太广。只有对此进行不断地完善,才能更好地将多元回归方法应用于物流管理的过程当中。
参考文献
[1]冯文权.经济预测与决策技术[M].武汉:武汉大学出版社,2002.
[2l马庆国.管理统计[M].北京:科学出版社,2002.
多元一次回归模型 第8篇
一、提出因变量与自变量
把货运总量 (亿元) 作为因变量Y, 以工业总产值 (亿元) 为X1、农业总产值 (亿元) X2、居民非商品支出 (亿元) X3为解释变量。19912000年大名县货运总量与工业总产值、农业总产值、居民非商品支出的数据统计见表1。
数据来源:《河北省邯郸市统计年鉴》19912000年统计数据
二、作相关分析, 设定理论模型
用SPSS软件计算增广相关阵, 并通过变量间的相关性分析可以进行多元回归分析, 由定性分析可知, X1, X2, X3都与变量Y有较强的相关性, 设回归模型为:
三、计算结果
用SPSS软件计算, 其中Y表示货运总量 (亿元) , X1表示工业总产值 (亿元) 、X2表示农业总产值 (亿元) 、X3表示居民非商品支出 (亿元) 。输出结果如表2和表3所示。
由上述数据可知:β0=-348.28β1=3.754β2=7.101β3=12.447
则回归方程为:
四、多元线性回归模型的检验
(一) 拟合优度检验
多元回归可决系数R2=0.805 5, 修正的多重可决系数R2=0.708 3, 两者均小于0.85, 说明模型的拟合程度一般, 但可以基本拟合。
(二) 对回归方程的显著性检验
提出假设:H0:β1=β2=β3=0;H1:β1、β2、β3不全为0
取显著性水平α=0.05, F临界值Fα (k-1, n-k) 即F0.05 (3, 6) =4.76
由上表可知F=8.283 2>F0.05 (3, 6) =4.76
所以拒绝原假设H0, 接受备择假设H1, 所以回归方程十分显著, 即可以以95%的概率断言自变量X1, X2, X3全体对因变量Y产生显著影响。
(三) 回归参数的显著性检验 (t检验)
提出假设:对于任意参数βi (i=1, 2, 3) , 则有
由上表可知, t1=1.942, t2=2.465, t3=1.178
给定显著性水平α=0.05, 自由度为 (n-k) 的tα/2 (n-k) 当n=10, k=4, 可知t0.025 6=2.4469
因为|t1|=1.942
因为|t2|=2.465>tα/2 (n-k) =2.446 9, 所以t2通过检验
因为|t3|=1.178
(四) 修改回归模型
剔除对Y影响不显著的变量 (每次只能剔除一个变量)
首先剔除ti (i=1, 2, 3) 中最小的变量X3, 并建立新的回归方程
利用spss软件对此模型的剩余参数进行估计, 重新得到数据:
五、对新的多元线性回归模型进行检验
(一) 拟合优度检验
多元回归可决系数R2=0.761, 修正的多重可决系数R2=0.692, 两者均小于0.85, 说明模型的拟合程度一般, 但可以基本拟合。
(二) 对回归方程的显著性检验
提出假设。
H0:β1=β2=0;H1:β1、β2不全为零
取显著性水平α=0.05, F临界值Fα (k-1, n-k) 即F0.05 (2, 7) =4.74
由上表可知F=11.117>F0.05 (2, 7) =4.74
所以拒绝原假设H0, 接受备择假设H1, 因此回归方程十分显著, 即可以以95%的概率断言自变量X1, X2全体对因变量Y产生显著影响。
(三) 回归参数的显著性检验 (t检验)
提出假设。对于任意参数βi (i=1, 2) , 有:
由上表可知, t1=2.575, t2=3.634
给定显著性水平α=0.05, 自由度为 (n-k) 的tα/2 (n-k) 。当n=10, k=3, 可知t0.0257=2.364 6
因为|t1|=2.575>tα/2 (n-k) =2.364 6, 所以t1通过检验
因为|t2|=3.634>tα/2 (n-k) =2.364 6, 所以t2通过检验
(四) 做出多元回归方程的线性拟合图
根据以上的分析结果, 最终得到货运总量与工业总产值、农业总产值之间的多元线性回归方程为:
六、所建多元线性回归模型的意义
由回归方程的结构来看, 具有明显的经济意义。β1的符号为正, 说明工业总产值增加货运总量也增加, 因为工业总产值增加了, 货物需求量也就增加了, 所以货运总量也就增加了, 符合经济意义;β1=4.676, 表明当其他因素不变时, 工业总产值增加一个单位, 货运总量平均增加4.676个单位;β2的符号也为正, 说明农业总产值增加货运总量也增加, 因为农业总产值的增加, 意味着农产品的增加, 必然带动农产品货运的增加, 因而货运总量也就增加, 符合经济意义;β2=8.971, 表明当其他因素不变时, 农业总产值增加一个单位时, 货运总量平均增加8.971个单位。这个回归方程比较简明地描述了货运总量的结构和增长成因。
由上面这个回归方程的建立过程, 我们看到, 货运总量受着多种因素的影响。但我们最终得到的回归模型只引进了两个因素, 即工业总产值、农业总产值, 这说明这两个变量是影响大名县货运总量的主要因素。
摘要:通过一个实例详细介绍了建立经济计量模型的过程和步骤, 旨在引入用多元线性回归分析的方法来分析实际问题的思想。由定性分析选取与大名县货运总量有较强的相关性的几个影响因素, 以其作为解释变量, 建立与货运总量的线性模型。
关键词:货运总量,多元线性回归,模型
参考文献
[1]盛骤, 谢式千.概率论与数理统计[M].北京:高等教育出版社, 2004.
[2]薛薇.统计分析与SPSS的应用[M].北京:中国人民大学出版社, 2001.
多元一次回归模型 第9篇
用于物流需求预测的方法很多, 常用的有一元线性回归法, 指数平滑法、弹性系数法和灰色预测法等。由于物流需求受国民经济发展速度、居民消费水平等多种因素影响, 上面的方法在准确性和有效性上都存在很大的缺陷, 尤其是一元线性回归的预测方法, 其考虑只是单因素。
但在多元线性回归模型中, 它全面的考虑影响货运量的因素, 根据区域的实际情况选取影响因素, 作为预测模型中的解释变量, 并根据回归分析, 消除了存在自相关和多重共线性的因素。然后分别求出符合模型的各影响因素与货运量的相关系数。然后, 利用计量经济学原理建立预测理论模型, 并借助统计软件确定预测模型中的各个变量的数值。最后, 整理数据代入模型得出预测结果。
物流需求预测模型
物流量的多少取决于地区的大小、该地区工农业的生产总量、地区的消费总量。据此可以推断, 影响货运量的因素主要有总人口数、居民消费水平、国民收入 (第一产业、第二产业和第三产业) 、总产值 (工、农业) 、消费品零售额、居民消费水平以及货车保有量等。在建立模型时, 我们就选取这些因素, 作为变量。
设物流量{Y}与影响因素{X1, X2, X3XP}, 存在相关关系, 则可以建立模型Y=F (X1, X2, X3, X4XP) +C, 其中Y是因变量, X1, X2, X3XP是自变量, 亦称解释变量, Y=F{X1, X2, X3XP}是回归函数, C是随机误差, 以此模型为基础, 对货运总量作预测模型。
其中, X1:成业人口数量;X2:消费水平;X3:国内生产总值;X4:第一产业产值;X5:第二产业产值;X6:第三产业产值;X7:工业生产产值。
样本数据一般可以从统计年鉴中直接获得, 亦可通过抽样调查计算得到。这取决于在预测模型中所涉及到的影响因素数据是否包含在历年的统计报表中。通常情况, 抽样调查获得的数据更为贴近实际, 但工作量较大。从统计年鉴中直接利用的数据一般可能存在一个时差, 但如果样本个数足够多的话其误差不会很大, 但统计数据必须是真实可靠的。在本文中与货运量有关的各影响因素的数据 (从业人口, 居民消费水平, 第一产业, 第二产业, 第三产业, 工业总产值, 货运总量, 铁路货运量, 公路货运量) 均来自2007年湖南省统计年鉴。
运量预测模型可用普通最小二乘法对其参数进行估计, 具体公式如下: 式中, 是实际值, i是观测值, Q表示实际值与观测值差的平方。检验时主要进行经济意义检验、统计检验、计量经济学检验和预测检验。实例分析
实例分析
首先根据获得的资料数据进行各因素之间的相关分析 (分析结果略) 。据相关分析结果数据判断, 可知总货运量与国内总产值、从业人口数量、第二产业、消费水平、工业产值密切相关, 进一步分析可知这恰好与湖南省经济发展的现状相符合, 从而符合经济意义检验。对被解释变量和解释变量之间关系做散点图, 发现他们之间有很强的线形关系, 故可用统计软件 (Eviews) 进行多元逐步线性回归, 以求得总货运量的预测模型。
第一步:运行Eviews, 得到预测模型Y=48.03351X113.73149X2-8.073419X3+14.21040X5-4.648719X7-5334.562计算表明, 决定系数值很大 (R-squared=0.997622) , 所以方程很显著。
第二步:上述模型中, X1、X2、X3、X5、X7五个参数的t检验值只有两个较显著, 说明存在多重共线的可能。从表1的统计数据中也可以看出, X3和X5、X7相互之间具有明显的依赖性, 所以为了消除这种共线性。利用逐步删除法得到新的预测模型 (即剔除变量X5和X7) :Y=50.10655X1+9.448363X2-667635X3-10716.53
第三步:此时, X2, X3依然存在着多重共线性, 这说明X2和X3依然有依赖性, 为了消除共线性, 继续用删除法得到新的模型, 继续剔除C和X2, 消除前者是为了使精度更高, 消除后者是为了消除多重共线性。最后得到下列预测模型以及检验结果:Y (货运总量) =43.34453X1+2.271540X
从回归结果可以看出该模型的相关系数以及D.W.=1.96, F值, P值以及t检验值都符合经济意义检验、统计学检验、经济计量学检验及预测检验。
根据各因素历年的数值, 发现X1, X3分别与时间存在很强的线性关系, 对各因素进行线性回归后, 得到各因素与时间T的模型结果如下:X1=61.8*T-122859.15;X3=1150.5*T-2292926.586
在一元线性回归模型中, 自变量只有一个, 因变量为一个。自变量和因变量是一一对应关系, 因此它俩之间的函数表达式为:Y=A+BX;其中Y为自变量, X为因变量, A和B为待定系数。
从分析中可以知道国内生产总值与总货运量的相关系数最大, 且R=0.98469691, 相关性很大, 所以选定国内生产总值为自变量X, 其中:
代入货运量与各相关因素的相关系数的相关数值得到一元线性回归模型为:Y=25638.73+3.488004058X由两种预测模型得出的从1997年到2006年的结果, 具体见表1。
可见, 多元线性回归模型在预测结果的精确度和有效性和明显要高于一元回归模型的预测值。综上所述, 多元线性回归模型在物流需求预测中的效果最好。
多元一次回归模型 第10篇
差分演化 (Differential Evolution, DE) 是一种基于群体差异的演化算法, 该算法是Rainer Storn 和Kenneth Price在1996 年为求解切比雪夫多项式而提出的。差分演化算法在首届IEEE演化计算大赛中表现超群, 已经在数字滤波、化工、阵列天线方向图综合、机械优化设计等领域得到了广泛的应用。
回归分析中的参数估计是指在实际问题中随机变量分布函数的形式己知, 但其中参数未知的情况。如果得到了随机变量的一组样本值后, 希望利用样本值来估计变量分布中的参数值, 这在工程中是一个比较重要的问题。在回归分析中, 最大似然估计法是模型参数估计的基本方法。但在用该方法进行参数估计时, 一般要求解联立的超越方程组, 相当复杂, 用常规迭代算法不易求解, 而且收敛性较差, 甚至有时不能收敛。本文采用DE算法, 以最大似然准则作为适应度函数, 建立回归分析中的参数估算模型。探讨多元线性回归中的参数估计计算。数值仿真分析表明, DE算法可以精确地计算出相关参数。
1 DE算法
差分演化是一种基于实数编码的演化算法, 算法的基本思想及整体构架与遗传算法相类似, 从一代种群到下一代种群都要经过变异、交叉、选择等操作, 也一样有几个至关重要的参数必须事先确定。下面逐一介绍差分演化算法的几个关键性的操作。
1.1 参数的确定
差分演化算法主要涉及以下4个参数:①种群规模大小N;②个体的维数D;③变异因子F;④交叉概率CR。有研究结果表明:群体规模N一般介于5D-10D之间;变异因子F在 (0, 2) 之间取值, 一般F=0.5;交叉概率CR一般在[0, l]之间选择, 一般来说, CR越大, 收敛速度越快, 但易于早熟, 易于陷入局部最优, 算法的稳健性越差, 比较好的选择是CR=0.3。当然这些都只是经验值, 没有严密的理论证明, 对于某些具体的问题也可能取其它的值会得到更好的结果, 需要具体问题具体分析。
1.2 生成初始种群
在D维空间里随机产生满足约束条件的N个染色体, 具体过程如下:
undefined
其中xundefined和xundefined分别是第j个变量的上下界, rand (0, 1) 返回[0, 1]之间的随机数。
1.3 变异操作
一般情况下变异操作有如下两种方式:
Scheme DE1:对于群体中个体xr1 (1≤r1≤N) , 由此产生的新个体x'r1 (1≤r1≤N) 满足下式:
undefined
其中r2, r3∈[1, N], r1≠r2≠r3, F>0为放缩因子。
Scheme DE2:对于群体中个体xr1 (1≤r1≤N) , 由此产生的新个体r'r1 (1≤r1≤N) 满足下式:
undefined
其中r2, r3∈[1, N], r1≠r2≠r3, F>0为放缩因子, xbset为当前产生的最优个体, λ为增加的一个控制变量, 一般取和F相同的值。
1.4 交叉操作
交叉操作是对群体每一个个体xr1 (1≤r1≤N) 以及由此经过变异产生的新个体x'r1 (1≤r1≤N) 之间进行的, xr1和x'r1经过交叉以后产生子代的候选个体v, 经过后面的选择操作, 确定是个体xr1还是个体v保留到下一代。交叉操作主要有两种形式:bin方式和exp方式。
1.5 选择操作
经过交叉和变异以后产生了新的个体v, 根据目标函数值的大小, 从xr1和v中选择一个遗传到下一代。如下式 (以求函数最小值为例) :
undefined
2 多元线性回归模型
线性回归模型在定量分析的实际研究中是最流行的统计分析方法。在许多实际问题中, 某个变量Y往往相关于另外一些变量X1, X2, , Xp-1, 但是这种相关关系或者由于其机理不甚明确, 或者由于问题的复杂性而不能确切知道, 因此只能说由X1, X2, , Xp-1的取值部分确定Y的取值。在这些情况下, 可以认为Y的值由两部分构成, 一部分是由X1, X2, , Xp-1能够决定的部分, 它是X1, X2, , Xp-1的某个函数, 记为f (X1, X2, , Xp-1) ;另一部分是众多未加考虑因素 (包括随机因素) 所产生的影响, 被看作是随机误差, 记为ε。于是Y与X1, X2, , Xp-1的关系可以表示为:
undefined
回归分析即利用Y与X1, X2, , Xp-1的观测数据, 并在误差项的某些假定下确定f (X1, X2, , Xp-1) 。利用统计推断方法对所确定的函数的合理性以及由此关系所揭示的Y与X1, X2, , Xp-1的关系作分析, 进一步应用于预测、控制等问题, 特别是当f (X1, X2, , Xp-1) 是X1, X2, , Xp-1的线性函数时, 有:
undefined
此模型称为线性回归模型, 其中β0, β1, , βp-1是未知常数, 称为回归参数或回归系数;Y称为因变量或响应变量;X1, X2, , Xp-1称为自变量或回归变量;ε称为随机误差项并假定E (ε) =0。ε是不可观测的随机变量, 而Y与X1, X2, , Xp-1是可观测的变量。这里只讨论自变量X1, X2, , Xp-1是非随机变量的情形, 而y与ε有关, 是随机变量, 但它是可观测的。
3 算例分析
3.1 计算模型
多元线性回归模型中的一组参数看作一个个体, 种群中的每一个个体代表模型估计问题中的一个候选解, 于是第i个个体pi表示为:
undefined
另外, 定义适应度函数来评价种群中的每个个体, 根据最大似然估计法, 定义适应度函数如下:
undefined
最优解就是使适应度函数Q (θ) 最小的个体。
3.2 与Weka计算结果的比较
3.2.1 测试1
该算例是Weka3.6.2中自带的CPU性能测试的实例, 多元线性回归示范模型如下:
undefined
其中, 变量X1表示周期 (MYCT, 单位ns) ;变量X2表示最小主存 (MMIN, 单位KB) ;变量X3表示最大主存 (MMAX, 单位KB) ;变量X4表示高速缓存 (CACH, 单位KB) ;变量X5表示最小信道 (CHMIN) ;变量X4表示最大信道 (CHMAX) 。具体数据见表1。
DE算法参数选择如下:个体大小为7;种群大小M=30;迭代次数为800;放缩因子F=0.5;交叉概率CR=0.3。
表2为该算例分别经过DE算法和Weka计算得到的参数估计值的比较。
经过DE算法得到算例1的多元线性回归模型算例的参数估计值为:
undefined
与Weka计算的结果进行对比发现, 使用DE算法得到的参数估计值与Weka软件计算得到的结果一致。
3.2.2 测试2
该算例是一组数据量较小的例子。设已知因变量Y的自变量X1, X2, X3, 共得18组数据, 并已知Y对Xi存在着线性关系, 多元线性回归方程为Y=a0+a1X1+a2X2+a3X3, 求其回归方程。样本数据见表3。
DE算法参数选择如下:个体大小为4;种群大小M=30;迭代次数为800;放缩因子F=0.5;交叉概率CR=0.3。
表4为该算例分别经过DE算法和Weka计算得到的参数估计值的比较。
经过DE算法得到算例2的多元线性回归模型算例的参数估计值为:
undefined
与Weka计算的结果进行对比发现, 使用DE算法得到的参数估计值与Weka软件计算得到的结果一致。
3.3 计算结果分析
使用相对平方根误差 (Root relative squared error) 来评估检验多元线性回归模型的拟合度。计算公式为:
undefined
其中:undefined
p为预测值, a为真实值。
上述两个算例中, 由DE算法得到的相对平方根误差和Weka得到的相对平方根误差的比较如表5所示。
本文通过一些其它数据集的测试, 发现当数据源的数量庞大且有明显的线性关系时, 使用DE算法得到的参数估计值与Weka软件测试得到的结果具有较高的一致性;当数据源的数量比较小且不呈明显线性关系时, 通过DE算法也可以得到参数估计值, 由于Weka本身计算得到的参数估计值就有一定的偏差, 所以不具有比较性。
4 结束语
通过实际算例的仿真实验结果表明, 用DE算法得到的回归结果与Weka统计结果有较好的拟合度, 可以肯定地得知用DE算法来估算回归模型中的参数是可行、可信的。
参考文献
[1]R STORN, K PRICE.Differential evolution-a simple and efficientadaptive scheme for global optimization over continuous spaces[R].Technical report International Computer Science Institute, Berkley, 1995.
[2]ABBASS H A, SARKER R, NEWTON C.PDE:A pareto-frontierdifferential evolution approach for multi-objective optimizationproblems[A].Proceedings of the Congress on Evolutionary Com-putation 2001 (CEC2001) .Volume 2, Piscataway, New Jersey, IEEE Service Center, 2001.
[3]XUE F, SANDERSON A C, GRAVES R J.Pareto-based multi-ob-jective differential evolution[A].Proceedings of the 2003Congresson Evolutionary Computation (CEC2003) .Volume 2, Canberra, Australia, IEEE Press, 2003.
[4]田雨波, 朱人杰, 薛权祥.粒子群优化算法中惯性权重的研究进展[J].计算机工程与应用, 2008 (23) .
[5]王丽, 王晓凯.一种非线性改变惯性权重的粒子群算法[J].计算机工程与应用, 2007 (4) .
[6]王启付, 王战江, 王书亭.一种动态改变惯性权重的粒子群优化算法[J].中国机械工程, 2005 (11) .