组合回归范文(精选5篇)
组合回归 第1篇
1资料与方法
1.1 资料来源及预处理
资料来源于我院2005~2008年的出院患者, 包括患者的基本信息、费用信息、诊断信息及手术信息资料, 共计6061条记录, 对于住院费用采用对数转换, 使其分布符合正态分布。研究的影响因素包括患者性别、年龄、职业、有无伴随疾病、入院时情况、预后、住院天数、抢救次数及医院感染情况。
1.2 研究对象的选取
从病例组合的角度选取有代表性且样本含量较大的病种共计9种病例组合进行研究。其中具体包括剖宫产、子宫切除、宫颈癌、乳腺癌、乳腺纤维腺瘤、乳腺增生、阴道肿瘤、子宫瘤和绒毛膜癌等病例。
1.3 研究方法及步骤
采用回归树模型对以上病例组合进行研究。回归树模型[2]的建立是通过从研究对象中选取最佳分割点, 该分割点对应所有研究因素中的某个影响因素的某个取值, 使得据此分开的两组数据的组间变异最大, 分开的两组数据组内变异的和最小。通过对取得的各组数据持续的切分, 直到组内数据同质或者组内数据少于5个时停止分枝, 这时便种出一棵初步的树。然后利用交互证实思想对模型进行剪枝, 得到Deviance值随树的节点数及成本复杂性参数k变化的曲线, 其最低点对应最适宜的回归树模型。
2结果
2.1 回归树模型的图形示例及其结果判读 回归树模型包括树根、树杈 (即分枝节点) 和树叶 (即终节点) , 而分枝的取得均根据是否满足某个影响因素的条件来划分, 树的左枝表示满足条件的组, 而右枝代表不满足条件的组。下面以剖腹产患者的回归树模型为例说明其结果判读。
从图1可见, 从树根开始, 第1个分枝的因素是住院天数, 住院时间少于14.5 d的患者归入树的左枝, 而右枝为住院时间超过14.5 d的患者, 以此类推, 最终得到9个终节点, 本图将有关终节点的结果列于括号内, 前1个数字表示节点内样本例数, 后一个数字代表患者的平均费用。例如684例子宫癌患者中住院天数超过50.5 d且预后为未愈或死亡的患者共有21例, 平均住院费用为35 954.16元;住院天数少于3.5 d 的患者共有40例, 平均住院费用为784.46元;而住院天大于9.5 d共有65例患者, 平均住院费用为4559.65在所有研究因素中, 患者住院天首先被选入模型, 因而其对此组合患者的费用影响最大, 其次为预后及抢救次数。其余病例的回归树结果不在此用图示详细列举。
2.2 10种病例组合住院费用、住院天的基本情况及回归树分析揭示住院费用的影响因素本次研究结果如表1所示。
3讨论
3.1 10种病例组合的患者住院费用影响因素
从上表分析结果可见9种病例组合出院患者住院费用的影响因素有住院天数、抢救次、职业、年龄、性别、入院情况及预后, 其中住院天对所有病例组合的住院费用均构成影响, 且住院天是影响住院费用最重要的因素。其他因素如患者年龄、预后、入院情况及抢救次在一些病例组合中对住院费用有影响, 且有时是较关键的影响因素。而剖腹产病例组中, 一方面DRGs 病例组合方案中年龄本身是影响剖腹患者住院费用非常关键的因素, 另外回归树模型一般应基于大样本进行分析, 而该组合患者仅50名, 因此应慎重下结论, 可扩大样本含量进一步研究。
3.2 回归树分类与DRGs
分类的比较 DRGs 是按同资源消耗建立的病例组合, 其根据不同的资源消耗, 以住院天作为分类的轴心, 将全部住院病例根据主要诊断病名分成25个主要诊断类目MDCs, 接着再在疾病诊断、治疗方式、合并症或伴随病、年龄及性别、预后等数个变量中, 采用AID (Automatic Interaction Detection) 算法, 按最易使住院日数均质化的顺位对MDCs进行分组, 在使组内患者的住院日数方差总和尽量缩小的同时, 使不同组间的住院日数方差总和尽量增大, 最后将患者划成607个DRGs为基础, 测算各组的费用, 在此基础上综合考虑其他因素建立各种病例组合的补偿标准[3]。而回归树同样是依次找到影响因素的某个取值, 使得每个树杈间的变异最大, 而枝节内的变异的和最小。因而两者建模思想完全一致, 且回归树结果提示住院天是造成住院费用差异最为关键的因素, 在DRGs中, 也将其作为分类轴心, 因此两者结论一致。
3.3 病例组合与单病种的区别
病例组合是指一些相互联系但又有区别的患者各方面特征的归类分组, 这些特征包括患者病情、疾病预后、治疗难度、治疗必要性以及医疗资源消耗强度等方面[1]。而单病种仅以患者的疾病作为唯一分类因素, 没有充分体现出病情等有关因素对医疗质量和医疗资源消耗强度的影响, 且覆盖面较窄, 无法建立完备的管理控制体系。如现一些地方采取单病种限价方式来控制医疗费用, 一般仅涉及几十个单病种, 且即使同一单病种由于不同特征组合费用差异较大, 均允许例外个案的存在, 可以不按限价标准执行, 因此在实际应用中可操作性不强。本次分析选用病例组合的思想, 将病种与患者的病情及治疗方式相结合, 分析不同组合的患者住院费用的影响因素, 以此建立不同病例组合费用补偿标准。
3.4 回归树模型可以作为建立医院费用补偿制度的有效方法
本次分析的目的是研究不同病例组合住院费用的影响因素, 与DRGs作为费用补偿制度的依据尚存差异, 但两者建模思想完全一致, 且研究结果具有一定相似性, 同时考虑到回归树模型放松了多元线性回归模型的许多限制, 因而对于住院费用类数据有更好的适应性, 模型拟合效果较好[1]。一旦据此建立覆盖完备的各种病例组合住院费用及住院天的标准, 可以根据患者情况直接查阅得到相应的补偿额度, 使用简单方便[3]。因此作为非参数回归的一种方法, 回归树模型在建立控制医疗费用的标准等方面有着很广阔的应用前景。
参考文献
[1]张文彤, 赵耐青.回归树应用于病案首页资料分析时的适用条件及替代算法初探.中国卫生统计, 2003, (06) :211.
[2]莫春梅, 倪宗瓒, 高凤琼.回归树的建模与应用.中华预防医学杂志, 2002, (05) :123.
组合回归 第2篇
关键词:瓦斯灾害预测涌出量灰色线性回归组合模型未采掘煤层
中图分类号:TD712文献标识码:A文章编号:1674-098X(2011)05(c)-0036-01
1 目前的研究概况
我国矿井瓦斯涌出量预测主要应用的有矿山统计法和瓦斯含量预测法。瓦斯含量计算法对于尚未开采的煤层或已开采范围较小的煤层,只有较小范围实测的瓦斯含量数据,难以准确地预测深部开采水平的瓦斯涌出量。矿山统计法方法较为简单,但在预测精度方面不令人满意。基于此提出用灰色线性回归组合模型来预测瓦斯涌出量,取得了较好的效果。
2 灰色线性回归组合模型
灰色线性回归模型改善了原线性回归模型中没有指数增长趋势和灰色模型中没有线性因素的不足,更适合既有线性趋势又有指数增长趋势的序列。对于这样的序列,其建模过程如下。
设给定原始数据序列:
X(0)={x(0)(1),x(0)(2),x(0)(3),…,x(0)(n)},x(0)(k)≥0,k=1,2,…,n
为增加数列的光滑性,对X(0)做一次累加生成,有:
X(1)={x(1)(1),x(1)(2),x(1)(3),…,x(1)(n)其中x(1)(k)=,k=1,2,3,…,n。
由GM(1,1)可得到: (2.1)
用线性回归方程Y=aX+b及指数方程式Y=ae(x)的和来拟合累加生成序列x(1)(t),将生成的序列写成: (2.2)
为确定以上参数,设参数序列:
t=1,2,3,…n-1….…. …(2-3)
并设:
……………….(2-4)
上面两式的比为
,………… (2-5)
取不同的m可得到不同的,以它们的平均值作为v的估计值。
令,则(2-2)可写成:(2-6)
利用最小二乘法可求得C1,C2,C3的估计值。
令
则有,从而,这样就得到生成序列的预测值为:
………………………….(2-7)
3 灰色线性回归组合在矿井瓦斯涌出量中的应用
晓南矿2005年《矿井瓦斯和二氧化碳等级鉴定报告》显示相对瓦斯涌出量13.49m3/t,绝对涌出量56.85m3/min,属于高瓦斯矿井。应用灰色理论预测选用的原始数据序列,应该是等间距数列。本例中煤层底板标高的间隔并不相等,必须对原始数据进行初步处理。以垂深30m为间距,利用插值法求得不同深度的瓦斯涌出量。
如表1所示。
原始序列:X(0)=(11.97,12.14,12.20,12.55,12.89,13.18)
一次累加生成得:X(1)=(11.97,24.11,36.31,48.86,61.75,74.93)
对于m=1有:
所以:
对于m=2得:
对于m=3得:
如表2所示。
由表2可以看出,灰色线性回归组合模型在预测井田深部瓦斯涌出量中取得了较好的效果,既改善了线性回归预测模型中不能表达指数增长的缺陷,又弥补了灰色系统预测模型中不含线性因素的不足。
参考文献
[1]铁法煤业(集团)有限责任公司大兴矿,河南理工大学.大兴煤矿突出煤层瓦斯地质规律研究,2005.
[2]张子敏,张子戌.瓦斯地质理论与实践.吉林科学技术出版社,2005.
组合回归 第3篇
1 灰色线性回归组合模型预测方法的基本原理
灰色模型是灰色系统理论的体系之一, 灰色系统理论是邓聚龙教授1982年提出的一种研究部分信息明确、部分信息不明确的新系统理论方法[4], 和模糊数学的方法相似, 但着重点不同, 与黑箱系统和白箱系统有明显的区别。
建立模型时, 首先假设原始数据序列为
undefined
其中y (0) (k) ≥0, k=1, 2, , n。
为使序列的光滑性增加, 对Y (0) 做累加处理得:
undefined
其中y (1) (k) =undefinedy (0) (n) , k=1, 2, 3, , n。
由灰色模型可得:
undefined
用线性回归方程y=ax+b和指数方程y=cex的和来拟合累加序列Y (1) (t) , 把生成的序列写成:
undefined
为了确定参数, 假设参数序列为
undefined
其中t=1, 2, 3, , n-1, 。
并假设:
undefined
为了求得λ的值, 对式 (4) 作如下变换:
undefined
为了解得λ, 对两边求导得:
λ=ln[Xm (t+1) /Xm (t) ] (6)
为了提高λ的精度, 通过取不同的m值, 可以得到不同的λ值, 然后求出其平均值undefined作为其估计值。求λ的平均值的步骤如下:
由公式 (6) 求出:
λ (1) (1) λ (1) (m-1)
同理求出:
累加求平均值得:
undefinedundefined
其中m=n-2。
令undefined, 则式 (2) 化简为
undefined
通过数值分析中的最小二乘法, 可求得c1, c2, c3的估计值。
令
则有Y (1) =AC, 在MATLAB[5]中输入:
A=[l (1) 1 1;
l (2) 2 1;
l (n) n 1];
undefined
C=inv (A′*A) *A′*Y′
可求得c1, c2, c3的值, 代入公式 (2) 就可以得到生成序列的预测公式:
undefined
2 预测现场校验
鹤壁六矿地处河南省北部, 太行山和华北平原交接处。该矿相对瓦斯涌出量一般为10.64~29.43 m3/t。经过矿井资料统计和插值处理[6], 得出其等距垂深的瓦斯数据, 结果如表1所示。
2.1 线性回归模型预测
线性回归模型是形如y=ax+b的方程, 运用MATLAB作曲线拟合, 得其方程如下:
y=0.046 3x-0.468 9 (9)
通过公式 (9) 预测其瓦斯涌出量, 结果见表2。
2.2 灰色模型预测
灰色模型是形如y=aeλt+b的方程, 运用MATLAB作曲线拟合, 得其方程如下:
y=183.693 5e0.089 6t-171.843 5 (10)
通过公式 (10) 预测其瓦斯涌出量, 结果见表3。
2.3 灰色线性回归组合模型预测
原始序列:
Y (0) ={11.85 16.43 18.27 21.58 23.56 24.85 26.09}
经过一次累加得:
Y (1) ={11.85 28.28 46.55 68.13 91.69 116.54 142.63}
当m=1时:
X (1) (1) =Z (2) -Z (1) =Y (1) (3) -2Y (1) (2) +Y (1) (1) =1.84;
X (1) (2) =Z (3) -Z (2) =Y (1) (4) -2Y (1) (3) +Y (1) (2) =3.31;
X (1) (3) =Z (4) -Z (3) =Y (1) (5) -2Y (1) (4) +Y (1) (3) =1.98;
X (1) (4) =Z (5) -Z (4) =Y (1) (6) -2Y (1) (5) +Y (1) (4) =1.29;
X (1) (5) =Z (6) -Z (5) =Y (1) (7) -2Y (1) (6) +Y (1) (5) =1.24。
解得:
λ1 (1) =0.59, λ1 (2) =-0.51, λ1 (3) =-0.43, λ1 (4) =-0.04。
当m=2时, 同理解得:
X2 (1) =5.15, X2 (2) =5.29, X2 (3) =3.27, X2 (4) =2.53。
由公式得:
λ2 (1) =0.03, λ2 (2) =-0.48, λ2 (3) =-0.26。
当m=3时, 同理解得:
X3 (1) =7.13, X3 (2) =6.58, X3 (3) =4.51。
由公式解得:
λ3 (1) =-0.08, λ3 (2) =-0.38。
当m=4时, 同理解得:
X4 (1) =8.42, X4 (1) =7.82。
由公式解得:
λ4 (1) =-0.07。
则可求得:undefined。
通过MATLAB解算得到:C=[-35.41;-0.77;42.88]。
即得到预测公式如下:
y=-35.41e-0.163t-0.77t+42.88 (11)
通过公式 (11) 预测其瓦斯涌出量, 结果见表4。
2.4 预测模型对比分析
通过以上3种模型, 分别预测出瓦斯涌出量, 其对比分析如表5和图1所示。
相对误差[7]对比分析如表6所示。
从表6中可以看出, 灰色线性回归组合模型和线性回归模型相比, 平均相对误差减小2.46%;灰色线性回归组合模型和灰色理论模型相比, 平均相对误差减小1.35%。线性回归模型的相关性系数为0.973 9, 灰色模型的相关性系数为0.988 1, 灰色线性回归组合模型的相关性系数为0.997 0。实例证明, 灰色线性回归组合模型比线性回归模型和灰色模型预测精度要高, 数据相关性系数也得到了一定程度的提高。
3 结论
1) 鉴于线性回归和灰色理论模型存在的不足, 笔者系统推导出更加符合现场实际的灰色线性回归组合模型。
2) 各模型预测值和现场实测数据对比结果表明, 灰色线性回归组合模型预测精度分别比线性回归模型和灰色模型提高了2.46%和1.35%, 数据拟合相关性系数也有一定程度的提高。
3) 灰色线性回归组合模型具有自适应性和动态预测特征, 结合运用MATLAB软件可以逐渐提高模型的预测精度。
摘要:矿井瓦斯涌出量预测是新建矿井、新水平和新采区设计的主要依据。针对目前灰色理论预测模型和线性回归预测模型的缺点和不足, 系统地推导了灰色线性回归组合预测模型。结合现场实测数据, 并对比线性回归模型和灰色理论模型预测结果, 发现该模型的预测精度分别提高了2.46%和1.35%, 数据拟合的相关系数也有一定程度的提高。实证结果表明, 灰色线性回归组合模型可以更好地预测矿井瓦斯涌出量。
关键词:瓦斯涌出量预测,灰色线性回归组合模型,线性回归模型,灰色理论模型,MATLAB
参考文献
[1]于不凡.煤矿瓦斯灾害防治及利用技术手册[K].北京:煤炭工业出版社, 2005.
[2]章立清, 秦玉金, 文忠, 等.我国矿井瓦斯涌出量预测方法研究现状及展望[J].煤矿安全, 2007 (8) :58-60.
[3]都锋, 刘恩, 仇海生, 等.回归分析法在预测瓦斯涌出量中的应用[J].煤矿安全, 2010 (3) :26-27.
[4]施式亮, 伍爱友.GM (1, 1) 模型与线性回归组合方法在矿井瓦斯涌出量预测中的应用[C]//中国职业安全健康协会2007年学术年会论文集, 2007:435-440.
[5]何真培, 李树刚, 林海飞, 等.MATLAB在预测矿井瓦斯涌出量中的应用[J].矿业安全与环保, 2011, 38 (3) :32-35.
[6]郑婧, 张振文, 王雪, 等.基于灰色线性回归组合理论的矿井瓦斯涌出量预测[J].工程地球物理学报, 2009, 6 (4) :508-511.
组合回归 第4篇
科学地预测是进行决策的依据和保证。由于民用汽车运力的发展牵涉的因素众多,对其进行预测也是一项复杂的工作。单一的预测方式难以对这个系统取得令人满意的结果。组合预测被提出来之后,其较高的预测精度不断为人们所接受。它能够更有效地利用各种有用信息,更为全面地反映系统规律。本文将灰色预测模型、回归预测模型、BP神经网络模型有机组合,建立一种新的民用汽车运力预测模型,并将组合预测结果与单一预测结果进行比较,得出结论。
1 组合预测模型的建立
1.1 GM 1,X1X幂模型
灰色预测方法是根据过去及现在已知或非确知的信息建立一个从过去引申到将来的灰色模型,从而确立系统在未来的动态行为和发展变化的趋势。灰色模型具有所需信息较少、不必知道原始数据分布的先验特征的优势。
1.2 民用汽车运力的回归预测模型
由于民用汽车运力成逐年上升的趋势,可以考虑用多项回归模型预测。一元多项式回归模型的一般形式为Y=β0+β1X+β2X2+…+βmXm+ε,利用Matlab进行回归拟合,得出较优的模型用于预测,在本文采用三项多项式。
1.3 BP神经网络模型
1.4 BP神经网络组合预测模型
根据样本值首先建立GM 1,赞1赞幂模型和回归模型,以这两种模型的模拟值作为BP神经网络的输入,以样本值为理想输出对网络进行训练,计算网络的训练误差,当误差达到设定的精度则停止训练,这是即可用该网络进行预测。
2 民用汽车运力预测对比分析
表1是某地区1997~2006年间的载货汽车保有量统计,根据这些数据对2007年的载货汽车保有量进行预测。下面分别建立GM 1,赞1赞幂模型、回归模型和BP神经网络组合预测模型。
(2)由表1数据建立三次回归多项式模型:Y=2 176t3-2 528.4t2+17 973t+19 647,令t=1,2,…,10,得出的回归模拟值,见表2。
(3)以GM 1,赞1赞幂模型和多项式回归模型的模拟值作为BP神经网络的输入向量,实际保有量作为理想输出,采用有6个隐层,学习效率为0.2的网络,经过1 003 352次训练,达到1×10-5的既定误差,求得的模拟值,见表2。
(4)预测效果。由表2的对比看出,GM 1,赞1赞幂模型的平均相对误差为0.059118,回归模型的平均相对误差为0.035249,BP神经网络组合预测模型的平均相对误差为0.005343,可以看出组合预测的效果明显优于前两种预测方法。(下转第67页)(上接第52页)
为了预测2007年该地区载货汽车保有量,先利用GM (1,1)幂模型求出模拟值1 778 398,再利用已求出的三次回归多项式,令t=11,获得2007年的模拟值2 016 200,将这两个值作为输入,代入已经训练好的BP组合模型,求得2007年载货汽车保有量的预测值为1 922 750。
3 结论
预测结果表明,基于BP神经网络的灰色回归组合模型在对民用运力的预测上有着单一模型所不具备的优势,主要体现在:(1)通过对一定数量的样本的学习和训练,找出输入与输出之间的内在联系,从而获取问题的解,因此具有自适应功能。(2)灰色幂模型建模所需信息少且短期预测精度较高,多项式回归模型可以通过增加高次项来达到较高的拟合精度,这两种方法为神经网络提供了较为可靠的预测信息,神经网络综合了两种单一模型各自具备的优势,进而利用其自身良好的非线性逼近性,大大提高了预测精度。
参考文献
[1]刘思峰,郭天榜,等.灰色系统理论及其应用[M].2版.北京:科学出版社,2000.
[2]哈根(美),等.神经网络设计[M].北京:机械工业出版社,2002.
[3]吴今培,孙德山.现代数据分析[M].北京:机械工业出版社,2005.
组合回归 第5篇
1灰色线性回归组合模型
经典的灰色GM (1, 1) 预测模型主要适用于单一的指数增长型序列, 对于数据出现异常的情况往往效果不佳。灰色线性回归组合模型在灰色GM (1, 1) 模型的基础上结合一元线性回顾模型, 克服了灰色GM (1, 1) 模型中没有线性因素的不足, 因此, 该模型适用于既有线性趋势又有指数增长趋势的序列。
根据灰色系统的GM (1, 1) 模型可得到:
其形式可记为:
用线性回归方程Y=a X+b及指数方程Y=a eX的和来拟合累加生成序列X (1) (t) , 因此, 可将生成的序列写成:
其中, 参数v及C1, C2, C3待定。
因此得到v的解为:
进而求得:
同理求出:
累加求平均值:
利用最小二乘法可求得C1, C2, C3的估计值
可求得C1, C2, C3的值, 进而得到生成序列的预测值为:
从式中可以看出, 如果C1=0, 则一次累加生成序列为线性回归模型, 如果C2=0则累加生成序列为GM (1, 1) 模型。灰色线形回归组合模型使原线性回归模型中不含指数增长趋势及GM (1, 1) 模型不含线性因素的情形得到改善。
2灰色线性回归组合模型预测
选取我国煤炭2003-2013年百万吨死亡率见表1。
将表1中的数据代入灰色线性回归组合模型, 通过运用MATLAB编程求解, 可得到灰色线性回归组合模型方程, 如下:
3结论
(1) 灰色线性回归组合模型的准确性和精度都符合要求, 能够很好的反映煤矿百万吨死亡率的客观存在与发展态势, 具有实用价值。
(2) 预测值的准确性对煤矿安全目标的制定有重要意义, 可以科学的规划煤炭产量, 合理的制定各种煤炭法律法规, 以便于加强安全管理。
(3) 我国的百万吨死亡率还处在一个很高的水平, 必须加大科技投入, 进一步提升我国煤炭的生产安全性。
参考文献