正文内容
多维数据范文
来源:火烈鸟
作者:开心麻花
2025-09-19
1

多维数据范文(精选10篇)

多维数据 第1篇

在数据库中数据模型是个非常重要的概念, 同样数据模型是数据仓库中一个非常核心的概念。建立在关系模型基础上的RDBMS在OLTP应用领域占据主导地位, 但面对OLAP应用中复杂的查询/统计任务, 建立在关系模型基础上的技术, 特别是在对最终用户的支持方面暴露出明显的弱点[1,2]。由于数据仓库中的数据模型具有多维特性, 因此, 我们称数据仓库中的数据模型为多维数据模型。目前人们仍然在争论多维数据概念模型的图形化表示、多维数据模型的形式化定义、多维数据模型的属性和操作的形式化描述, 每一种产品都提出了自己的模型, 没有统一的标准[3], 因此多维数据摸型仍然是一个活跃的研究领域。

在数据仓库的多维数据模式和联机分析处理中, 要求在逻辑上采用多维的方式来组织和处理数据。因此, 在多维化的数据库中, 每个对象仍然由一系列的属性来刻画。要确定多维模式中的一些属性作为对数据对象性质的观察角度, 这些属性称为维 (Dimension) , 如商品、商店、时间等, 维往往决定着数据对象的属性, 每个维可以由一个或多个属性组成。同时, 反映数据对象特征的属性称为指标 (Measure) 或事实 (Fact) , 如销售量、销售额等。实际上, 并没有什么一般的判据来区分维和指标, 所有划分都是根据分析当前需要而进行的, 是相对的和暂时的。维还可以有层次结构, 如"日期"可以按照"日-月份-季度-年度"组织。多维化的数据库可看作是由其各维构成的多维空间 (Multidimensional Space) , 说明属性的值的组合是该空间上的坐标, 而度量是该多维空间上的值。

2、模型的定义

2.1 多维数据库与多维视图的区别

在大多数文献中, 一般对数据和查询结果不作区分, 但它们之间有着本质的区别。本文分别用多维数据库 (MultiDimension DataBase, 简称MDDB) 和多维视图 (MultiDimension View, 简称MDV) 来描述这两类不同的对象, 多维数据库与多维视图的区别有如关系数据库中的表和视图。多维数据库要描述数据库中各数据的模式、值域及相互关系, 对于具体的数据库来说只有一个多维数据库描述;多维视图是针对每个查询/统计任务的, 是对多维数据库的剪裁、重组和统计的结果, 由一个多维数据库可以导出若干个多维视图。

2.2 数据模型

1.多维数据库的定义

定义1:Ddom=ddom1×…×ddomn (n>0) , 称为维的域, ddomi (1≤i≤n) 都是域。

定义2:Mdom=mdom1×…×mdomm (m>0) , 称为指标的域, mdomi (1≤i≤n) 都是域[4]。

定义3:A=<ID, Ddom>, 称为属性, 是一个由唯一标识ID (一个多维数据库内) 和值域组成的有序偶, 每个有序偶中的所有属性属于相应多维数据库的同一维。

定义4:P={li≤lj|i≠j}, 称为层次聚集路径的集合, li表示维的第i层, li≤lj表示从层次li聚集到层次lj, "≤"表示了一个聚集关系, 可以证明它是个在维层次上的偏序关系。同一个维如时间维可能存在多条路径。层次聚集路径决定了Rool-up和Drilldown的路径。

定义5:在一组属性中, 如果某个属性 (属性组) 的值唯一确定其它各个属性的值则该属性 (组) 是这组属性的关键属性, 其余则为非关键属性。同一组属性的关键属性与非关键属性的划分不是唯一的, 在一种划分中属于关键属性的属性在另一种划分中可能是非关键属性, 反之亦然。所以关键属性与非关键属性的划分是相对的。

维度属性之间可能具有相关性, 这种相关可分为三类[5]:1-1关系、m-1关系和m-m关系, 并不是每种关系都构成函数依赖。设有属性X和Y, 如果X和Y之间是"1-1"关系, 则存在函数依赖X→Y或Y→X;如果X和Y之间是"m-1"关系, 则存在函数依赖X→Y;如果X和Y之间是"m-m"关系, 则X、Y之间不存在函数依赖。

函数依赖是数据库中两个属性集之间的约束, 属性集R的子集X和Y之间的函数依赖用X→Y表示[6]。函数依赖是确定关键属性与非关键属性的基本依据, 可用有向图来描述分组的过程:以对多维数据库的度量属性起说明作用的所有属性中列出的每个属性作为图的一个顶点, 如果属性集Y完全函数依赖于属性集X, 则从所有X中的属性所对应的顶点到所有Y中属性对应的顶点画一条边, 直到处理完所有的完全函数依赖。忽略边的方向, 原来各顶点分离的图形成了若干连通的子图, 每个子图代表多维数据库的一维, 子图中顶点对应的属性则是组成该维的属性。在每个子图中, 将顶点任意分为两组X和Y, 如果这种划分满足:

(1) 对于Y中任一顶点, 至少存在一条从X中的一顶点到该点的边;

(2) 从X中去掉任一顶点, (1) 将不成立;

(3) X中的顶点数目是所有满足条件 (1) 、 (2) 的划分中最少的, 则X是该维的关键属性 (Key) , Y是非关键属性 (Non-key) 。

定义6:D={d1, …, dn}, 称为维标识集即所有维的集合, di (1≤i≤n) 是其域ddomi (1≤i≤n) 的标识, di=<Key, Non-key, P>, 其中,

Key:表示该维的关键属性的集合;

Non-key:表示该维的非关键属性的集合;

P:为上面定义的层次聚集路径的集合。

定义7:MDDB= (D, M, E) , 称为多维数据库, 其中,

D为上面所定义的维标识集;

M= (M1, …, Mm) , 称为指标标识集 (一般为数据分析中要用到的各个统计项) , Mi (1≤i≤m) 是其域mdomi (1≤i≤m) 的标识。度量属性之间要相互独立, 不能有函数依赖关系。

E:Ddom→Mdom是Ddom到Mdom上的部分映射, 即MD-DB对应多维空间中各点的值的集合。

2.获得模型的方法

(1) 确定多维数据库的度量属性M。

(2) 列出数据仓库中可以得到的对 (1) 中确定的度量属性起说明作用的所有属性。

(3) 确定多维数据库的维数和各维的关键/非关键属性。

(4) 找出各维中属性间的层次关系加到P中。

按照上述方法得到的多维数据库的各维具有正交的特性, 如果多维数据库各维不具备正交特性, 会造成查询/统计结果的稀疏矩阵异常。如, 学生编号决定学生所在班级, 但两个属性却分别属于两个不同的维, 如果用户在一次查询中同时选中了这两个维, 表中存在大量无意义的空格, 如表1所示。

2.3 多维视图的定义

与多维数据库一样, 查询/统计结果也可看作多维空间的一系列值, 不同的是多维数据库必须刻画出所有数据间的关系, 而多维数据视图则只要表达一次任务所关注的那些因素。多维视图是根据一次任务的需要对多维数据库的多维空间进行重构, 对数据进行筛选和聚合的结果, 从多维数据库导出多维视图的过程可称为重组 (Reconstruction) 。

表2是一个典型的OLAP应用查询/统计任务的结构。在表2中, 地区和商品种类是多维视图的两维, 其中商品种类又包含了两个有层次关系的属性 (类别和品名) , 对于每维的每个属性, 都包含了一个"合计"的特殊值。

定义8:MDV=<D, f, C, E>, 称为多维视图。其中,

D={A1, …, Ak} (1≤k≤n) , Ai (1≤i≤k) 为定义3中定义的属性。D为对组成视图的维及其属性的描述。若某维的关键属性由多个属性组合而成, 而视图中又包含至少一个关键属性, 则视图必须包括所有关键属性, 且关键属性的组合作为一个元素出现在有序偶中。每个非关键属性作为有序偶的一个元素, 如果该有序偶含有多个元素, 则存在从前一元素到后一元素的多对一映射, 即相邻元素间存在层次关系。

f:2D→D'为D (d1×d2×…×dn) 到D' (A1×A2×…×Ak) 的聚集函数。多维数据库的数据按视图定义的维结构重组后, 新的多维空间某点的值可能对应多维数据库定义的多维空间的一个值集合, f指出怎样从这个值集合得到所需的值。常用的统计函数有求和、平均值、中间值等等。

C:选择条件。多维数据库的所有关键属性是C的变元, 多维数据库中只有满足C的数据才作为f的统计样本。

E:Ddom→f (Mdom) 是Ddom到f (MDom) 上的映射, 即视图对应的多维空间的值集合。与多维数据库的多维空间不同, 多维视图的空间是若干维数相同的多维空间的复合, 如表2代表的多维视图的多维空间就包含了 (地区, 品名) 和 (地区, 类别) 两个多维空间的值。多维视图的维数s应小于等于相应的多维数据库的维数r即s≤r。

3、应用实例

某公司根据市场需要, 决定建立销售数据仓库SALES, 要求该数据仓库能有效帮助管理决策人员分析销售业绩、各种商品的表现等等与经营活动密切相关的因素。我们用上面介绍的方法来构造该数据仓库的多维数据库模型SALES。

销售量 (Amount) 和销售额 (Sum) 是主要统计对象, 即度量属

和上述两个度量属性有关的属性有:分公司标识 (CID) 、分公司所在地区 (Region) 、所在国家 (Country) 、日期 (Date) 、年 (Year) 、月 (Month) 、日 (Day) 、编号 (PID) 、品名 (PName) 、类别 (Item) 。根据前面的分维原则, 各维的定义如下:性M={Amount, Sum}。

现需要从多维数据库SALES中得到"本年度各地区各类商品销售额比上年度的增长量"的多维视图CurrentAmount, 这个查询结果如表2所示。IncreaseSum有两个维度CID和PID, 其中PID包含两个有层次关系的属性PName和Item, 即

参考文献

[1].Gray J, Bosorth A, Layman Aeta1.Data cube:A relational aggregationoperator generalizing group-by, cross-tab, and sub-totals.In:12th Int'1Conf on Data Engineering'96.New O rleans, 1996.

[2].Kimball R.The Data Warehouse Toolkit.New York:John Wiley&Sons, 1996

[3].文健, 李舟军.OLAP模型中慢速变化维技术的研究.计算机科学, Vol.30, 2003.10.

[4].裴健等.联机分析处理数据立方体代数.软件学报, Vol.10, No.6, 1999.6

[5].胡凌燕, 程恳, 陈长清.稀疏数据立方的一种快速计算方法.江汉大学学报 (自然科学版) , Vol.31 No.1 Mar., 2003

多维数据 第2篇

在这一节中,我们主要详细的讲解使用Sqlserver2005 Analysis Service 来建立多维数据库的过程 。

首先我么新建一个Analysis Services 项目,建好以后,我们将会在我们的解决方案资源管理器里面 看到如下图所示的项目结构。

接着,我们新建数据源,然后根据向导一步一步点下去,完成后事实上建立了一个到数据仓库的连接 串。

然后创建数据源视图,也几乎是一步一步按照向导点下去,事实上就是从数据源中选择我们需要的表 到我们的数据源视图里面来,

好了,下面我们开始建立多维数据集,这也是我们今天这节的重点。

注意在这里选择时间维度表。

最后,我们把我们的多维数据库发布到我们的Sqlserver2005 Analysis Service服务器中去。

右键点击项目属性,设置我们部署的目标服务器(如下图)。设置好以后,点击工具栏上的部署按钮 ,把多维数据库部署到我们的服务器中去。

部署完毕以后,我们就可以右键点击多维数据集进行浏览数据了。

因为过程比较简单,以上过程都没有怎么用文字了。到此为止,我们的多维数据库已经建立好了,当 然,如果要应用于具体项目中的话,还要修改多维数据库的很多属性。

多维数据 第3篇

【关键词】双向细目表;测评;聚类数据;分析;问题;发展

【中图分类号】G424 【文献标识码】A 【文章编号】1005-6009(2015)22-0010-04

【作者简介】1.潘虹辉,南京市鼓楼区教师发展中心(南京,210009)质量监测中心[注1]主任,中学高级教师;2.闻建华,南京市鼓楼区教师发展中心(南京,210009)副校长,南京市中学数学学科带头人。

测量工具的研发是中小学教育质量监测的重要举措,是学业评价过程中最为关键的环节,它在很大程度上决定了质量监测与评价的科学性和有效性。双向细目表是一个将“知识细目”和“技能细目”两个维度有机合成的、颇具实效的测量工具。

基于课程标准的双向细目表的研发,旨在检测教师的教学效果、学生的学业成就与课程标准要求的达成程度。它是一个动态的生成过程,其工作纷繁复杂,需要做大量细实的专门研究。就学科测评而言,它包含对知识细目维度的归类和能力细目维度的界定,表中的纵横两列,都会因学科特点、学段、学情、命题要求和制作者的视角而异,如,对试题预设难度系数与实际难度系数匹配度的控制,对学业监测中显性指标与隐性指标的考察与测量等。

当前,阶段性的学业检测数据,通常用来评价学习结果,是学校进行学业测评的主要依据,也是对教师教学质量进行评估的参考要素。对学校教学质量的分析,常用的数据是平均分、优秀率、合格率、低分率和分数段分布。上述几项指标,在一定程度上能够说明学生的整体学习情况和教师的总体教学情况。学校的教学管理者和学科教师,通过班与班的横向比较、班级学科之间的平衡比较、班级与前几次考试的纵向比较,可以找出其中教师的教与学生的学之间的差距。

但这样的数据分析,呈现的是伪问题,只能浅显地说明某名学生的学习存在问题或差距,也只能显示某位教师的教学与其他教师出现了偏差,不能分析出真正的、关键的问题出在何处,更不能诊断出具体或细节性的问题。

教育评估专家袁益民指出,教育评估工作要更加注重以质量内涵建设内在规律为归依,更加关注主体性,实现从外生性增长到内生性发展的转变;关注科学性,实现从行政管理导向到按教育基本规律办事的转变;关注人文性,实现从物到人的转变;关注协调性,实现从量到质、从快到好、从多到精、从点到面的转变;关注多样性,实现从简单划一的大一统管理到多元发展、错位发展和创新发展的转变;关注可持续性,实现从关注当前到关注长远的转变[1]。

随着网络阅卷在中、高考选拔性考试与评价中的全面推行,许多省、市、区(县)、校在各级考试中都已实行网络阅卷,且借助阅卷系统产生大量具体的学生成绩数据。在这样的背景下,对照《教育部关于推进中小学教育质量综合评价改革的意见》,可以看出,传统的学业测评的结果呈现与处理方式,已经不利于对测试本身价值的进一步挖掘,不能够体现“发展是一切教育评价的宗旨”这一根本原则。

相异于原有的学生成绩数据分析,有异于应试教育下的终结性评价,我们通过编制基于试卷的双向细目表,对知识细目和技能细目进行逐项对比,使“聚类数据”[注2]模式下对学业状况的共性与个性的分析更加细实;对所检测的知识点、能力维度和试题的信度等进行即时的全面反馈;对学生的学习情况、教师的教学情况、教研组的教研情况、试卷的命题质量等进行多元分析和评价,从真正意义上让数据发挥作用,过程性地对评价主体、评价目标、评价内容、评价方式和评价过程等进行剖析,侧重纵向比较,兼顾横向比较,从量性评价走向质性评价,使评价结果趋于客观和全面,对学科组、备课组、教师和学生个体的现状诊断与后续改进产生积极效应。

在学业测试之前,我们指导参与实验学校的部分教师制作双向细目表,对考查的知识细目和技能项目(因学科、学段而异)所占的分值分别进行细化处理,根据学情预设每道题的评估难度。如某实验校初中数学测试的双向细目表(部分),见下表。

测试之后,将双向细目表与网络阅卷各小题的分值导入数据分析平台,通过分析平台,输出所需相关数据,进行教学分析、教研分析和学业分析。

1.进行教学分析。

数据分析平台输出的教学分析数据包括:各班级学科的平均分、优秀率、合格率、低分率和分数段分布,最具价值的是导出百分制等级分和正态化标准分[注3]。这些聚类数据能够客观地反映班级和学生个体的学业水平,教师通过比较,可以对班级不同学科之间做出均衡性评价。这样的分析,能够避免应试教育环境下分数至上的消极影响,也能够避免因测试难度不同所带来的测评结果的负面效应。

如在一次测试中,某实验校的三个班级的不同学科之间的“正态化标准分”呈现,见下表。

相对于学科均分,正态化标准分能明晰地反映学科之间的差距。以上表中的正态化标准分做横向比较,可以看出,一班数学的测试结果要比语文和英语两个学科相对好一些。

如,以两次测试的同一学科的正态化标准分做纵向比较,则能反映班级的阶段性变化,见下表。

如果只看入口成绩[注4]与出口成绩[注5],很难判断教学推进情况,但通过正态化标准分做比较,就能清晰地评估推进情况。教师个体借助对教学分析数据的横向与纵向比较,获得适切的自我评价;学校教学管理部门基于数据分析,收集并保存可以表明教师个体发展状况的过程性资料,分析其存在的优势和不足(包含各班级学科之间的平衡发展状况),准确判断其不同特点及发展潜力,形成对其发展过程的适切的认识,提供具有针对性的改进建议,促进学校学科教学的提升与班级学科之间的均衡发展。

2.进行教研分析。

与原先测试项目的成绩分析系统相比,基于双向细目表的学科数据分析平台有较大的优势,它能对阶段性测试的知识点与技能的具体得分情况作聚类数据对比,在整体上对学科教学状况,进行深层次的教研分析,为学科组教研活动提供翔实的参照依据。

以测试后的实际难度系数为例,通过数据分析,呈现出以下知识点细目的年级和其中三个班级的得分情况,见下表。

教研分析对学科组(备课组)进行从诊断性评价[注6]到形成性评价提供了非常具体的研讨条目。基于相关数据的聚类分析,学科组能够细致地了解学生对所测知识点的把握和应用情况;任课教师能够在群体里发现并找到自身的优势与不足;组内同仁通过类比,借助“同事互动”,获取共性的亮点,找寻共存的弱项,在认真研究教情和学情的基础上,及时调整本学科的教学目标、教学容量、教学手段和教学流程,形成发展共同体,改进学科教学。

值得一提的是,学科组要关注学业测评的命题环节。在测试之前,命题者要综合考虑知识点(基础知识、重点和难点)与考查技能相互交汇的吻合度。在测试之后,对照双向细目表中的预估难度系数,学科组要将数据分析平台输出的各小题的实际难度系数与预估系数进行比较,对两者差异较大的测试项目,要判断这些项目与学情和班情的匹配情况,对测试题进行分析、判断和评价,落实改进措施。长期以往,这对组内教师学会高质量地命题,提高学业测评的信度、效度和区分度,是大有裨益的。

3.进行学业分析。

学业分析,是学生在教师指导下自主进行的对自身学业状况做出的比照、思考、诊断和评价。学业分析能够帮助学生逐渐形成合理的自我认识,认清自己的长处和存在的不足,及时调整,改进学业。基于双向细目表输出的聚类数据分析,凸显其对学生个体的学业评价功能。某学生学科知识点的得分对照情况,见下表。

透过这些数据,教师、学生和学生家长可以对学生个体在所测知识点方面的掌握情况有较为清晰的了解。学业评价可以帮助学生对前期的学习状况进行总结与反思,为后续的学习找到努力的方向。学生个体通过自主地查漏补缺,找到自身知识点的缺陷,扬长补短,借助师生互动、伙伴互动和有针对性的辅助学习,逐步提升,改进学业。

上述三位一体的评价分析报告,喻示着教研部门注重价值引领、关注过程服务和在学业测评过程中倡导主体积极参与的重要性。正如袁益民先生所言:“今后,要在评估监测项目的定位中更多地关注有利于现代学校制度建设的教育均衡发展、内涵发展和多样化发展方面的问题;在评估方案的设计中,要突出评估监测的常态化诊断、咨询和服务功能;在指标体系的设定上要多些兼容性的质性指标,少一些不合理的量化指标;在评估主体的地位方面,要鼓励被评主体的积极主动参与和其他利益相关人的多元参与;在评估程序、过程和方法等方面,要多一些交流和建议,少一些压力和高利害的奖惩,使学校真正成为评估的主体。”[2]

需要注意的是,在学业测评过程中,测量工具的研发是一个十分重要的环节。就双向细目表的制作而言,可以有两种模式:1.先做表后命题,这主要针对地区性学业水平测试和具选拔性的测试。2.根据试题做表,这是较具普适性的做法,教师根据测试题做双向细目表,预设评估难度系数,在测试后,对命题质量、教学效果和学业状况做出客观评价。还有,在教师根据试题做双向细目表的时候,对知识点名称的表达不能太细,要适当概括和归类,如英语学科,考点太细,做表不可能逐一列出,像考查it,one,that,those等一类词的用法,就可概括为“代词用法”;对能力或技能维度的表述,不能生搬硬套布卢姆的六个认知能力层次,要因学科特点和学段特征而异,如数学学科有“证明”,英语学科有“猜测”,语文学科有“鉴赏”,历史和政治学科有“评价”,初一学段有“书写”等,这些因素,在对能力维度进行界定时,都是必须要考虑和兼顾到的。

此外,就测评而言,无论是“监测与评价”,还是“检测与评价”,都要顾及学生认可与接受的程度。如对初一年级的学生而言,他们已习惯了小学阶段的教师的有痕阅卷,尽管网络阅卷对双向细目表数据的导入带来了便利,但无痕阅卷却给学生的自我检查、教师的试卷讲评和家长对孩子的评价带来了许多不便。这类瓶颈性问题,是学业测评中有待进行专门研究的。

总的说来,双向细目表的研发及其聚类数据的分析,在学业测评与教学质量监测过程中有着不可低估的效能意义。从宏观上讲,它有利于对基础教育阶段进行较为客观的学业测评,有利于区域性教研评价和学科基地的建设,有利于信息化、数字化校园的构建,有利于学校的全面发展。从微观上讲,它是教师行动研究的载体,有助于提高教师在教学实践中自我反思、发现问题、诊断问题、分析问题、研究问题和解决问题的能力;它是学生学习诊断的把手,有助于提高学生在学习生活中自我评价、自我认识、自我改进和自我完善的能力;在师生和谐的教学情境中,构建促进教师自觉发展和学生自主发展的学习共同体。

【注释】

[1]2014年2月,南京市鼓楼区教育局率先成立全国首家区、县级教师发展中心下设的质量监测中心,旨在建立评估的指标体系,实施监测工作,进行动态监测,进行诊断、矫正和引导,进行科学监测与评估,发布评估结果,推广经验成果。

[2]聚类数据:聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,让在同一个子集中的成员对象都有相似的一些属性。聚类数据是对于静态数据分析的一门统计技术,在许多领域得到广泛应用,包括学习检测、数据挖掘、模式识别、图像分析、生物信息等。

[3]正态化标准分是通过非线性转换的技术,把偏态分布强制扭转成正态以后,每个原始成绩对应的标准分。正态化标准分遵循的使用原则是不同的测验分数可以相互比较,包括学科之间,或同一学科不同考试可以比较。

[4]入口成绩:对比两次考试成绩,前一次的称为入口成绩。

[5]出口成绩:对比两次考试成绩,后一次的称为出口成绩。

[6]诊断性评价:在教学活动开始前,对评价对象的学习准备程度做出鉴定,以便确定教学内容的起点和进度,采取相应措施使教学计划顺利、有效实施而进行的测定性评价。诊断性评价的目的是了解学生是否具有达到新的教学目标所必需的基础知识和技能,设计出可以满足不同起点水平和不同学习风格的学生所需的教学方案,并分别将学生置于最有益的教学程序中。

【参考文献】

[1]袁益民.教育“质量”:是质性特征,还是量化程度[J].高教发展与评估,2012(05):29-32.

一种多维数据模型特征识别方法初探 第4篇

传统的特征识别和优化方法已不太适应于多维数据的处理,目前的研究热点主要集中于新兴的智能优化算法,如遗传算法[6]、人工神经网络[7]、支持向量机[8], 粒子群优化算法[9,10]等。这类算法都是以数据为基础,求解时不依赖于梯度信息,通过训练建立联系,然后进行问题求解。智能优化算法的迅速发展给解决多维数据的优化问题带来了很大的进步。由于它们本质上是模仿生物进化过程或神经网络系统,其选择方向是目标函数,因此特别适用于传统方法难以解决的大规模复杂优化问题。但这类方法不关注数据变量之间的关系,不提供数据特征的可视化,因此给出的数据信息并不够充分。

本文介绍的是作者近年来研究的一种多维数据模型特征识别方法,称为多元选集回归均值(Multivariate Subset Regression Mean,简称MSRM)方法。该方法从数据的本质特征入手,利用MSRM模型的特征向量作为数据模型特征识别的依据,初步探讨了数据变量之间的一些关系特征,并利用这些特征来解决多目标优化问题,同时给出了一种多维数据模型特征的可视化方法。MSRM既可用于识别多维数据的特征,也是一种(数值)求解多元非线性函数极值的方法。下面就介绍该方法的部分研究内容。

1数据特征的提取

局部非参数建模方法是现代建模方法的核心技术之一,它的特点在于可以获取数据的局部特征。但建立模型需要克服很多问题,特别是多维数据,困难更多。 能否不建立传统的函数模型而只是利用数据本身所具有的信息特征就能识别模型的特征呢?

设有p维数据集{ym,x1,m,…,xp,m}m- 1M,它的潜在真函数为y=f(x1,…,xp)。根据非参数建模的思想,为了了解数据的细节特征,将这个数据集按照原来采样的方式分别对每个变量用每一个采样值进行选集运算,其数学定义如下:

定义1假设p维数据集{ym,x1m,…,xp,m}m- 1M有M个采样样本,并且存在关系T(Y,X1,…,XP)。 用 σ 表示关系代数[11]中的选择操作,π 表示投影操作,Φ 表示空集,。当j ,如果下面的操作为真

那么被称为一个选集并表示为其中称为选集值,Kj称为xj的选集数。

选集计算的目的是为了获得数据的局部特征。对每一选集的数据建立其线性回归方程,

(1)中的参数和就是选集的特征参数,也是数据集的局部特征参数。将一个变量的所有选集值的回归方程的参数按定义2进行组合,由此得到数据集关于这个变量的特征模型。

定义2对于可以得到Kj个线性回归函数模型,因此有

用表示,sm C(xj)表示表,因此(2)可改写为

(3)称为(数据集)关于xj的MSRM特征模型, sm PDi(xj)称为(随xj变化的)关于xi的偏导数特征向量,sm C(xj)称为(随xj变化的)响应值特征向量。

定义2中,sm PDi(xj)反映的是每个xj的选集数据关于xi的分布变化规律,因此它是数据随xj变化的一种分布规律。sm C(xj)则能反映当每个xj的选集数据的分布规律不变时其均值大小的变化规律,因此也是数据随xj变化的一种规律。定义2称为MSRM模型计算。应用MSRM模型计算从数据中提取这些特征后, 就成为我们分析和识别数据模型特征的依据。

另外,由于sm C(xj)和sm PDi(xj)都是单变量的函数, 因此可以很容易地将它们的特征分别在单个的二维坐标上绘制出来,从而实现多维数据模型特征的可视化。

2模型特征的识别

由于线性回归方程必定通过均值点[12],由(3)我们有

这里用表示和i分别表示yj和xj的均值。为了说明怎样使用MSRM特征模型来识别数据模型特征,首先我们来证明2个定理。

2.1基本理论

定理1设数据的潜在真函数y=f(x1,…,xp),x1∈[ai, bi]是一个单值连续函数,其定义域为G奂RP。如果连续采样的sm PDi(xj)=0,i∈{1,…,P},j=1,…,p,j≠i则f在xi轴的点xi=(bi+ai)/2是关于y轴对称的。

证明先设p = 2并且。由(2)可知,它表明,当x2连续变化时,它的选集回归方程的系数恒等于0,也即f是关于x1(b1+a1)/2对称分布的。对于sm PD2(x1)=0,情况也是如此。因此,结论得证。

当p>2时,如果sm PDi(xj)=0,i∈{1,…,p},j=1,…,p,j≠i则当xj连续变化时,也即每个xj的所有选集的回归方程中关于xi的系数恒等于0,而这种情况只有当f关于xi=(bi+ai)/2对称分布时才会出现。因此, 定理得证。

定理2设数据的潜在真函数y=f(x1,…,xp),xi∈[ai, bi]是一个单值连续函数,其定义域为G奂RP。如果连续采样的sm PDi(xj)=0或sm PDi(xj)=const.,i∈{1 , … ,p},j=1, …,p, j≠i,且sm C(xj),j=1,…,p只在点xj=(bj+aj)/2处有极值,且这些极值的类型都相同,则f必定存在一个极值,其解为((b1+a1)/2,…,(bp+ap)/2),其极值类型与sm C(xj) 的一致。

证明如果连续采样的sm PDi(xj)=0或sm PDi(xj) =const.,i∈{1,…,p},j=1,…,p, j≠i, 由(4)可知,此时

这里 δj表示0或常数。又由于

这里 ξj表示p- 1个 ξj(i)组成的向量,ai<ξj(i)<bi,i=1, …,p,i≠j所以有

我们将f随xj变化的选集的外轮廓或的轨迹记作fMonxj。由于是的均值,因此它们之间存在正相关的关系,即

其中x=(x1,…,xp)。由(7)和(8)可知,若sm C(xj)存在极值,fMonxj也存在极值,也即有

已知每个sm C(xj)的极值只有一个,则每个fMonxj的极值也只有一个,且它们的极值类型相同,因此f肯定存在极值,且只有一个,其类型与sm C(xj)的一致。

又已知sm C(xj)的极值解为xj=(bj+aj)/2,因此有

这里 ξ0j表示p- 1个对应于xj= (bj+aj)/2的 ξ0j(i)组成的向量。由(9)和(10)可知,sm C'(xj)的极值解就是fxj的极值解中的x0j值。由于f只有一个极值,根据(10)可得

因此求得极值解为((b1+a1)/2,…,(bp+ap)/2。

定理1和定理2证明的是单值连续函数的情况。 在函数的数值计算过程中,由于选集是从函数得来的, 它包含了足够的数据信息,因此可以依据定理1和定理2来识别函数是否存在这些特征。在采样数据的计算过程中,虽然数据并不代表潜在真函数的全体,但就采样集的数据而言它代表了潜在真函数,因此,定理1和定理2也可以作为识别数据模型是否存在这些特征的参考依据。

2.2特征识别及求解流程

MSRM方法不但可用于识别模型特征,同时也是一种求解复杂多元非线性函数极值解的有效方法。应用MSRM方法识别模型特征和求解的具体步骤如下:

(1)定义变量xj的选集值,j=1,…,P。要求选集值数kj≥3;

(2)对数据进行选集计算,获得每个变量xj的所有选集;

(3)对每个选集进行多元线性回归计算,获得回归参数;

(4)按照定义2的方法获取数据的MSRM模型并提取数据的特征向量sm C(xj)和sm PDi(xj);

(5)根据定理1和定理2分析数据的特征向量sm C(xj) 和sm PDi(xj),识别数据模型的特征并进行极值求解。

2.3 MSRM模型与投影

也许MSRM模型可能被认为是函数的一种投影方式,其实这是一种错误的概念。Schaffer函数的三维图形和函数在y Ox1平面的投影图形如图1所示。 Schaffer函数的MSRM模型图形如图2所示。通过两图的比较,我们会发现两者是截然不同的:函数的投影仅仅是函数的外围轮廓,它将函数的内部特征完全“掩盖”了。因此并不具备用来识别多元函数/ 多维数据的特征。而MSRM模型则具有一种“穿透”能力,它能反映出函数/ 数据的内部结构特征。MSRM之所以具备这种“穿透”能力,是因为它采用了选集均值的计算方式,将多维空间中各个维度的变化分别通过MSRM模型反映出来。因此,它适合于用来识别函数/ 数据的特征,特别是多元函数和多维数据的特征。

同时,由于数据的特征向量sm C(xj)和sm PDi(xj)是一元函数,它们反映的又是数据模型的特征,因此它们分别在单个二维坐标上的图形特征也就是数据模型随变量xj变化的特征。综合所有的sm C(xj)和sm PDi(xj), 我们就能对多维数据模型的特征有一个直观全面的了解。

3仿真应用

本节将通过2个仿真实例介绍怎样应用MSRM方法来识别函数/ 数据的特征。

3.1多元Schaffer函数

多元函数即p > 2,本例设p = 3。三元Schaffer函数的数学表达式及函数定义域为

先将三元Schaffer函数进行离散化,采样间隔为0.1,命名数据集为S1。由于是4维空间,因此无法直观识别数据的特征。

应用2.2节所述的方法,用MSRM方法得到三元Schaffer函数的MSRM特征模型,如图3所示。由于所有的sm PDi(xj)=0,根据定理1可知,该函数在坐标系的x1=(1+(- 1))/2,x2=(1+(- 1))/2,x3=(1+(- 1))/2,点是分别关于x1,x2,x3轴对称的。再由于sm C(x1),sm C(x2),sm C(x3)分别在点x1=(1+(- 1))/2,x2=(1+(- 1))/2,x3=(1+(- 1))/2有极值,且类型都是极大值,根据定理2可知,该函数在原点(0,0,0) 有一个极大值。三元Schaffer函数的模型特征如图3所示。

3.2 sm PD=const.的函数

本例主要说明,当sm PDi(xj)=const.时,用MSRM方法识别数据模型特征的情况。函数表达式及定义域如下所示:

先将该函数进行离散化,采样间隔为0.1,命名数据集为S2。用2.2节所述的方法,用MSRM方法得到该函数的MSRM特征模型如图4所示。从图中可知, sm PD2(x1)=const.,sm PD1(x2)=const.。由于sm C(x1),sm C(x2) 分别在点x1=(- 2.5+(- 3.5))/2,x2=(2.5+1.5))/2有极值,且类型都是极大值,根据定理2可知,该函数在点(- 3,2)有一个极大值。 (13)函数的模型特征如图4所示。

4结语

多维数据模型特征的识别,由于其广泛的用途,一直都是人们重点研究的对象,但也由于其固有的复杂性,阻碍了人们对它们的认识。本文所介绍的MSRM方法初步探讨了其在高维数据模型特征识别方面的一些应用,并对其数学理论的可行性进行了证明。MSRM方法的一个好处就是将一个复杂的多维对象转换成了多个相对简单的二维对象,并可通过图形直观地了解多维对象模型的特征。这种转换并不是通过某种降维方式后得到的,而是MSRM算法的结果,因此,它反映的是原始数据的原始特征。

限于篇幅的原因,本文只讨论了当sm PDi(xj)=const. 和sm PDi(xj)=0时对数据模型特征的识别情况。要说明的是,若sm PDi(xj)≠const.和sm PDi(xj)≠0,或者数据具有多个特征的场合,这时的情况就要复杂得多,这也是我们下一步继续要讨论和研究的问题。

摘要:如何从多维数据中选择或提取对识别或分析有效的特征已成为当前的研究热点和难点。针对这一问题,提出了一种基于非参数建模思想的特征提取方法以及利用这种方法进行数据模型特征识别的算法。首先,利用数据的每一变量的取值进行选集计算,然后计算每一选集的线性回归模型;其次,利用选集的回归模型参数组成模型的偏导数特征向量和响应值特征向量,作为识别数据模型特征的依据。由于这两种特征向量都能客观地反映数据的特征,因此,综合它们的特征就能识别出数据的模型特征。并且这两种特征向量都是一元的函数,因此可以通过它们的二维图形来直观地认识多维数据的模型特征。该方法的可行性可从数学上得到证明。给出了初步的研究结果。

关键词:多维数据,选集,特征提取,模型特征识别,可视化

参考文献

[1]李国杰.大数据研究的科学价值[J].中国计算机协会通讯,2012,8(9):8-15.

[2]公茂果,焦李成,杨咚咚,等.进化多目标优化算法研究[J].软件学报,2009,20(2):271-289.

[3]孔维健,丁进良,柴天佑.多维多目标进化算法研究综述[J].控制与决策,2010,25(3):321-326.

[4]BERGH F V D,ENGELBRECHT A P.A cooperative approach to particle swarm optimization[J].IEEE Transactions on Evolutionary Computation,2004,8(3):225-239.

[5]WANG Y P,DANG C Y.An evolutionary algorithm for global optimization based on level-set evolution and latin squares[J].IEEE Transactions on Evolutionary Computation,2007,11(5):579-595.

[6]雷英杰,张善文.MATLAB遗传算法工具箱及应用[M].西安电子科技大学出版社,2014.

[7]Simon.Haykin.神经网络原理[M].机械工业出版社,2004.

[8]邓乃扬,田英杰.支持向量机:理论、算法与拓展[M].科学出版社,2009.

[9]纪震,廖惠连.粒子群算法及应用[M].科学出版社,2009.

[10]李炳宇,萧蕴诗,吴启迪.一种基于粒子群算法求解约束优化问题的混合算法[J].控制与决策,2004,19(7):804-812.

[11]王珊,萨师煊.数据库系统概论(第四版)[M].北京:高等教育出版社,2006:52.

多维数据 第5篇

【关键词】绩效分析;多维动态面板数据;创业板

一、引言

2009年10月,首批28家创业板公司在深交所挂盘交易,这是中国资本市场一件具有里程碑意义的事件。2011年11月,距首批28家创业板公司登陆深交所上市交易两周年之际,新任中国证监会主席郭树清先生推出了创业板退市制度。创业板在国内是一个新鲜的事物,故对创业板的绩效分析没有完善的方法可供借鉴。不过,很多的学者利用各种统计方法对中小板及各行业上市公司进行过一些研究。林森采用stoNED方法,结合DEA与SFA方法的优点,对中国商业银行1996年~2005年间的绩效进行评价,认为我国国有股份制商业银行的经营绩效显著低于非国有股份制商业银行。本文选取首批登陆创业板的28家上市公司2009年至2011年的经营数据作为研究对象,采用多维面板数据分析方法,利用因子分析对这些上市公司的经营绩效进行评价,为创业板公司经营业绩的评价方法提供一种新视角。

二、方法简述

(1)思想原理。利用多元统计中的因子分析法,对多维面板数据进行动态处理。根据原始变量相关性的大小对原始变量进行分组,使得同组内变量间的相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,通过几个主因子的方差贡献率作为权重来构造综合评价函数,简化众多原始变量及各指标间的重复信息。对多维面板数据进行动态处理,可避免仅用一个截面数据进行绩效评价的片面性,同时也可以深度挖掘潜藏在面板数据中的有效信息。(2)具体步骤。搜集数据,构造原始数据矩阵;将原始数据正态标准化,以使不同指标的数据有比较意义;计算各年份的相关系数矩阵;计算各个时间截面相关系数矩阵的特征值及特征向量;根据因子贡献度选取主因子,构造主成分的线性表达式;建立并计算各个时间截面的样本综合评价函数,构造综合评价矩阵;对综合评价矩阵进行因子分析,得出因子得分,按照因子得分对各上市公司进行排名。

三、实证分析

(1)数据选取。采用2009年10月30日在深交所首批上市的28家创业板公司2008年至2011年的年报数据进行分析,数据来源于银河证券海王星交易软件。根据年报数据,考虑创业板上市公司的资产负债情况、利润构成情况、盈利及成长能力情况以及每股财务情况,共选取了如下11个具体指标:资产总额、资产负债比、利润总额、净利润、净利润现金含量、主营业务收入、净资产收益率、净资产增长率、每股收益、每股净资产、每股现金流量。(2)分析过程。第一,选取28家上市公司2008年至2012年的年报财务数据中的11项指标,以每年为一个截面,分别对每个截面数据进行主成分分析。得到一个各年份的综合评价矩阵。第二,对综合评价矩阵进行样本适度检验。KMO检验值为0.517,大于0.5,说明样本容量是可行的。Bartiett球度检验的卡方值为47.925,P值为0,显著性水平小于0.05,说明可以对该面板数据进行因子分析。第三,按照方差贡献率提取了两个主因子,根据因子分析方法得出因子总得分计算公式为:F=0.589f1+0.411f2,依此得出,28家上市公司的绩效排名(表1)。第四,结果分析。表1给出了分析的结果。将该结果与2011年年底,各上市公司股价市盈率进行比较,发现这两个排名比较接近。这说明,用该方法对这些上市公司的经营绩效排名基本符合市场预期,该绩效排名也能从一定程度上解释上市公司的股价水平。

四、小结

本文提出了一种对上市公司经营绩效分析的新方法——多维面板动态因子分析法。介绍了该方法的思想原理、具体步骤,并利用该方法对首批上市的28家创业板公司进行了实证分析。从实证分析结果看,该方法的排名与上市公司股价的市盈率基本吻合,说明该法在某种程度上可以用来衡量上市公司的经营绩效并解释其股价的波动。

参 考 文 献

[1]林森.基于StoNED方法的中国商业银行绩效研究[J].统计与决策.2009(7)

[2]程华.我国上市银行绩效研究的新视角[J].统计教育.2011(11)

[3]谢晓菲.银行绩效评估新方法--经济增加值和平衡计分卡的互补融合[J].企业导报.2010(3):175

多维数据 第6篇

早在1980年, 著名未来学家阿尔文·托夫勒在其《第三次浪潮》中首次提到“大数据”一词。在20世纪90年代, “数据仓库之父”比尔·伊蒙 (Bill Inmon) 更明确提出了“大数据”的概念, 直至2009年, 随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展, 信息社会已经进入了大数据 (Big Data) 时代。大数据改变了人们的思维模式, 将数据分析的思想认识从“向后分析”变成了“向前分析”, 已经不断地渗透到各行各业, 国内学者对其进行了大量研究, 近年来也获得了很多研究成果, 为了更好把握大数据的发展方向, 对其研究成果进行分析是很有意义的。

二、数据来源及处理

以“中国知识资源总库” (CNKI) “中国期刊全文数据库”为数据源, 检索策略定为:篇名=“大数据”or“海量数据”or“Big Data”or“Extensive Data”OR关键词=“大数据”or“海量数据”or“Big Data”or“Extensive Data”, 检索时间截止到2013年12月进行研究。对检索出符合要求的大数据研究文献4, 333篇进行下载, 从目标数据集中去除非研究性文献、重复文献、广告推销等与大数据研究内容不相关的文献, 对于缺失值较少又可以准确填充的内容进行补充, 最终保留了相关文献2, 910篇, 对其进行详细分析。

三、文献的多维结构分析

(一) 时间维分析。根据表1, 大数据研究论文数量整体呈增长趋势, 1985年第一篇有关大数据 (海量数据) 的研究论文发表于CNKI期刊网, 在2005~2009年发展态势趋于平缓, 2009年后增长速度加快, 尤其是2013年, 数量达到2012年论文的4倍多, 迎来了大数据研究的高潮。由于计算机和移动设备, 企业、医院等信息系统正在持续不断创造出大量信息, 使得处理、分析数据难度增加, 吸引了更多学者的研究;国外大数据的研究氛围与重视程度、各企业之间的竞争, 对我国大数据研究起到促进作用;国家政策也起到了推波助澜的作用, 例如2012年12月中国国际经贸大数据研究中心成立等。

(二) 期刊维分析。通过分析发现, 共有984种期刊刊载了大数据研究论文, 只刊载1篇论文的期刊共568种, 占到期刊总量的57.72%, 可见越来越多的期刊开始关注大数据研究并刊载相关论文, 大数据研究正处于迅猛发展阶段。刊载大数据研究论文大于10篇的期刊共有56种, 大数据研究领域33.78%的论文刊载在5.7%的期刊上, 期刊比较集中, 核心期刊群基本形成。从刊载论文数量排在前十名的期刊来看, 大数据研究论文更多地刊载在与计算机、信息有关的期刊上。

(三) 作者维分析。本文提取第一作者进行分析, 领域论文第一作者共2, 674人, 如表3所示, 发表量为1篇的著者数占93.53%, 超出了洛特卡定律60.79%的经验值, 而发表量为2篇的著者人数只占到4.82%, 远远低于洛特卡定律25%的经验值。为了解该领域活跃作者, 根据普赖斯定律, 确定高产作者的计算公式为:

(四) 基金维分析。在2, 910篇研究论文中, 有基金资助的论文共783篇, 占论文总数的27%, 共获得基金资助1, 339项 (次) , 篇均基金资助0.46项 (次) 。根据基金资助级别分成4大类:国家级、教育部与科学院资助、省部级、其他项目资助, 如图1所示。通过基金资助, 会吸引更多科研人员开展研究, 尤其是地理位置偏僻, 经济水平不高, 科研资源有限的西北地区。

四、关键词共词分析

从图2可以看出, 频次最多的是“大数据”与“海量数据”, 处于边缘的关键词较多, 说明大数据研究范围很广, 总体上研究热点集中于大数据挖掘与分析、大数据技术、大数据应用和机遇与挑战四个方面。

五、结语

通过对大数据领域研究的2, 910篇论文进行收集、整理, 利用文献计量法和共词分析法, 借助Excel和Ucinet工具, 获得国内大数据研究的发展态势, 确定重点文献, 了解发文趋势、作者及基金资助情况, 发现该领域重点及热点问题, 为本领域今后的研究工作提供参考和启示。本文在各维度的分析中缺乏动态的考量, 在之后更深入的研究中可以引入。

参考文献

[1]冯芷艳, 郭迅华, 曾大军, 陈国青.大数据背景下商务管理研究若干前言课题[J].管理科学学报, 2013, 16 (1) :1~8

[2]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].战略与决策研究, 2012, 27 (6) :649

[3]陈维军.文献计量法与内容分析法的比较研究[J].情报科学, 2001, 19 (8) :884~886

[4]王曰芬, 路菲, 吴小雷.文献计量和内容分析的比较与综合研究[J].图书情报工作, 2005, 49 (9) :70~73

[5]冯璐, 冷伏海.共词分析方法理论进展[J].中国图书馆学报, 2006, 32 (2) :88~92

多维数据 第7篇

目前,世界各国政府均高度重视大数据相关领域的研究,陆续从国家战略层面推出相应的研究规划。如:2012年3月,美国奥巴马政府投资两亿美元,实施“大数据研究和发展计划”,致力于从大规模复杂数据中提取知识和观点,以提高大数据分析能力,研究成果将应用于能源、健康、金融、安全和信息技术等领域;2012年4月,英国、美国、德国等国家的研究者联合推出“世界大数据周”活动,希望通过该活动促进政府推进战略性大数据的研究;2012年7月,日本推出“新ICT战略研究计划”,“大数据应用”是该计划的重要内容。尽管英国经济不景气,但英国政府依然投资1.89亿英镑(约3亿美元)用于大数据研究,我国的大数据研究也步入高速发展期,在“十二五”规划期间,工信部就将海量数据存储、数据挖掘等技术作为关键技术创新工程。考虑到大数据应用的迅猛发展趋势,2013年也被媒体戏称为“大数据元年”。除在业界引起巨大反响外,大数据在学术界也引起了广泛的研究兴趣。早在2008年和2011年,国际顶级杂志《Nature》与《Science》就分别出版专刊《Big Data:Science in the Petabyte Era》和《Dealing with Data》,探讨大数据在经济与管理领域、算法研究领域、环境保护领域、生物医药领域等多个方面应用前景。麦肯锡全球研究所在一份报告指出,“美国需要150万精通数据的经理人员,以及14万至19万深度数据分析方面的专家”。为此,已有美国大学专门开设大数据技术的相关课程,以培养未来的“数据科学家”。同时,许多企业也向从事大数据相关研究的大学提供资助,赞助与大数据相关的数据分析、数据处理和数据应用活动。

由于大数据的内涵随着其处理技术、应用范围的变化,也在不断地发展、深化,目前企业和学术界也未形成统一的定义。维基百科从软件处理能力的角度,认为大数据是在一定时间内,无法用常规软件进行处理的数据集合[3],Gartner则从信息技术的处理能力方面给出大数据的定义[4];美国国家科学基金会则认为大数据是由各种资源(包括科学仪器、传感器、各种软件)生成的分布式数据集[5]。尽管在理解和表述上存在不同,但对于大数据与“海量数据”和“大规模数据”等概念的相关关系,大数据在数据量、数据复杂性和产生速度等方面的特征,以及大数据所需要的新的处理能力方面,还是取得了一致。在此,本文对大数据的概念也不作过多的阐述,仅是对大数据的本质,提出一些自己的见解。笔者认为大数据不仅仅是呈现和记录下来的数据,更是一种思维方式,这种思维方式就是基于多维视角去看待和处理数据。因此,多维度才是大数据的内在特质,而在数据量上表现出来的“海量”、“大规模”仅仅是大数据的表象。

1 大数据国内外研究现状

在对大数据进行处理的技术方面,主要是针对大数据环境下的大体量异构数据,通过抽取数据特征/属性构造高维语义空间,建立相应的索引,从而实现对数据资源的有效组织和管理[6],而MapReduce是最常用到的技术手段之一。

大数据之大不仅在于它的大容量,更要挖掘海量数据中的大价值[7],通过大数据,人们可以更加灵活和准确地预测数据和作出决策[8]。大数据对商业模式具有创造性破坏的潜能[9],对现有的研究过程和方法带来巨大的变革[10]。大数据应用方面,主要集中在对于数据进行分析,并用于对各个领域的决策质量提升方面,在Chen等将大数据分析技术用于构建教育云平台[11],Jun等从定量的角度,利用大数据营销分析了技术的转移情况[12]。Bates等将大数据用于健康管理,用于识别高风险和高成本的病人[13]。高源等(2014)认为大数据是重要的战略资源,并利用新浪微博的大数据进行网络营销案例分析,据此提出网络营销方法研究的新思路[14]。李金海等针对网络口碑危机的不可控性,提出了基于在线评论数据挖掘建立口碑危机预警模型,实现企业网络口碑危机智能化预警功能[15]。王宗水等以3家知名火锅连锁企业为研究对象,根据MapReduce原理收集、处理样本数据,采用OLAP技术实现大数据环境下顾客网络满意度的可视化,为企业网络口碑建设及网络营销策略的制定提供参考[16];在舆情监控方面,李金海等对大数据核心技术MapReduce进行扩展,构建基于大数据的网络舆情的文本挖掘模块,用以进行舆情预警[17]。李祝启等以合肥市政府网站舆情日志为例,利用Awstats软件对相关日志文件进行大数据挖掘,给出了优化政府决策方式的建议[18]。

通过对国内外大数据领域研究和应用成果的梳理,我们发现,一方面,大数据相关的研究受到业界和领导层的普遍重视。另一方面,大数据的应用仍处于起步阶段,现有的研究大多立足于信息与计算机科学,从大数据的获取、存储、处理、挖掘和信息安全等方面解决技术问题,鲜有从管理的角度分析大数据的给管理模式、数据使用方式、创新创业等方面带来的变革与冲击。本文将从大数据的本质出发,阐述大数据的多维本质及其特征,并据此分析大数据思维在数据使用方面给管理模式带来的变革,进一步指出伴随大数据可能产生的问题。

2 多维度的大数据特征分析

大数据迅速增长的“量”仅仅是表象,所产生数据的多维度才是大数据的本质。随着互联网、移动互联网和物联网的发展,我们已经迎来了一个海量数据的时代,现在每一天所记录的数据量比人类有史以来记录的数据量总和还要多,常用的数据量级也迅速由GB(10的9次方)发展到TB(10的12次方)、EB(10的18次方)甚至ZB级别(10的21次方)。PCWorld预测,到2020年时每年产生的数据量将达到40万亿GB,合人均5.2TB。从这个角度来看,大数据的确表现为大量的数据,但进一步思考不难发现,更深层次的大数据是利用数据从不同维度对世界的描述,而这些描述间存在着千丝万缕的联系。正是这些有意义的联系,才是使数据具有应用价值的关键,才是使大数据成为数据宝藏的根本原因。因此,多维度才是导致数据量指数级增长的关键,才是大数据的本质。从总体上看,正是由于大数据的多维度本质,才使得不同维度间的数据间可以建立千丝万缕的联系,并引爆了大数据在多个行业的应用。而这种数据间隐藏的联系,使大数据与传统的“小数据”具有本质的区别,主要体现在以下几个方面。

(1)大数据中,数据冗余和数据冲突在大数据中不可避免并且大量存在。一方面,由于大数据是对同一个客观世界的描述,数据间能够通过多种联系相互映证,从而使得单一数据所携带的信息量减少甚至无新的信息,但正是由于这种数据的冗余,数据所携带的信息可以多方验证,使得由于单一数据错误而造成信息失真的概率大大降低,从而保障了信息的正确性。与此同时,大数据也呈现出价值低密化的特征,随着数据量的几何级数增长,大数据本身的价值增长相对有限,使得单位数据的价值越来越小。另一方面,由于描述事物的维度不同,在两两数据间难免出现各种差异,且这种差异会普遍存在,从而导致数据冲突甚至出现数据矛盾,在这种情况下,多维度间数据的配合就可以有效地调和这种矛盾。就如同三维空间中的一段线段,它在不同坐标轴上的投影长度可能完全不同,只有综合三个维度的投影,才能全面地认识这条线段。

(2)数据价值密度降低,大数据中的数据既重要又不重要。一方面,从总体上看,数据是大数据的基础,没有数据就没有办法构建大数据体系,因此,数据对于大数据来说至关重要。另一方面,由于大数据中存在大量的数据冗余,使得任意的单一数据对于信息表达的作用微乎其微。单一数据的错误或丢失,都可以通过其它数据进行修正或补充,每一条数据的价值比传统数据模式下都大大降低。因此,对于整体大数据而言,单一数据在正确性和信息表达方面又是不重要的。

(3)大数据模式下,信息的获取途径更多,但对信息获取的手段提出了新的要求。基于大数据,同一种类型的信息可能通过不同维度的数据来表达,这大大拓宽了信息获取的数据来源,如美国通过对家庭用电数据的分析,找出在家违法种植大麻的家庭,而不是通过警察的挨户排查数据。然而,要想通过用电数据获取到违法犯罪的信息,就必须要有相应的用电数据分析技术,通过该技术将用电数据与大麻的种植数据关联起来。

(4)大数据更加关注数据间的结构关系,传统的小数据更加关注数据本身。通过数据间的关系来发掘数据价值,往往比关注数据本身更加有效,更加准确。如Google利用搜索词条,通过搜索情况与疾病间的关系,对流行病的爆发进行了预测,该预测结果比医院通过就诊情况的预测早一周左右。

3 大数据思维下的管理决策方式的转变

大数据生产了一系列的知识,也带来了思考方式的根本性转变,重构了我们应该如何使用信息的关键问题[10]。尽管基于大数据的决策和基于传统数据的决策在表面上区别并不明显(都是由数据处理系统和决策系统两个部分组成),但两种情况下的决策在细节处理上具有本质的区别。两种数据情境下,决策模式的对比关系如图1所示。

首先,在数据处理方面,基于传统数据的决策收集和处理的是与决策直接相关的数据,数据的结构化程度较高,可采用统计方法(汇总、聚类、因子分析)、可视化技术(图表、虚拟现实等)对数据进行分析和处理,从数据中直接提取信息;而在大数据情境下,数据将以声音、图像、视频等多种方式呈现,数据的结构化程度较低,需要通过ETL、数据挖掘、语义分析等多种数据处理才能获取到信息。考虑到大数据的多个维度,通过不同维度数据得到的信息(直接信息和间接信息)可以通过信息甄别系统进行信息验证,从而保障信息的正确性。如通过地质、水文信息、光照等数据的分析,就可以对统计局的粮食产量信息进行验证,这一点在传统单维数据模式下是很难实现的。

其次,在数据的利用方式上,传统的“小数据”利用的是数据本身所蕴含的信息,而大数据更注重发掘和利用数据间的关系。由于传统数据决策模式下,数据的质量直接影响信息的质量,传统数据处理系统对单个数据(元数据)准确性的要求较高。而大数据模式下,单个数据的错误可以通过大数据分析方法和维度间的关系进行修正,因而大数据情境下的数据处理系统更关注如何进行数据间关系的发掘,并利用不同维度间数据的关系统进行数据修正,数据本身并不是大数据所关注的重点,大数据在数据使用方面更加关注数据间的关系。

再次,在决策系统结构方面,受认识局限性的影响,传统决策系统注重不确定性和风险的管理,所建立的决策模型大多是结构化的,而在大数据管理情境下,从理论上可以通过多维信息,给出管理问题的全息结构,决策的重心将转向优化和博弈,决策问题也将由传统的结构化决策转变为非结构化决策。

4 大数据的潜在管理问题

作为一种新的思维模式,大数据模式给管理方式带来了诸多变革,与此同时,也带来了种种新的管理问题。

(1)大数据仅仅是一种思维方式和技术手段,在使用时也有其限制条件和适用范围,不能迷信。首先,大数据在使用的过程中,必须结合相应的语境(数据环境),脱离语境,大数据就会失去意义。如对Twitter、Facebook和其他社交媒介的数据进行分析,网络上的“关系强度”数据可能显示同事间相处的时间比恋人还多,单从这种数据上,并不能得出完整的结论。其次,大数据作为一种思维模式,本身是客观的和科学的,但在大数据操作的过程中,不可避免地会增加主观的成分,从而影响大数据思维效果的发挥。如大数据由于非结构化特征明显,在使用前需要进行数据清洗,在数据清洗的过程中,决定哪些属性和哪结变量被计算就是具有明显主观特征的过程。

(2)更多的数据并不一定是更好的数据,大数据时代更需理解抽样的重要意义。数据量的增加,并不一定能获取到更好的信息,曾经的《文学文摘》发放了一千万份问卷,来做美国大选的民意调查,却得到了一个巨大的“乌龙”,盖洛普仅发放了一千份问卷,通过科学地设计调查对象,反而找出了民意的真实走向。数据量的增加,并不一定会带来数据质的提升,数据的量与质,从本质上没有直接的联系。大数据所呈现的是大量的数据资源,但所有这些资源也不能代表“总体”,只是特殊的子样本。以Twitter为例,作为大数据挖掘的热门资源,Twitter拥有大量的用户,但Twitter用户也只是总体的子样本,况且它通过API向公众开放的数据仅仅是碎片化的资料。因此,大数据并不等同于总体数据,在大数据时代更应该正确看待抽样的重要性,认识到大数据也仅仅是抽样,丢失了抽样科学性的大数据,数据量再大也是没有意义的。

(3)数据安全、隐私与数据开放等问题亟待解决。正常情况下,数据的获取、整理是一件复杂、费时、费力的事,现有围绕大数据的研究,大多源于人们觉得大数据提供了获取大量数据的简易方式,然而数据使用涉及到的问题远比想象复杂。尽管征求所有数据拥有者(数据产生者)的同意是不现实的,但数据的公共可得性也并不意味着它能够被任何人使用,网络数据的收集和分析往往也会影响研究对象的权利和福利,甚至存在伦理问题。因此,诸如谁能得到数据?在什么情况下得到数据?数据开放有没有限制条件,数据开放的程度是应该免费(free),机器可读(machine readable)还是仅仅可获得(available)?要解决以上这些问题,还有赖于政府从法律、法规层面加以设计。

(4)数据的“贫富不均”问题需重视。一方面,对数据的拥有本身就是不均衡的。尽管社交媒介研究数据的大量迸发表明大数据获取是直接的、容易的,但“只有社交媒介公司才真正的拥有大数据,特别是交易数据”,使得系统内的研究者和系统外的研究者天生就存在数据资源上的“贫富不均”。此外,大数据技术所使用的API接口、数据抓取和分析技术需要使用者有较强的计算机背景,掌握相应的计算机技术就才有可能拥有相关的数据。这在技术上也对数据的分配产生了影响,容易产生大数据富人(the Big Data rich)和大数据穷人(the Big Data poor)[10]。

5 结论

多维数据 第8篇

21世纪以来,随着电力改革的逐步深入,电力市场化、规范化管理体系逐步建立、完善,电力信息化得到了前所未有的飞速发展,各电力企业的信息化基础建设已基本完善。目前,各种电力信息化应用系统,如调度自动化系统、办公自动化系统、售电自动化系统、客户服务系统等的建立,在电力业务的产、输、配、售等各环节实现了信息化,有效地支撑了企业日常业务的发展和壮大,也积累了大量的业务数据。电力营销工作的顺利进行,离不开这些日益庞大的业务数据,如何有效地利用这些已有的业务数据,将业务数据转化成管理数据,为电力营销管理工作提供服务,提高企业管理水平,是目前各电力企业信息化所面临的主要问题之一。

国内外许多行业如银行、电信等的信息化发展过程表明,当传统的联机事务处理(OLTP)应用系统不能满足企业管理信息需求时,企业开始构建基于联机分析处理 (OLAP) 技术的决策支持系统来解决问题,并取得了巨大成功,大大提高了企业经营管理水平。多维数据分析是一种基于OLAP的高效数据分析方法,能有效地将企业数据由业务型向管理型转化,是企业提高经营管理水平的有效方法。

Business Objects Enterprise XI是一种自适应、基于服务的商务智能应用开发平台, 根据实际应用需求, 可集成多个Business Objects XI套件产品如:Crystal Reports XI、Web Intelligence、Desktop Intelligence、Performance Manager等。该平台在报表分析、查询分析、企业绩效等企业级应用中, 提供了多维数据分析服务, 能满足大多数用户的信息需求。在基于服务的应用模式中, 多维分析结果可以作为已有系统的功能子集, 集成到企业现有的综合管理平台中。

1 多维数据分析

1.1 概述

多维数据分析是基于联机分析处理(OLAP)技术的一种数据分析方法,它的核心是“维”。“维”是人们观察世界的角度。多维数据分析,即用户根据经营管理信息需求,从多个现实世界角度观察数据,并对数据进行相应处理,从而获得有用信息的方法。多维数据分析基本分析操作有钻取、切片、切块、旋转,它让用户能快速、一致、灵活地掌握从总体到局部的企业经营情况,将企业运营的隐藏信息直观呈现给用户。

根据以上对多维数据分析的基本定义,基于Business Objects平台进行的企业多维数据分析,具有以下特点:

(1) 多维性:这是多维数据分析最主要的特点,也是它的标志。多维性不仅体现了人们对世界多角度地观察,还体现了多层次地观察。例如:对于售电量这一数据对象,不仅可以从时间维上察看,还可以从年、季、月、周、日等时间层次上查看。数据分层查看,既符合客观世界事物的运行规律,也能让用户从总体到局部全面地掌握其运行情况。

(2) 实时性:体现了用户对信息在时间上的要求。不仅包含对多维数据分析结果快速获得的要求,而且要求多维数据分析能实时、适时地接收用户数据。

(3) 可分析性:从不同角度对数据进行平均值、最大值、最小值、排序、汇总、返回记录限定等处理,提供给用户强大的数据汇总、即时查询等数据分析能力。

(4) 开放性:支持多系统平台和多数据源。不论数据量有多大,也不管数据存储在何处,以何种方式储,都能获取到所需的数据,并且能将分析结果以多种方式提供给处于不同系统平台上的用户使用。

(5) 扩展性:即具有后期增加服务功能。对各用户分析需求实行模块化管理, 后期新增功能,通过积木式拼装或授权实现,并能随时对已有分析进行数据观看维度更改。

(6) 安全性:保障信息的安全,如防止欺诈用户的产生,用户分级管理, 数据分析结果只提供给相关用户使用,多个用户使用同一分析时,根据用户所属的安全级别,让他们只能查看相应层次的信息。

(7) 一致性:不同角度、不同层次、不同时间的用户看到的数据应该是一致的,用户在使用分析时不能对数据进行更改。

1.2 数据处理过程

当前电力企业的大电网是从原有的小电网多次联网形成的,其营业机构大都按原有区块划分,电力营销基础业务数据全部集中于各地市的信息系统中。因此,在电力营销中应用多维数据分析时,数据处理流程如图1所示。

首先,各分局或营业站的信息管理系统、自动化办公系统等所采集的业务数据以不同方式存放于各自系统的数据库中,经过数据抽取、转换、清洗、装载过程,先迁移到大电网统一构建的数据仓库中,或直接将多维分析所需数据迁移到Business Objects平台数据库。数据迁移完成之后, 由数据分析人员分析源数据结构,再根据电力营销管理决策支持需求,确立多维数据分析目标,构建多维数据模型。最后根据具体应用要求,对度量对象进行逻辑、统计等方面的数据处理,再应用直观易理解的图表进行数据展现,完成分析目标,实现多维数据分析。

1.3 数据展现方式

目前,在多维数据分析中已有的数据展现方法多种多样,常用的有以下几种:

(1) 表格:表格分为行表,列表和交叉表3种。行表是通过表格首列作记录说明,从第2列开始存放记录来展示数据。列表通过表格首行作记录说明,从第2行开始存放记录来展示数据。交叉表通过在表格前几行和前几列做记录说明,在行与列的交叉点存放记录。表格主要应用于大量相关数据汇总统计分析,如本月欠费、累计欠费、本月实收、本月发行、预收费等电费欠费分析。

(2) 饼图:饼图是将一个椭圆按某种规则分割成若干扇形,每个扇形用不同颜色填充来展现信息。多维数据分析中,饼图一般只有2个输入,即维度和度量。饼图主要应用于分析整体在某度量上的各部分组成情况,让用户快速地找出整体的主要组成部分和次要组成部分。如售电收入行业分析中找出最主要的售电收入来源行业。

(3) 曲线图:曲线图是在二维直角坐标系的第一象限内建立多个X轴坐标与Y轴坐标的交叉点,将这些交叉点作为数据填充点,再用直线连接来展现事物的变化趋势信息。常用于展现某度量在时间上的变化发展情况分析,或某度量相对于另一度量变化相似性分析,如历年售电变化情况及售电变化主要原因等。

(4) 柱状图:柱状图通过将圆柱按某种规则分割成若干段圆柱,每段圆柱以不同的颜色填充来展现信息。数据正向直立演示,主要用于同项数据的对比分析,如年度各月收入情况分析。

(5) 并排条形图:并排条形图是通过在二维平面坐标系内,以一系列垂直条形来展现信息。各条形横向平行演示。主要应用于同一度量对象的对比分析,如售电量前十大客户的情况分析。

2 电力营销的数据分析需求

电力营销管理的对象众多,省、地(市)、分局各级的工作重点也有所不同。多维数据分析在电力营销中的应用,主要从以下几个方面的数据进行分析,如客户、购电、售电、电价、收入、电费回收及欠费等。

(1) 客户分析:需要掌握企业的客户新装、增容、减容、暂停、销户等信息,以及它们的变化情况和原因。

(2) 购电分析:需要掌握企业购电量、购电电价、购电平均电价、主要购电电价等信息,以及它们变化情况等。

(3) 售电分析:需要从供电企业、用电容量、用电性质、电压等级、行业、产业上掌握当前售电信息及其变化情况。

(4) 电价分析:需要从供电单位、用电容量、用电性质、电压等级、行业、产业、季节 (丰、枯) 、优惠类别、时段上掌握电价信息及其变化情况。

(5) 售电收入分析:需要从供电单位、用电容量、用电性质、电压等级、行业、产业、收入结构、电价类别上掌握收入信息及变化情况。

(6) 电费回收及欠费分析:需要从供电单位、用电性质、行业、产业、收入结构、电价分类、账龄、客户等方面掌握电费回收及欠费情况。

3 多维数据分析系统体系结构

根据电力营销管理的信息需求,在Business Objects平台上分多个功能模块,实现多维数据分析功能。基于Business Objects平台开发的多维数据分析系统,是一种多用户的B/S结构系统,如图2所示,主要分数据源、服务器、客户端3层。

(1) 数据源:作为多维数据分析的数据来源,可以是原始的业务数据库或业务数据报表,也可以是经过数据预处理的数据仓库。在大电网环境中,已有的业务数据将作为主要的分析数据来源,在某些营销管理分析需求中,需要重构数据源,来完成多维数据分析应用。

(2) 多维数据分析服务:由Business Objects平台和电力营销综合分析平台共同提供多维数据分析服务。Business Objects平台包括Business Objects各套件产品服务器及其管理服务器,如报表应用程序服务器、程序作业服务器、输入/输出文件资源服务器、中央管理服务器等,各服务器为相应的多维数据分析应用提供服务。电力营销综合分析平台,是为了与现有的营销信息管理系统集成及得到更灵活、友好的用户界面,重新开发或是在已有的营销综合分析平台上,将多维数据分析进行功能集成,即利用Business Objects平台提供的对外接口,在Java或.net平台开发环境中,调用多维数据分析的应用程序接口,自定义多维数据分析应用界面。

(3) Web客户端:用户在本地计算机上,应用各主流的网页浏览器就可以作为多维数据分析系统的客户端,进行远程访问。

4 系统实施

4.1 多维数据模型的设计和构建

4.1.1 多维数据模型的设计

在进行多维数据模型设计时, 对维度和度量进行了严格的区分。将原始数据记录对应现实世界观察角度的字段, 作为多维数据模型维度, 并根据值之间的包含关系构建维度层次。将原始数据记录可以进行汇总、比较大小等计算处理的字段, 作为多维数据模型度量, 并可根据需要对原始度量进行相应计算处理构建新数据对象作度量。例如:在电费回收及欠费分析中, 供电单位、用电性质、用电行业、用电电压等将作为维度, 其中供电单位可根据上下级包含关系, 分为省公司、市公司、分公司、营业站等;预收费、本月欠费、往年欠费、本月发行等将作为度量, 又把本月欠费与往年欠费作求和计算, 生成原始数据记录中所没有的新数据对象总欠费作度量。

4.1.2多维数据模型的构建

在Business Objects平台中, 利用Designer工具完成多维数据模型构建, 如图3所示。首先, 在Designer中建立到数据源的连接, 直接从数据源中提取二维表, 或通过建立SQL查询, 构建派生表来获取所需业务数据。然后, 根据所获取的原生表或派生表数据相互关系, 如等于、大于、小于等, 建立相应的查询关联, 最终得到业务数据结构模型 (见图3) 。在业务数据模型的建立过程中, 需要适当地建立表别名及查询上下文, 解决环路、断层陷阱、扇形陷阱等问题, 提高多维数据分析时数据处理效率。业务数据结构模型的建立, 有助于更好地理解业务, 是多维数据模型构建的基础。在Designer工具中根据已有业务数据结构模型, 将所需的数据观察角度, 如企业组织机构、地区、时间等构建成多维数据模型维度, 将所需观察的数据对象构建成多维数据模型度量, 建立多维数据模型 (见图3) , 供多维数据展现使用。多维数据模型的建立, 为用户提供更方便、更集中的数据视角, 让用户更加易于发现隐藏于庞大业务数据中的有用信息, 找出企业经营规律, 辅助提高管理水平。

4.2 多维数据分析功能的实现

多维数据模型构建后,根据分析目标,确定数据观察角度和数据观察对象,找出最有效的信息展现,完成多维数据分析。以下给出多维数据分析应用示例:

图4是对电费结余情况的多维数据分析实现。在此分析中,选取列表及曲线图, 作为电费结余情况的信息展现,管理者可以了解截止到某一天时,企业的电费结余情况,以及某段时间内,电费结余相关影响因素的按天变化情况。分析上下文中,由用户根据需要和已有的多维数据模型,选择有效的维及维的对象值来查看数据,而数据对象则根据用户的选择,进行相应维层次上的汇总、对比等处理。如图4所示,用户选择了“年-月-日”这一时间维层次及“电费结余相关因素”维,“年-月-日”时间维层次是源数据记录的最低层,所以此分析在时间上不进行汇总分析,而是在组织机构上把数据从下级单位汇总到当前用户所处单位层次上。在各汇总数据点上,通过建立超链接,可以让用户进入下级详细数据,进一步了解该汇总数据的具体组成。如图4所示,可以根据需要选择电费结余的相关数据对象进行比较,得出对比信息。

多维数据分析在功能上是相对独立的,在现有的电力营销信息管理系统中,可以作为新增功能被集成调用,完成多维数据分析在电力营销中的最终应用。

5 结语

由于电力营销管理工作是不断发展的,相同营销管理对象在不同时间、不同地点,对于不同管理者,所需的信息观看角度、信息展现方式都会不同。又由于多维数据分析、数据存储技术及信息展现方法等方面的不断发展,多维数据分析在电力营销管理中的应用也将是一个长期的过程,需要根据应用需求的变化不断进行改进和完善。

参考文献

[1]马鲁晋, 李涛.电力营销分析决策系统设计与应用[M].北京:中国电力出版社, 2005.

[2]曾鸣, 贾振旺, 黄昆彪.电力营销服务与电价体系[M].北京:中国电力出版社, 2007.

[3]Erik Thomsen著.朱建秋, 张晓辉, 蔡伟杰, 等译.OLAP解决方案:创建多维信息系统[M] (第二版) , 北京:电子工业出版社, 2004.

[4]张雨瑞, 李小庆.利用多维数据分析技术提高银行综合经营水平[J].华南金融电脑, 2005 (9) :6-12.

[5]王凌, 黄婷.福建电力营销数据整合研究与实施[J].电力信息化, 2005, 3 (11) :61-64.

[6]余向前.甘肃省电力营销技术支持系统建设与实现[J].电力信息化, 2006, 4 (2) :54-57.

多维数据 第9篇

关键词:鱼骨图,多维数据挖掘,数据预处理,预测

鱼骨分析法是一种发现问题“根本原因”的方法,原本用于质量管理。问题的特性总是受到一些因素的影响,鱼骨图利用头脑风暴找出这些因素,将它们与特性值一起,按相互关联性整理成的层次分明、条理清楚,并能标出重要因素的一副图形。这是一种透过现象看本质的分析方法。鱼骨图清晰地表明了各个原因相对应的问题的重要性程度,指出了影响问题的关键性原因,使决策者对问题有整体的把握[1]。

数据挖掘又称为数据库中的知识发现(KDD)。它是一个从大量数据中抽取挖掘出从前未知、但有很多潜在信息(如知识规则、约束、规律)的复杂过程[2]。

本文介绍了多维数据流数据挖掘的新方法,DMDF是一个能够结合鱼骨分析法和多维数据挖掘过程的一个新方法。它是一种可拓展的,并可以支持互操作、模块化和重构的数据挖掘方法[3]。本文讲述了基于Fishbone结构来构建的数据挖掘模块,以及如何实现多维数据流的DMDF方法的步骤。着重讲述通过利用Fishbone结构展现的这种可视化方法,DMDF使数据挖掘过程更直观、更清晰。

1 DMDF概念的提出

DMDF这个概念的提出来源于Fishbone概念以及数据挖掘中的“元数据”的概念。我们可以将“元数据”看作是原始鱼骨图中的“原因”,而数据挖掘中的一些“解决方案”代表了原始鱼骨中的“结果”。在企业复杂的数据环境之下,DMDF将不仅用于从复杂系统中收集海量的数据和信息,还能够用数据挖掘方法论中系统的方法来处理需要处理的数据。DMDF同样可以帮助我们去从每一个引起该问题的子数据流中找寻问题的根本“原因”[3]。

2 DMDF平台的设计

DMDF提供了一个集成的平台(如图1所示)和一个良好的解决方案去支持数据挖掘生命周期的整个过程。这个生命周期包括了DMDF数据分类、数据预处理、关联规则挖掘以及预测这几个重要的过程。图1清晰地展示了不同重要模块之间的关系。

第一个阶段,专家或咨询顾问通过“触发”DMDF来给每个子节点上收集有用的信息,这个子节点就称为子数据流,它拥有着不同于主数据流的数据类型。第二阶段进行数据的预处理,在这个阶段,纷繁的数据将进行有效预处理。DMDF提出了一个很好的数据挖掘过程模型,更提供了一个强大的分析功能去将设计蓝图与企业复杂数据环境相同步。在数据预处理之后,每一个子数据流的分支将汇集到DMDF主干上,接下来就将进行最重要的ARM(关联规则挖掘)环节。在实现阶段,专家将给这个处理模型的预测模块做相应的数据配置。这样,在这个Fishbone的头部就会产生出至少两个以上的有用的或是有帮助的信息和解决方法[3]。

3 DMDF的实现

3.1 不同挖掘组件接口的设计

不同数据挖掘组件应该使用统一的接口,从而达到同一平台下不同组件的组合。每一个组件包括静态说明(例如不同组件中的元素说明),或者动态过程的说明(例如每个挖掘组件的模型输出的计算、过程中对象的使用说明等),或者两者兼顾。不同组件接口格式定义如下:

每一个挖掘组件的扩展必须包括一个XML 文件,并且将这个文件的定义包含在平台的配置文件中。

3.2 DMDF数据分类与预处理的实现

由于数据挖掘源于多个学科,因此数据挖掘研究期望产生大量的各种类型的数据挖掘系统。根据不同的标准,DMDF数据挖掘系统分类有以下几种类型:

1) 根据挖掘的数据库类型分类; 2) 根据挖掘的知识类型分类; 3) 根据所用的技术类型分类;4) 根据应用分类。

数据挖掘的处理对象是数据, 这些数据一般存储在数据库系统中, 是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘, 首先要清除数据噪声和与挖掘主题明显无关的数据,其次将来自多数据源中的相关数据组合并,然后将数据转换为易于进行数据挖掘的数据存储形式,这就是DMDF数据预处理。数据预处理是否合适,将影响到数据挖掘的效率、准确率以及最终模式的有效性。

DMDF数据预处理的主要任务如下:

(1) 数据清理:填写空缺值,平滑噪声数据,识别、删除孤立点,解决不一致性;

(2) 数据集成:集成多个数据库,数据立方体和文件;

(3) 数据变换:规范化(消除冗余属性)和聚集(数据汇总),将数据从一个较大的子空间投影到一个较小的子空间;

(4) 数据归约:得到数据集的压缩表示,量虽小但可以得到相近或相同的结果;

(5) 数据离散化:是数据规约的一部分,通过概念分层和数据的离散化来规约数据。

经过DMDF分类与预处理,整个的Fishbone结构图就展示出了整个数据挖掘过程。

3.3 从DMDF中得到解决办法

在DMDF构建的最后阶段,会得到如图2所示的DMDF的总体结构。每一个分类所对应的“原因”分支,构建了Fishbone结构图的骨架,接下来,每一个领域相关的“团队”组件,就可以分析每一个独立的“原因”了。

4 DMDF关联规则挖掘的实现

基于DMDF的关联规则是DMDF挖掘过程中所能挖掘的一类重要的模式或知识,可以用来描述事物之间在特定条件下存在的某种强度的联系,它揭示了数据间的相互关系[4]。基于DMDF的关联规则挖掘的过程如下:(1) 找出所有频繁项集;(2) 由频繁项集产生强关联规则,根据定义,这些规则必须满足最小支持度和最小置信度。

DMDF关联规则挖掘的基本思想是:(1) 找到所有支持度大于最小支持度的频繁项集,即频集;(2) 使用第一步找到的频集产生期望的规则,其核心方法是基于频集理论的递推方法。

5 DMDF预测模型的设计与实现

预测是DMDF中的一个最为关键的步骤。数据库中隐含了大量的信息,这些信息能够用来进行决策。每一种预测模型都代表了一种发展规律,预测模型越多,预测人员的选择余地越大,预测结果越精确。DMDF系统提供的预测方法库中既包括一些预测决策的常规方法,如一元及多元线性回归、滑动平均预测、指数平滑预测[5],也包括了一些比较新颖的预测模型,并对一些预测模型进行了改进。

在DMDF中,利用XML对不同预测模型进行统一的定义。从而达到在DMDF 平台下不同预测模型的实现。以下是不同模型的接口定义:

说明:

(1) id (required) 生成的预测模型的唯一标识;

(2) label (required) 在DMDF中生成模型的名字的唯一标识;

(3) labelKey 以本地化为目的的标识。

在预测模型中每一个节点可以包括不同的子节点:(1) ModelProvider:该标识中包含了模型的输出;(2) Properties:被生成的模型所使用的属性;(3) Containers: 生成的模型将放在该标识中;(4) UserInterface:该标识中的模型设置和输出的对象将最终显示给用户;(5) Constructors:该对象由生成的模型来制造。

预测结束后,随着实际数据的产生,为了进一步提高DMDF预测的精度,系统对多种预测方法所得结果进行全面的误差分析,对预测结果做出评价,并对预测模型的参数进行修正。所有误差分析结果均保存于用户指定的信息文件中,可供随时查阅,并对以后的预测数据进行校正。

6 DMDF策略的有效性验证

本文使用一组真实的医疗数据来验证用DMDF策略进行预测的准确性。通过DRUG1N 来进行模型的建立和学习,通过DRUG4N真实数据对ACMC建立的不同模型进行评估,最终系统得出Bayes分类算法建立的模型为最优模型。从而利用该模型得到不同的患者应该使用什么类型的药品,通过对一些条件因素的分析来得到预期结果。在药品选择中通过分析患者的年龄、性别、血压、脂肪含量、身体中的钠含量及钾含量,最终得到所需要使用的药品。分别从“预测结果”、“预测正确率的分析”、“真实数据与预测结果多维对比”三个方面来对DMDF策略的有效性进行说明。

6.1 预测结果

图3是利用DMDF进行预测的预测结果,图3中显示出预测结果与真实结果的对比。(其中DRUG是真实条件下患者实际使用的药品,$BDrug是经过DMDF预测得到应该使用的药品。)

6.2 预测正确率的分析

图4对预测结果进行统计与分析,预测成功率达到93%。

6.3 真实数据与预测结果多维对比

图5通过二维柱状模型展现预测正确率的分布,图6以三维正交模型对预测结果与真实数据进行详细对比和说明。

通过以上三个层面的分析和描述,可得到结论:利用DMDF策略进行预测,并且使用该策略进行数据评估,将得到高质量的预测结果。从而验证了DMDF策略在多维数据挖掘处理过程中的有效性。

7 结论

DMDF的研究能够使得数据挖掘过程更加的直观,它将Fishbone概念得到了升华。在复杂的企业数据环境中,有效的、高质量的数据的预测和分析比以往尤为重要。DMDF提供了一系列可扩张、可插拔、可评估的并且支持互操作、模块化和可重构的多维数据挖掘的体系结构。利用并依赖Fishbone 中的“原因”和“结果”等关键因素,基于Fishbone 结构来构建多重数据挖掘流。

对DMDF的研究,目的是提高数据挖掘的结构性、准确性,然而,来自信息环境的反馈对于DMDF来说至关重要,因此,在这方面需要做更加深入地研究,这样才能做好DMDF与实际复杂数据环境的良好衔接,来充分提高DMDF策略的实用性。

参考文献

[1]李奎刚,张毕西,刘笑.层次分析法和鱼骨图在物流企业问题诊断中的应用.物流技术,2007;26(11):212—214

[2]白洁,李春平.面向软件开发信息库的数据挖掘综述.计算机应用研究,2008;25(1):22—27

[3]Zhang Yun,Li Weihua,Chen Yang.The study of multidimensional-data flow of fishbone applied for data mining.//Roger Lee,7th ACIS International Conference on Software Engineering Research,Manage-ment and Applications(SERA2009).Haikou,China:ACIS and Hainan University,2009;86—91

[4]Agrawal R,Srikant R.Mining sequential patterns∥Proceedings Inter-national Conference on Data Engineering.Taipei:1995;32—34

多维数据 第10篇

1 多维数据分析技术

多维数据分析技术是一种建立在OLAP基础上的高效数据分析方法, 能有效地将企业数据由业务型向管理型转化, 是企业提高经营管理水平的有效方法。OLAP通过多维的方式对数据进行分析、查询和报表, 它不同于传统的OTLP应用。OTLP应用主要是完成用户的事务处理, 通常要进行大量的更新操作, 对响应时间要求比较高。而OLAP主要是对用户分析、辅助领导决策, 可以进行大量的查询操作, 对时间的要求不太严格。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制度建设等。多维数据分析技术的核心是“维”, 即用户根据所要经营管理信息的需求, 把这种需求放在现实的情况下, 从不同的角度对数据信息进行细致的观察与审核, 然后对数据进行相应的处理, 从而能够准确的获得信息数据、满足经营管理需求的方法。多维数据分析基本分析操作有钻取、切片、切块、旋转, 它让用户能同步快速、高效灵活地掌握从总体到局部的企业经营情况, 将企业运营的隐藏信息直观呈现给用户。根据多维数据分析技术的基本定义及原理, 在供电系统电力营销中运用Business Objects平台进行的多维数据分析, 有如下特点:

1.1 多维性:

这是多维数据分析技术标志性特点。对目标数据进行分析, 先将数据分为多个维度, 如地区维、时间维等等, 再根据不同的维度对数据进行不同角度的观察与分析, 将同一维度上的不同数据进行比较。如对售电量的展现, 可以从时间维中的年、季、月、周、日时间层次上查看。

1.2 可析性:

从不同角度对数据进行平均值、差距值、数排序、汇总、记录限定等处理, 提供给用户强大的数据汇总、即时查询等数据分析能力。

1.3 同步性:

体现了用户对信息在时间上的要求。包含对多维数据分析结果同步快速获得的要求, 而且使多维数据分析能实时、适时地接收用户数据。

1.4 安全性:

保障信息安全, 防止欺诈用户。用户分级管理, 数据分析的结果只能提供给相关的用户使用, 如果出现了许多名用户同时使用同一分析时, 应该根据用户所属的安全级别给线管用户提供相应的数据信息, 不同安全级别的用户获得的数据信息的层次是不同的。

1.5 扩展性:

即具有后期增加服务功能。对相关用户的数据分析的需求要实行模块化的管理方式, 对后期新增加的功能, 可以通过积木式的拼装或者是授权来实现, 并且能够对已经拥有的分析数据进行数据观看的维度更改。

2 多维数据分析方式在电力营销中应用

2.1 排序分析法:

将可比较对象的各种指标按照一定的规则进行排序对比。这种方法有利于了解和分析电力营销过程中各项经济指标在各种限定情况下的对象排名情况, 方便进行有针对性的分析和方案实施, 可分为正序排列、逆序排列、有限制数目排序 (也称TOP-N分析法) 和无限制数目排序, 这些排序可混合使用。如想找出用电量居前十的电力企业, 采用限制数目为10的正序排列方式, 对用电量进行排序, 这样可以让分析人员迅速了解用电量居前十的电力客户的情况。

2.2 结构分析法:

也称比重分析法。这种分析的方法应用在电力营销的决策中起到了参照的作用。在电力营销决策中, 可以应用这种分析方法准确的是计算某项经济指标各项组成部分占总体的比重, 分析其内容构成的变化, 从中掌握数据的特点和变化趋势, 掌握各项经济指标的最新动态。其计算公式为:结构相对数=部分÷总体100%, 此法通常采用饼图和曲线图直观展现。

2.3 贡献率法:

贡献率即某因素带来的对增速影响的百分点, 是分析经济效益的一个指标。在电力营销决策中, 可以讲该指标应用在电力营销数据的增长分析中, 为电力营销提供简单易懂的查询结果, 从而更好的对电力营销的业务数据进行直观的分析, 以便及时对相关的数据进行处理。其计算公式为:贡献率=某因素贡献量 (增量或增长程度) /总贡献量 (总增量或增长程度) 100%。

2.4 预测算法:

共分多元线性回归法、时间序列法、多元回归分析法, 三者都是多维数据分析的科学预测方法, 用于预测随机事件的数据分析工具。由于简单实用, 已在各预测领域广泛应用。以上三种科学预测方法都可用于电量预测, 根据实际数据进行模型选择及调整, 并确定模型的参数进行预测。

3 结论

社会经济与科技的发展, 使得电力营销必须做出相应的改革, 多位数据分析是电力营销管理改革中的一项重要的内容。电力营销的改革必须把重点落在多为数据的分析上, 只有改革电力营销的手段, 将多位数据分析与电力营销有机的结合起来, 才能突破传统的电力营销的管理方法, 才能真正的实现电力营销从粗放型管理模式向集约型管理模式的转变。经济与科技的发展为电力营销的改革提供了物质保障与技术引导, 而电力营销作为社会生产活动的一份子, 它的改革与发展又能够为其他行业提供参考价值, 带动相关行业的改革与发展, 所以在不断进步与发展的社会背景下, 我们有理由相信我国电力营销的技术会进一步提升, 更好的服务于我们的生产与生活, 促进经济与科技的再发展。

参考文献

相关文章
2024中考体育考试安全预案

2024中考体育考试安全预案

2024中考体育考试安全预案(精选13篇)2024中考体育考试安全预案 第1篇清涧分部2014年初中毕业学业理科实验操作、体育考试安全工作预案为...

1
2025-09-19
2024国培总结

2024国培总结

2024国培总结(精选9篇)2024国培总结 第1篇2017教师国培学习总结当今社会,教事业迅猛发展,各类培训数不胜数,而“国培”对于我们教育发...

1
2025-09-19
2024年单位与单位的新年联欢会主持稿及串词

2024年单位与单位的新年联欢会主持稿及串词

2024年单位与单位的新年联欢会主持稿及串词(精选5篇)2024年单位与单位的新年联欢会主持稿及串词 第1篇2018年单位与单位的新年联欢会主持...

1
2025-09-19
2024年上海市崇明县中考一模语文试题及答案

2024年上海市崇明县中考一模语文试题及答案

2024年上海市崇明县中考一模语文试题及答案(精选6篇)2024年上海市崇明县中考一模语文试题及答案 第1篇2017年崇明区初三一模语文试题(一...

1
2025-09-19
2010—2011学年度第一学期六年级语文教学计划

2010—2011学年度第一学期六年级语文教学计划

2010—2011学年度第一学期六年级语文教学计划(精选13篇)2010—2011学年度第一学期六年级语文教学计划 第1篇2010—2011学年下学期六年级...

1
2025-09-19
2011《农业农村工作知识》高频考点

2011《农业农村工作知识》高频考点

2011《农业农村工作知识》高频考点(精选12篇)2011《农业农村工作知识》高频考点 第1篇2011公考备考:《农业农村工作知识》高频考点2011-0...

1
2025-09-19
以案促改主持词

以案促改主持词

以案促改主持词(精选4篇)以案促改主持词 第1篇主持词同志们:根据市委要求,今天我们在这里召开“××局开展案件剖析做好以案促改工作动...

1
2025-09-19
2024致自己的励志说说

2024致自己的励志说说

2024致自己的励志说说(精选5篇)2024致自己的励志说说 第1篇人生,说到底,活的是心情。人活得累,是因为能左右你心情的东西太多。以下是...

1
2025-09-19
付费阅读
确认删除?
回到顶部