OLAP数据挖掘(精选8篇)
OLAP数据挖掘 第1篇
1.1 数据仓库定义分析
数据仓库的本质是由联机分析系统和决策支持系统共同构成的结构化数据环境, 是一个具有稳定性和集成性, 能够面向发展主题的数据集合, 并通过数据的分布管理和并行处理以支持企业集体管理过程中的决策。数据仓库的建立为企业的决策处理提供了更为有力的支持, 其数据并行处理的多变性也使得数据仓库能够在不同的数据环境中对大量的数据信息进行有效的处理。在数据仓库的实际应用中, 高层次的数据归类标准能够使数据在宏观上得到类型划分, 不同类型的数据在依照各自归属领域中逻辑处理后, 经集成和加工后变为面向主题的数据集合, 并为之后的数据调取做好准备。
1.2 数据仓库的体系结构划分
数据仓库在数据处理过程中主要分为数据的分析型处理和操作型处理, 两种数据处理方式在实际应用中通常区别使用, 以保证数据仓库中数据结构的整体性。为进一步完善数据仓库的体系结构, 通常将数据仓库的体系结构划分为数据查询和分析组件, 数据集成组件, 数据源和监视器等体系结构。数据查询和分析组件能够将数据仓库的终端用户数据信息转换为数据源装入DW, 并在数据集成组件的DW视图维护中完成数据源的合并及过滤。数据源作为一个数据库系统, 主要包括HTML类型文件和SGML类型文件等, 数据仓库的内容通过监视器与多类型文件相连接, 以实现数据仓库中数据源的监测与处理。随着数据仓库在实际应用中的日渐完善, 其体系结构的划分也更为具体化, 数据提取工具, 转换工具以及其他多种数据处理工具的协调使用使得数据仓库日渐成为数据处理系统的核心, 并以此为基础满足用户的多方面数据需求。
2 数据联机分析处理技术发展背景讨论
OLAP技术即数据联机处理技术, 该技术的发展是以数据库技术为基础的, 随着计算机数据处理和计算技术的迅速发展, 数据仓库的建立已经成为计算机数据处理的首要前提。在社会经济的迅速潮流中, 企业经济成为了社会经济构成中的一部分, 发展至今, 企业经济已成为社会进步的主要推动力, 因此为保证社会的经济进步, 企业的经济建设是必不可少的。为进一步提升企业的运营效益, 企业决策者引进了数据仓库技术, 通过对企业累计的大量生产及业务数据进行分析处理, 并从多数据类型中筛选出有效的数据信息, 通过有效信息的筛选反应企业的运营实际情况, 并为企业的决策提供数据支持。随着企业决策者对数据信息策略性价值的不断探索, 数据联机处理技术得以开发, 这一技术的开发与应用不仅充分展现了企业数据信息的策略性价值, 也使得企业之间信息视图的互访成为可能。OLAP技术开发研究的逐渐深入, 使其数据处理的效率和一致性都在一定程度上得以提升, 随着OLAP技术在企业数据仓库技术基础上应用的进一步推广, 企业决策者以及管理人员将能够更为明晰的洞察到数据仓库中数据的隐含规律, 进而制定出更切合企业发展实际的发展决策。
3 基于数据仓库的OLAP技术概论
3.1 OLAP概念分析
OLAP技术是指在处理特定问题的情况下采取的联机数据访问和处理技术, 通过对大量数据进行分析和处理, 使得数据中所包含的信息内容能够被决策者快速的读取访问, 进而为决策者的数据深入调查提供便利。OLAP技术在实际应用中是以多维视图的形式展现的, 通过划分维度层次使数据中的细节信息得到多方面描述, 并通过处理企业日常运营过程中产生的数据以起到支持企业决策的有效作用。
3.2 OLAP技术特点分析
根据OLAP技术的实际应用作用分析可知, OLAP技术具有信息性, 多维性及可分析性等多种技术特点。从信息性角度分析, 由于OLAP技术的职能是对大量的数据内容进行分析与处理, 并且数据的存储位置无法影响到信息获取效率, 所以OLAP技术通常用于管理大量的数据信息, 并且在磁盘空间应用和数据仓库结合等多方面都有较为广泛的应用。OLAP技术还能够在进行数据逻辑分析的同时对数据进行统计分析, 这便使得用户在定义全新的编程运算时无需针对运算过程进行程序编写, 为用户的实际应用提供了很大的方便。OLAP技术的可分析性也体现在用户对OLAP系统的应用中。OLAP技术为用户提供了OLAP数据平台, 用户能够在平台上完成数据分析, OLAP技术平台也能够连接到其他数据分析工具上, 通过其他数据分析工具将分析结果录入到系统中, 进而提升OLAP系统的数据处理效率和准确性。OLAP技术的多维性作为该技术的关键属性, 是系统进行数据处理后结果的直观展示, OLAP技术中多维视图的展现, 使得企业运营中产生的数据内容能够得到最为直观的展现, 加之多维视图中层次维和多层次维的引入, 更是使得数据内容展现得以进一步丰富。
4 基于数据仓库的OLAP技术探究
4.1 OLAP数据模型结构分类
OLAP技术主要应用于大量数据的分析归纳过程中, 由于数据种类和处理方式的多样性, OLAP技术在实际应用中必须能够支持多维视图模式, 并且具备一定的旋转性, 这样才能有效满足用户需求。为进一步提升OLAP数据处理系统性能, 通常要以关系型数据库为基础搭建数据仓库, 并通过数据仓库与OLAP技术的协调运行来实现数据的数据的有效处理。为满足用户因数据接口不同而产生的数据存储需求, 将OLAP数据处理技术分为三种数据模型。数据容量最小的是基于多维数据库的数据模型结构。该结构中数据的存场所是多维度数据库, 数据库由多个多维数组存储单元构成, 不同数组存储单元中存储的数据类型都具有统一的属性, 这也为后期类型性数据的调取与处理提供了方便。基于关系型数据库的OLAP具有更为灵活的缩放性, 该技术产品更加强强调对数据的并发控制管理, 由于数据的并发控制管理在实际应用中最为普及, 也使得这种数据模型结构成为当下最为成熟的模型结构。混合型OLAP数据模型结构是在最近得以发展的, 该数据模型结构最大的特点是融合了多维数据库结构和关系型数据库结构的优点, 两种数据模型结构的有机结合使得混合型OLAP数据模型结构具有更为优良的扩展性和数据处理速度。
4.2 OLAP数据模型搭建
在基于数据仓库下的OLAP技术中, OLAP数据模型的搭建是OLAP的技术核心。在整个数据模型中, 维和度量共同构成了数据信息的分析处理标准, OLAP技术便是以这两种衡量标准进行数据的分析处理的。OLAP数据模型的搭建为终端用户的数据查询和报表提供了更为简要的处理方式, 复杂的数据查询方式向简要数据切片处理方式的转换, 使得数据仓库中的数据内容能够以多维视图的形式展现给用户, 使得用户的数据查询和处理过程在很大程度上得到简化。在OLAP数据模型中, 维是同种类型数据的集合, 数据所具备的变量特性使得维具有自身的属性特点。OLAP数据模型中的度量则与维不同, 它仅表示一个度量值, 如在商品销售中, 度量的存在形式主要包括商品单价, 销售数量以及销售总额等, 与数据模型中的维不同, 度量更为强调数值本身的属性, 是数值所代表内容的直观体现。
4.3 OLAP数据模型多维表示方法
在OLAP技术和数据仓库的结合与应用中, 为有效提社OLAP数据处理效率, 通常将多维数据库转换为事实表和维表两大类型。事实表在关系数据库中表示数据关系时, 通常要以存储数据的实施度量值和不同位的主码为基础, 而维表在OLAP数据模型的表示中则保留了描述不同维之间层次关系以及成员类别等必要的数据内容。在OLAP技术数据模型的多维表示中, 事实表和维表的紧密联系能够使关系数据库中的数据类型分类更为明晰, 维表中不同数据属性的ID主码也使得OLAP数据模型呈现出星型模式, 这也进一步表明了数据仓库中数据二维关系的确立, 为数据的多维查询和描述提供了有效参考。雪花模式也是OLAP数据模型的重要体现。在OLAP关系数据库中的雪花模式下, 企业的决策人员和管理人员不再需要从多层次, 多角度进行数据分析, 而是从多维表的数据描述中得出数据的数据集构造。如在商品销售中, 按照商品产地, 商品种类和用途等将商品进行不同种类的划分, 这就会使得OLAP星型数据结构的顶端出现分支, 进而演变成为关系数据库的雪花模式。OLAP技术的雪花模式数据模型能够利用多张维表表示维层次复杂且成员类型较多的数据集, 并且数据在存储时也要借助实施表和维表的联结才能实现, 雪花模式下OLAP技术与数据仓库的结合使得维表形式更为规范化, 这也为OLAP技术今后的探究与发展指明了方向。
5 结束语
随着我国社会企业竞争的日趋激烈, 企业中决策人员的数据信息获取能力成为了影响企业发展的关键, 也成为了企业竞争与发展的根本, OLAP技术和数据仓库的应用, 为企业的数据处理提供了多维的数据分析方式, 此外, OLAP技术的应用也为数据用户提供了便捷的数据查询途径。在计算机技术发展的推动下, 我国基于数据仓库的OLAP技术将会更加灵活, 数据分析与处理水平也会得到显著提高, 随着我国对数据分析与处理研究的深入, OLAP技术将会受到更为广泛的应用。
参考文献
[1]王珊, 等.数据仓库技术与联机分析处理[M].北京科学出版社, 2010, 12 (8) :35-56.
[2]陈京民.数据仓库与数据挖掘技术[M].北京电子工业出版社, 2009, 20-39.
OLAP数据挖掘 第2篇
什么是联机分析处理(OLAP)数据库教程
。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。
OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB 设计面向应用面向主题数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布,
如果剩余的维只有两个,则是切片;如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
数据仓库与OLAP技术的应用研究 第3篇
数据仓库与OLAP(Online Analytical Processing,联机分析处理)技术为企业的分析决策提供了强大的支持,正确及时的决策是企业生存和发展的最重要环节。现在,愈来愈多的企业认识到,要想在竞争中取胜.获得更大的收益,必须利用网络、数据仓库等计算机技术,深层次地挖掘、分析当前和历史的生产业务数据,以及相关的环境数据,自动快速地获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。决策支持就是采用数据仓库技术.充分利用企业内部已存在的海量数据,挖掘出有价值的知识和规则,将客观详实的数据经验和企业决策者宝贵的自身经验结合起来,支持企业决策。通过对企业生产和计划的完成情况及相关环境数据进行多角度多层次的分析.决策支持可以使企业的决策者及时掌握企业的运行情况和发展趋势,并对制定生产计划和长远规划提供理论指导,提高企业的管理水平和竞争优势。
OLAP是基于数据仓库的一种主要的应用,提供了一种数据分析的机制。OLAP主要是建立OLAP分析模型,在OLAP分析模型上进行获取数据、OLAP分析操作、展示OLAP分析结果等。OLAP系统中需要使用数据仓库中的模型元数据。数据仓库的模型元数据包括逻辑模式和物理模式,前者可以使用户在逻辑模式上进行分析,后者可以帮助用户获取所需要的数据。数据仓库系统建立的目的就是提供一种存储分析数据、获取分析数据的信息决策框架。数据仓库中数据存储主要是为了OLAP操作进行服务的。OLAP模型是一个决策分析的多维立方体模型,可以从不同的角度去评估一个决策主题。
为此,我们在研究分析了数据仓库和OLAP理论的基础上,参考了国外一些比较成功的OLAP解决方案,设计了一个通用的O-LAP服务系统的体系结构,后台可以兼容不同厂商提供的基于不同DBMS的数据仓库产品和不同的OLAP数据库产品,从而使用户可以充分利用企业现有的产品,减少新的投资。
2 OLAP建模
OLAP建模首先负责管理OLAP分析中所用到多维数据库的逻辑、物理模式,包括建立和维护。提供友好的图形化界面,将数据仓库的逻辑物理模式展现给设计人员,然后接受设计人员的操作建立或者修改多维数据库的逻辑物理模式。同时生成描述多维数据库逻辑物理模式以及多维数据库物理模式与数据仓库物理模式对应关系的XML文件,供OLAP应用服务器或者前端工具使用。由于多维数据库的逻辑和物理模式具有简单的映射关系,这里考虑仅仅用一个多维数据库分析模式文件存储多维数据库的逻辑和物理模式以及多维数据库物理模式与数据仓库物理模式对应关系。之所以要记录多维数据库的物理模式与数据仓库的物理模式之间对应关系是为了多维数据库构建模块从数据仓库中提取数据建立多维数据集的需要以及多维数据库生成之后前端工具在其上进行下钻等操作的需要。其次根据预先设计的逻辑物理模式从数据仓库中抽取数据进行多维数据库的物理构建和维护。
数据仓库OLAP建模和管理工具主要完成根据数据仓库元数据库来建立真正的分析模型,同时将这个模型建立对应的数据从数据仓库中抽取出来,在OLAP服务器中建立多维数据立方体,定期刷新和管理多维数据立方体。
2.1 建立数据集模型
以销售分析主题为例,打开由数据仓库建模工具生成的数据仓库逻辑描述文件,打开后的模式如图1所示。
树状结构展现在左边的视图中。利用向导,从数据仓库中选择主题模式、度量及维度和维度的层次组合关系。可以在选择属性和维度信息时对数据库中的表进行预览,向导完成后多维数据集的建模也就完成了。
2.2 生成数据立方体
使用OLAP建模工具可以生成数据立方体,在建立多维数据集过程中可以选择数据的聚集模式、性能等参数指标。
2.3 生成立方体语义描述文件
可以使用OLAP建模工具生成立方体语义描述文件。
3 OLAP服务器
数据仓库中的数据主要是按照分析模型的形式保存的。数据仓库中不但保存了比较详细的基本数据集,同时经常使用的聚集数据也被预先聚集保存成聚集事实表来加快数据信息的获取。数据仓库中使用各种索引技术优化数据获取速度,比如B树索引、位图索引、连接索引等。
在数据仓库系统中OLAP分析不需要从需求开始重新进行,OLAP分析可以从数据仓库系统中获取决策分析需求信息和数据存储模型。根据决策分析需求建立相应的OLAP分析模型,定义OLAP分析模型上的各种OLAP分析操作。根据数据存储模型可以获取OLAP所需要的分析数据,然后展示给用户。
3.1 主要功能
1)开启、关闭OLAP服务。
2)查看客户端的信息。
3)设置OLAP服务参数。
3.2 设置
1)参数设定:
端口号:缺省值为27018
最大连接数:可设置最大连接的客户端数目。
2)客户端信息查看:在此处可以查看所有的连接的详细信息,并可以删除某个连接。
3)点“开启服务”即可开启OLAP服务,接收客户端的连接。客户端的连接断开情况将在右边的列表框显示出来。
4 OLAP前端
OLAP前端工具首先获取OLAP分析模式,以树状结构形式展示给用户,用户操作产生OLAP原语(描述了用户的上钻、下钻、旋转、切片等操作)传送给分析数据读取包装模块或者通信模块。前端工具还要接收分析数据读取包装模块或者通信模块返回的数据,根据OLAP原语设置分析数据图表的显示格式,将分析数据交由报表显示控件、报表处理控件和图形控件显示。前端工具既可以在具有应用服务器的OLAP系统中使用,也可以在无应用服务器的OLAP系统中使用,即该前端工具既能从应用服务器获取O-LAP分析模式,也能够直接连接读取本地语义对象存储文件获取OLAP分析模式。OLAP报表处理控件主要接收OLAP服务器返回给OLAP前端工具并经过OLAP前端工具处理过的相关数据,并且根据在OLAP前端工具中预先设计好的显示模式,将返回数据填入显示模式中以生成报表展现给用户。用户也可以方便的对报表进行打印、保存和与其他格式报表的相互转换,如EXCEL,HTML等。不同于传统报表显示控件,在该控件中用户也可以方便的修改已经生成的报表。
OLAP前端的主要功能包括:显示分析报表,图形显示,报表显示,旋转;排序,过滤,删除,自定义语义对象,上钻,下钻;转换成excel格式和html格式。
我们仍以销售分析主题为例,介绍具体的实现方法。
1)连接服务器,然后打开分析文件,此时将在左边显示相应分析文件的分析主题及其相应的语义对象。
2)从左边树形列表中选择要分析的语义对象到右边十字视图中,此时,非度量对象(例如,年、月、日等)默认在十字的左下角区域,度量对象(如销售额等)放在右下角区域。然后将商品名称、商品编码和商品条码拖动到十字的右上角区域。在十字区域中,左上方为切片区域,右上方为列区域。如图2所示。
3)分析报表。选择完毕后,将对其进行OLAP分析,并以最大界面的形式显示分析结果,在此分析报表上选中某单元格可进行上钻下钻操作,并可以回到初始界面进行一些新的操作,比如重新拖动新的语义对象,或者删除某个语义对象,或者添加相应排序过滤条件等,然后再重新分析以获取新的分析结果。
4)排序、过滤和删除。排序有升序和降序两种,当选择了某种排序方式后,获取的分析结果将以所选择的方式排序。可以定义相应的过滤条件,删除不需要的过滤条件。
5)自定义语义对象。在左边树形列表中可以定义临时语义对象和删除临时语义对象。
6)保存或打开文档。将当前获取的分析结果保存,下次需要时,可不必再去重复相同操作,直接打开相应文件即得到上次分析结果。还可在此基础上进行一系列增加条件,删除等操作,并可获取新的分析结果并保存。
7)显示报表。以报表的形式显示分析结果。
8)上钻下钻。在分析结果上进行上钻或下钻操作,即可获取相应结果并显示。
9)图形显示。以饼图、曲线图、柱状图显示分析结果。
10)旋转。换一种角度查看数据。
11)转换成excel格式,可以将报表以excel表格的形式显示。
12)转换成html格式,可以将报表以html的形式显示。
5 总结
数据仓库决策支持系统建立以后运行的实际效果还是比较理想的,可以根据自己的需要调整横纵坐标的显示内容;可以对输出的结果进行上钻、下钻、旋转等操作;可以对显示的内容进行排序、过滤和删除等操作;可以显示各种报表,并定制报表的风格;可以图形显示分析结果,通过图形能够清楚的看到各种商品的销售额,以及各商品销售的对比情况,这对于决策者制定销售策略是有很大帮助的。在今后的工作中会不断改进这个系统,使得系统的各项功能更加完善。
参考文献
[1]王能斌,董逸生.数据库设计与实现[M].华中理工大学出版社,1991.
[2]王能斌.数据库系统教程[M].电子工业出版社,2002.
[3]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998.
OLAP数据挖掘 第4篇
信息作为现代企业的资源,占据着越来越重要的地位。面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身核心业务,大量的日常业务数据需要管理。为此,文章主要论述了企业建立数据仓库的必要性,并从需求分析、数据路线、技术路线、应用路线等方面介绍了企业数据仓库的建设,为企业信息化的进一步发展奠定基础。
1 企业建立数据仓库的必要性
1.1 企业应用数据仓库的目标
企业应用数据仓库的目标大致分为以下几类:1)将数据仓库作为企业的核心业务进行发展。出于这种目标的企业有两类:数据仓库工具厂商和服务性的信息咨询机构;2)利用数据仓库来优化企业内部的管理和控制;3)利用数据仓库为企业开拓新的商业机会,主要包括帮助市场、销售部门对客户情况和市场情况进行分析,帮助企业决策制定者提供辅助决策信息。具体来说,包括信息服务的智能化、知识化、个性化和敏捷化。
1.2 企业建立数据仓库的必要性
对一个企业来说,是否有必要建立数据仓库以及建立哪种数据仓库应该基于企业内部结构的复杂度和企业产品的市场规模以及客户规模来进行综合判断。一般来说,市场规模与客户规模大、内部结构复杂度高的企业有必要建立优化企业内部管理和控制以及为企业增加商业机会的数据仓库;市场规模与客户规模小、内部结构复杂度高的企业有必要建立有户企业内部管理和控制的数据仓库;市场规模与客户规模大、内部结构复杂度低的企业有必要建立为企业增加商业机会的数据仓库。市场规模与客户规模小、内部结构复杂度低的企业就没有必要建立数据仓库。
2 企业数据仓库的建立
数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。数据仓库包括数据、技术、应用三方面的要求,只有把良好的数据模型、合理的技术和准确的应用设计结合起来,形成一套有效的方法,才能建立一个成功的数据仓库系统。因此,数据仓库系统的建立应从数据、技术、应用三方面展开,然后进行数据仓库的部署,最后将数据仓库投入运行。其基本框架如图1所示。
2.1 数据进入数据仓库的过程与建立数据仓库的步骤
2.1.1 数据进入数据仓库的基本过程
操作数据向数据仓库的移动包括:抽象、转换、清洗、加载和集成。抽象是指从操作型数据库中选择并提取所需要的字段;转换是指为来自数据源的所有数据指定常用的格式和名称;清洗是指尽量更正错误的数据;加载是指把净化过的数据载入数据仓库中;集成是指预运算任何期待的数据仓库数据的汇总以供日后使用。
2.1.2 建立数据仓库的步骤
收集并分析业务需求;建立数据模型和数据仓库的物理设计;定义数据源;选择数据仓库技术和平台;从操作型数据库中提、转换和净化数据并将其加载至数据仓库;选择访问和报表工具;选择数据库连接软件;选择数据分析和数据展示软件;更新数据仓库。
2.2 需求分析
2.2.1 设计需求分析
由于数据仓库的需求非常模糊,因此,数据仓库的设计将需求分析过程贯穿于整个设计过程之中。数据仓库开发过程中每一阶段的每一项任务都是由需求决定的。在设计阶段所作的每一个决策不管是数据设计、体系结构设计、基本结构配置,或者是信息传递方法的安排,都受到需求的影响。因此,需求分析将决定开发过程的每一个阶段。
2.2.2 用户需求分析
1)企业的管理者希望能对该公司的销售部和运作部的信息进行汇总分析,让管理者知道在一段时间内所有客户的销售情况,分析出销售量最大的前几位客户,这些客户的销售旺季与销售淡季的差额是多少,能使企业针对不同需求量提早做好该方面的准备,从而达到工作效率最高、客户满意度最好的目的;2)企业管理者希望对每个客户的销售数量、成本、利润进行分析,确定哪些是贡献量较大的客户,以便对这些客户提供适当的优惠;3)企业管理者希望对每笔运作费用进行分析,建立销售数量、成本、利润之间的数学模型,为管理者确定一个合理的价格提供数学依据。
2.3 数据路线
数据路线涉及模型设计和数据装载接口设计,用以满足对数据的有效组织和管理。模型设计包括:1)概念模型的设计,概念模型的设计主要是对原有数据库系统中的数据进行集成和重组而形成数据集合。首先需要了解企业需要什么类型的数据,已经具备那些数据,然后在考虑应当如何建立数据仓库系统的概念模型。通过概念模型设计,可以确定主要的主题并划分各个主题的边界。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时无需考虑具体技术的限制;2)逻辑模型的设计,通过逻辑模型的设计,可以对当前要装载的主题的逻辑实现进行定义,并将相关的内容记录在数据仓库的元数据中;3)物理模型的设计,通过物理模型设计,可以确定数据的存储结构、存放位置、索引策略及存储分配。
数据封装接口设计,编制数据装载程序,此程序包括数据装载功能和数据综合功能。数据装载功能负责数据的抽取、转换、清洗、集成,数据综合功能负责将集成的细节数据转化为不同综合层次的数据。
2.4 技术路线
数据仓库系统是由完成不同功能的各种不同的部件组成的,各自提供相应的服务。在数据仓库基础构造的支持下,完成所有的功能和服务。数据仓库的基础构造包括所有使体系结构得以实施的基本元素,如服务器硬件、早做系统、网络软件、数据库软件、局域网和广域网、供应商所提供的工具、人员、工作步骤和培训等。技术路线将确定数据仓库的基础构造,这种基础构造包括两类:操作型基础构造和物理基础构造。
2.4.1 操作型基础构造
操作型基础构造包括人员、流程、培训和管理软件。这些人员和流程不是开发数据仓库所需要的,而是这些数据仓库运行所需要的,他们支持数据仓库的管理并保持其工作效率。
2.4.2 物理基础构造
从系统构成的硬件的角度考虑,物理基础构造主要包括计算机平台和一系列工具。计算机平台是数据仓库所必需的,平台的组成部分包括基本的硬件和操作系统、网络及其软件等。各种工具完成各部分的不同功能和服务的体系结构。而数据仓库系统必须在计算机平台环境中运行。
2.5 应用路线
数据仓库的应用设计主要包括OLAP模型设计、数据挖掘模型设计和信息传递设计等。建立数据仓库的最终目的是为了进行分析决策,是为了应用服务的。用户可以使用数据仓库进行联机分析处理,快速、灵活地进行大量的复杂查询处理,并从多个角度直观地观察查询结果,从而准确掌握企业的运营状况,了解市场需求,制定正确方案,增加收益;用户还可以使用数据仓库进行数据挖掘,从数据中发现隐含的有用的信息或知识。为了使数据仓库能更好地满足用户的不同需求,需要设计合理的OLAP模型和数据挖掘模型。
2.5.1 OLAP模型设计
通常我们需要对阶段任务中涉及的维度进行总体分析,然后针对每一个需求确定OLAP展现主题的维度和度量事实,最终为每个主题建立一个OLAP模型。在OLAP模型维度中包括主题维度和非主体维度。主题维度需要通过数据挖掘才能获得结果的维度。不需要进行数据挖掘就能获得结果的维度称为非主题维度。其设计过程如图2所示。
总体维度分析涉及所有维度的总体分析,通常需要完成:1)总体维度的设计,需要确立与任务相关的所有维;定义维度的层次及名称;确定层次信息的位置和目标维;2)主题维度设计,对于每一个需要进行OLAP展现的主题,从总体中选择需要的维度;3)确定事实表度量变量和数据粒度,例如,选择变量Product N来度量产品数量,选择变量time来度量产品生产日程。数据粒度将会影响事实表的大小。4)定义OLAP模型,如果采用MOLAP(多维联机分析处理),OLAP模型可以使用标准星型结构,然后连接维度和事实表以生成一个多维数据表,在此基础上建立多维数据库。如果采用ROLAP(关系联机分析处理),可以使用雪花结构,然后根据用户经常使用的查询和观察角度进行预连接并保留其所产生的中间表。
2.5.2 数据挖掘模型设计
建立数据挖掘的核心是拥有一个良好的数据挖掘模型。根据应用范围、用户最终目标和数据类型选择合适的数据挖掘方法,确定合适的模型,并将其参数校正到最优值。对同一个数据挖掘问题通常有多种可用的技术。可以利用不同的算法和方法建立多个模型,然后在这些模型中选择最符合实际需求的模型,最后利用此模型进行数据挖掘。不同的模型对数据的要求不一样,因此在数据挖掘前需要根据不同的算法要求转换数据的格式;同时为了简化模型结构,需要进行变量选择,去除同目标变量强相关的变量和毫无关系的变量。为了优化模型参数和验证模型,需要将数据划分成训练集、验证集,使用训练集优化模型中的参数,并使用验证集对模型进行评价,数据挖掘模型设计如图3所示。
2.5.3 信息传递
建立数据仓库的目的是为用户提供战略性的决策信息。只有将这些信息很好地传递给用户,才能极大地发挥数据仓库的作用。数据仓库的成功实施取决于信息传递工具的优劣。信息传递工具应当是简单易用的,这样用户才会更加积极地使用数据仓库。
数据仓库与用户的信息传递方式是交互式的,用户从数据仓库获取数据并将其转换成有用信息,以实现这些数据的全部价值。一般情况下,用户和数据仓库之间有六个阶段的交互过程:依据数据仓库中的数据来定义需求;从数据仓库中选择合适的数据子集;用计算机来操作丰富的子集;将行业含义和所选择的数据结合起来;将结果构建成适合用户的格式;用各种方式来表示结构化结果。用户信息接口如图4所示。
2.6 数据仓库的部署
完成上述各项工作之后,进入数据仓库的部署阶段,主要包括用户认可、初始装载、桌面准备和初始培训等内容。
1)用户认可,主要工作是测试所有用户的界面和系统的性能。只有当系统的性能能够满足用户的需求时,应开始初始装载。
2)初始装载,运行数据接口的驱动程序,将数据载入数据仓库。数据仓库管理员需要对数据的质量、可靠性、安全等方面进行综合考虑。必要时,应该进行数据质量评估、加密数据和建立索引等处理。
3)桌面准备,桌面准备的主要工作是安装好所需要的所有桌面用户工具,测试每位客户的计算机。为用户准备好计算机使用平台才能够让数据仓库真正发挥作用。
4)初始培训,初始培训的目的是让用户了解如何使用数据仓库。培训工作包括学习数据仓库的相关概念、内容和数据访问工具,建立对初始用户的基本支持,让用户意识到数据仓库真正为他们服务。
2.7 运行维护
数据仓库建好后就要投入使用、并且要进行维护。任何信息工程项目的实施几乎都离不开运行维护,即使在数据仓库还没有完成投入运行之前,同样需要经历运行维护工作。第一,用户使用数据仓库中的数据进行分析决策,即在数据仓库中建立DSS应用,与此同时开发人员也积极收集用户反馈的意见。第二,开发人员根据用户的反馈意见不断完善系统,配合系统的正常运行。这些日常活动通常涉及过时的数据转换成历史数据,清除不再使用的数据,并调整粒度级别以改进系统。
3 结束语
采用数据仓库的数据模型设计,可解决企业经营管理中存在的一些问题,提高了企业的信息共享度和集成度,提高企业生产效率和经济效益。更快的响应市场需求,做出迅速、准确的决策,提高竞争能力。
摘要:随着世界经济全球化的发展,企业间的竞争日趋激烈。企业如何在最短的时间内、以快速、最少的投入赢得市场机遇,开发用户乐于接受的新产品,并以最快的方式销售产品,是企业在竞争中获胜的关键。文章主要论述了企业建立数据仓库的必要性和企业数据仓库的建设过程。
关键词:企业,数据仓库,建设
参考文献
[1]Sperley.企业数据仓库规划建立与实现[M].北京:人民邮电出版社,2000.
[2]叶嘉.企业数据仓库的体系结构和建设[J].广西科学院学报,2005,21(4):306-308.
[3]蓝箭,金红梅.基于OLAP的企业数据仓库分析模型设计与实现[J].自动化仪表,2006,27(5):8-12.
[4]马秋菊,孙庆群.基于企业模型和数据仓库技术的机械制造业信息集成方法研究[J].制造业自动化,2010,32(7):17-18,28.
[5]李志军,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版社,2008.
OLAP数据挖掘 第5篇
处理后载入数据仓库,可充分利用其中的多维数据分析技术(如OLAP)及数据挖掘工具等对仓库中数据加以智能化分析处理,从而更好地为教学管理者提供决策服务。
本文采用微软公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平台来构建学生成绩仓库,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平台工具来建立BI项目并实现多维数据集的创建、OLAP分析功能。
1 成绩数据仓库的三层建模
本文采用通用的自顶向下、逐步细化的仓库建模方式即三层建模,依次为:概念模型设计、逻辑模型设计、物理模型设计[3]。
1.1 概念模型设计
概念模型设计是一种面向全局的、较高抽象层次上的设计,该阶段主要任务是确定系统中主要主题域及其内容[4]。考虑到学生成绩特点及影响因素,该文把学生成绩分析作为主题来建立成绩数据仓库,仓库中包含学生学籍信息、课程信息、教师信息、班级信息、专业信息、系别信息、学年学期信息和学生成绩信息共八个方面的数据,将学生成绩作为关键性能指标并将除学生成绩信息以外的另外七个方面的信息作为维度数据,所有数据都分别来自学生学籍管理系统、教务管理系统和人事管理系统。
1.2 逻辑模型设计
由于本文需建立的成绩仓库的维度数并不是太多而且数据量并非很大即不会占用较多存储空间,所以针对关系模式的定义以及较高查询效率的需求,这里决定采用星型逻辑模型,如图1所示。
1.3 物理模型设计
目前由于大部分数据仓库都是基于关系型数据库而且数据的最终管理及存放都是由相应数据库系统来处理的,所以这里的物理模型设计就主要考虑关于物理数据库的一些模型设计,如数据的索引、存储及其结构等[5]。
本文设计的数据仓库的核心数据库是微软发布的SQL SERVER 2008企业版关系型数据库管理系统。对实体表的主外键均建立索引以提高响应速度。
2 数据ETL过程实现
本文采用笔者所在工作单位周口职业技术学院几年来的学生成绩相关数据作为数据源。考虑到2007年以前尚未全面启用教务管理系统、时间略显仓促及数据收集和预处理需花费大量时间、精力,所以数据源范围暂先定于信息工程系、机电系和财经系三个系的07级、08级、09级学生成绩数据。
2.1 数据的抽取及清洗
在确定了成绩仓库中事实表及各个维度表的具体结果模型之后,就需要以这些结构模型为重要参考依据分别从各自对应的业务型数据库系统中进一步抽取相关数据并经过预处理后再载入成绩仓库。
数据的清洗主要是对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。一般应视各自具体情况区别对待,不要一律删除。比如对于某名学生,若有少量课程成绩遗漏或出现0-100范围外的个别噪声数据则应考虑取平均成绩替代;若遗漏课程成绩门数较多(4门以上)或因学籍异动造成其数据无法有效参与比较,为保证分析的可靠性则应考虑删除。另外对于一些关于教师、课程、班级、专业维度信息数据的缺失或出现不一致的情况则进一步核实后加以填充。如有重修或补考成绩则均采用正考即首次成绩。
2.2 数据的转换
对于考查课中的“优”、“良”、“中”、“差”四个层次,为了便于统一分析,应向百分制转换。这里对应关系为:“优”-90、“良”-80、“中”-70、“差”-50。此外,对于源数据表中各属性名、类型及长度都要统一设置并与成绩仓库中对应的维度表及事实表保持一致。
2.3 数据的加载
上述各环节工作处理完毕后,接下来就是最后一步即数据的加载。首先在Sql Server 2008 Management Studio环境下建立一个名为“Student MA”的数据库,然后利用Sql Server中的数据导入功能将已整理好的8个数据表导入到新建的数据库中,如图2所示。在载入目标成绩数据仓库数据库后,还需根据星型逻辑结构和物理结构的具体设计来设置好各表主/外键并为其建立相应索引。
3 多维数据集的创建及OLAP技术的应用
3.1 多维数据集的创建
进入Sql Server 2008 Business Intelligence Development Studio集成环境后,新建一个名为“学生成绩多维分析”的Analysis Service即SSAS项目,然后使用“解决方案资源管理器”来分别创建项目的“数据源”、“数据源视图”、“多维数据集”。其中“数据源”所对应的连接字符串代码为:
另外,为了满足决策分析的需要,还需要再通过添加“平均成绩”计算成员来新增度量值,新建的“平均成绩”计算变量(avgScore)所对应的MDX语句为:
CREATE MEMBER CURRENTCUBE.[Measures].avg Score AS round([Measures].[Score]/[Measures].[Score计数],0),VISIBLE=1;
创建后的多维数据集视图如图3所示。
最后,对SSAS项目“学生成绩多维分析”加以部署和处理操作,部署并处理成功的结果如图4所示。
3.2 多维分析及OLAP技术的应用实现
首先可利用SSAS自带的“浏览器”功能进行多维分析和OLAP操作[6]。在“浏览器”界面中,可根据用户的OLAP处理要求来对创建的CUBE加以自由组合其中的维度,只需将左侧窗口界面中的目标对象如维度、维度成员、度量值成员等直接拖动到窗口右侧的显示区域相应位置后即可查看OLAP处理结果。如果要进行数据筛选则需要将筛选条件所涉及到的相应维度名或其成员值拖放到右侧窗口上方的筛选字段指定区域。如图5所示。
另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服务,目前其作为微软前端展现工具中的一个重要组件已在商业智能方面得到了较为广泛的应用[7]。Excel 2007中的数据透视表和数据透视图可直接访问SSAS项目中对应多维数据集,这样就不必开发应用程序即可快速而灵活地生成各种图表及报表。因此可利用该组件来进行多维分析并展现分析结果。
下面通过Excel 2007中的数据透视表来进行多维分析。可在透视表窗口任意组合一些度量值和维度,直接拖动到EXCEL表格模型的相应行列中即可自动生成所需表格数据。如果想以数据透视图方式来展示数据则只需点击工具栏中的柱状小图标即可立即生成对应的透视图。在某些情况下,透视图的显示效果要比透视表会更加直观,如图6、7、8所示。
其中图6为教师、课程、班级所有学年学期信息的汇总显示,细节区域内容为班级人数和平均分;图7为信息工程系建筑设计技术专业在2009年第二学期教师、课程、班级及平均分信息汇总显示;图8为信息工程系道路桥梁工程技术专业在所有学年学期的教师、课程、班级及平均分信息汇总显示。
4 结束语
本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平台成功构建了学生成绩数据仓库并建立了数据集市,然后进行了OLAP即联机分析处理,最后利用Microsoft Excel 2007前台工具中的数据透视表及数据透视图组件对OLAP分析结果进行了直观展示,为管理者进行科学决策分析提供了重要决策依据。另外,增加数据仓库中的成绩数据量以及对成绩仓库中的数据进行深入挖掘分析将是笔者下一步主要研究内容。
摘要:针对存储在事务型数据库中大量学生成绩数据的彼此分散、不一致及各自独立等现状,利用Sql Server 2008 BI商业智能平台及三层建模方式建立了面向分析型学生成绩数据仓库。通过多维数据集的创建、OLAP分析以及EXCEL 2007前台工具中的数据透视表和数据透视图对OLAP分析结果的展示,为教学管理者在决策分析、教学工作趋势的预测及管理措施的制定等方面提供了有力支持。
关键词:成绩数据仓库,OLAP,多维数据集,数据透视表,数据透视图
参考文献
[1]魏丽,王雁苓.高校学生成绩分析数据仓库的建立[J].吉林省教育学院学报,2010(6):42-43.
[2]Jiawei Han,Micheline Kamber.范明,等,译.数据挖掘概念与技术[M].北京:机械工业出版社,2007.
[3]罗跃国.高校教务系统数据仓库的建模及应用[J].长江大学学报:自然科学版,2009(3):235-237.
[4]王丽珍,周丽华.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[5]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[6]黄兴荣,李昌领.基于SQL Server2005的数据挖掘的研究[J].计算机与现代化,2010(5):195-198.
OLAP数据挖掘 第6篇
煤炭企业日常生产活动中, 专项资金计划的实施管理是煤炭企业资金管理的重要环节。目前执行的计划有十几类, 现行专项资金计划管理系统可方便地执行数据的增、删、改功能, 但数据查看一次需生成一次, 并且只能生成1a的数据, 无法实现数据的纵向比较, 分析功能严重不足, 企业数据量的激增也使数据生成面临巨大挑战。同时, 现在的煤炭企业经过整合、兼并形成了大型煤炭集团, 不同级别的单位、厂矿众多, 现行专项资金计划管理系统受服务器能力的限制, 无法满足多用户同时进行查询和当前对历史数据进行快速、准确分析的需求。
本文从实际需求出发, 应用SQL Server 2005Business Intelligence开发平台, 运用联机分析处理 (On-Line Analysis Processing, OLAP) 技术对煤炭专项资金数据进行整合分析, 设计了基于多维方式存储、处理的数据分析系统。该系统建立了新的数据存储方式, 将日常操作数据和历史分析数据分开存储, 提高了管理效率;运用数据科学分析手段, 实现历史数据分析, 从而为企业决策提供可靠支持。
1 OLAP技术概述
OLAP是数据仓库的主要应用。OLAP能使分析人员、管理人员及执行人员从多角度对企业数据进行快速、一致和交互的存取, 从而对企业数据更加深入了解。OLAP的目标是满足多维环境下特定的查询服务和报表需求, 达到决策支持的目的。它的核心内涵是“维”的概念, 由此, OLAP可以看成是多维数据分析工具的合集, 是数据仓库中综合性、大容量数据能够充分分析利用的重要保障。其关键之处是由事实表和维度表共同构建多维数据集, 形成数据的立方体结构。
多维数据立方体的分析操作是基于度量值和维度进行数据分析。度量值是在某一维度上数值的体现, 是基于事实表形成的一种数据结构, 需要分析的数据存储其中。维度是数据显示的条件。在多维数据集中, 数据存储突破了传统关系数据库二维存储数据的局限, 多个维度构成立方体。
OLAP的多维操作方法有切片、切块、旋转、钻取[1]。选定多维数据集中某一维度进行数据展现的动作, 称为切片;选定2个及2个以上维度的动作, 称为切块, 切块可看成是多次切片结果的重叠;旋转操作是基于位置关系的改变实现的, 旋转可能交换行或列, 也可能是在维度的层次之间进行交换;钻取操作改变维的层次及粒度, 上钻得到汇总性数据, 下钻得到更低粒度级别数据。
2 系统结构设计
2.1 OLAP物理存储
ROLAP (Relational OLAP, 关系型OLAP) 和MOLAP (Multidimensional OLAP, 多维型OLAP) [1,2,3]是OLAP多维结构的2种物理存储方式。ROLAP以关系数据库为核心, 多维数据结构是通过映射关系链接到关系数据库中的二维表形成的, 构成一个模拟多维数据集, 其操作对象是传统的关系数据库。MOLAP以多维方式存储数据, 通过建立一个复杂的多维方式的数据集市或数据仓库, 从中提取数据构成事实多维数据集。两者相比, ROLAP在数据管理、加载等方面优势明显, 但是其查询效率、分析能力和维护方面远远逊色于MOLAP;MOLAP虽然查询效率高, 但设计复杂, 数据加载难度大。
结合ROLAP和MOLAP优点的HOLAP (Hybrid OLAP, 混合型OLAP) [4]从实际出发, 实现OLAP数据的灵活存储。本系统采用HOLAP构建一个数据集市作为数据源, 通过建立一定结构的表来存储多层次、多维性的数据;而对于维度层次单一的数据, 则把关系数据库中的数据直接映射到数据集市中, 并不在数据集市中存储, 实现系统的最优设计。
2.2 OLAP组织形式
OLAP中多维数据集的组织形式主要有星型模型和雪花模型[5]。星型模型是1个事实表和多个维度表链接, 每个维度表都和事实表通过关键字链接, 能够直接对事实表进行分析, 查询分析效率高。当多维数据集中的“维”呈现层次结构时, 星型模型无法展现出多维结构的层次性。雪花模型由星型模型演化产生, 在雪花模型中, 将某些维度表升级为自身的事实表, 并在其上添加相关维度表。通过对维度表再次进行维度设计实现用户不同层次的分析需求。
本文将以专项资金计划数据为事实表, 以时间、单位、计划类型等为维度表构建多维数据结构。由于计划类型中有更加细致的分类, 以致计划维度含有层次结构, 所以系统的OLAP组织形式采用雪花模型结构。以专项资金计划中的综合折旧费为例, 其组织形式如图1所示。综合折旧费事实表通过外键链接单位、计划类型等维度表。
3 系统实现
系统应用SQL Server 2005 Business Intelligence开发平台, 首先构建综合折旧费计划数据的多维数据集, 然后使用ETL (ExtractTransform-Load, 数据提取、转换和加载) 工具加载数据, 最后在SQL Server 2005Analysis Services的多维数据集浏览器中展现分析结果。
3.1 多维数据集构建
在已建立的数据集市中, 建立了各个计划数据的事实表以及时间、单位等维度表, 或者将相关维度直接映射到传统关系数据库的相关表结构中。构建多维数据集就是要建立各个分析主题的度量值和其相关维度信息, 并将度量值和维度形成雪花模型的分析结构。系统运用SQL Server 2005 Analysis Services多维数据集向导, 应用数据表之间的键值关系, 手动建立了综合折旧费的多维数据集。
(1) 度量值设计。从数据源中选择综合折旧费表定义为事实表, 并选取折旧费和其他资金2个字段作为度量值。
(2) 维度设计。选择时间、单位、计划类型等相关表定义为维度表。单位和计划类型具有相应的层次结构。因此在单位维度表设计中形成集团公司、二级公司、厂矿层次结构;在计划类型维度表中形成计划名称、分类一、分类二的3层结构;其他维度表则采用了单层结构。
3.2 数据加载
系统通过SQL Server 2005中配置的ETL工具将传统关系数据库中的数据经过提取、转换, 最后加载到多维数据集中。在SQL Server 2005Integration Services中, 通过控制流和数据流2种相互独立的构件完成数据提取、转换、加载任务。
综合折旧费数据加载流程:将传统关系数据库中的文本数据合理地选择出来, 并摒弃冗余数据、派生新列, 再添加元数据, 然后转换数据格式, 最后添加到多维数据集中, 同时设置错误响应处理, 最终将其配置后形成包文件以便调用。
3.3 多维处理结果
运用SQL Server 2005Analysis Services的多维数据集浏览器可以将综合折旧费数据建立的多维数据集的分析结果展现出来。
由于综合折旧费数据具有2种数据分类, 在多维数据集中添加了计算成员用来反映综合折旧费的总体数据走向, 命名为合计。将单位维度、计划维度、时间维度分别加入到多维数据集浏览器中, 清楚地展现了不同单位、不同计划层次、不同年度的数据情况。
首先选取时间切片为2011年的计划数据, 得到对计划维度和单位维度向下钻取到最低层次的分析结果, 如图2所示 (图2中金额单位为万元) 。同时, 系统也可以通过旋转维度, 将时间维度和计划维度交换, 得到不同单位在不同时间同一计划类型下的数据走势, 而传统分析手段实现该操作则要耗费大量时间, 且无法保证数据分析的准确性。使用人员在系统中综合应用切块、钻取、旋转等多维操作, 可方便、迅速、正确地对数据进行全面分析, 得到综合折旧费计划的数据构成、历年走势和单位分布情况等在传统方法中难以实现的分析效果, 从而为企业决策提供可靠支持。
4 结语
基于OLAP技术的煤炭专项资金数据分析系统通过建立煤炭专项资金的多维数据集, 运用OLAP多维分析技术, 能够合理分析专项资金数据, 达到了多用户从海量数据中快速提取有用信息的设计目的, 解决了煤炭企业缺乏专项资金数据分析的现状, 使企业数据得到充分利用, 为企业决策提供了必要支持, 具有良好的实际应用效果。
摘要:针对煤炭企业专项资金数据整合分析功能不足的问题, 设计了基于OLAP技术的煤炭专项资金数据分析系统。该系统采用HOLAP混合结构物理存储数据, 以雪花模型组织事实表和维度表数据, 将数据进行ETL处理后加载到多维数据集;最后采用OLAP多维分析技术实现数据分析功能和良好的用户交互, 可满足专项资金数据分析需求, 为企业决策提供了必要支持。
关键词:专项资金,数据分析,OLAP,多维数据集
参考文献
[1]邓苏, 张维明, 黄宏斌, 等.决策支持系统[M].北京:电子工业出版社, 2009.
[2]何林糠, 李建, 麻荣誉.B/S结构下基于关系数据库的OLAP的研究与应用[J].信息技术, 2011, 35 (1) :130-132.
[3]胡杨, 袁建华.数据仓库和OLAP技术在集团财务分析中的应用[J].计算机与现代化, 2013 (4) :31-35.
[4]聂瑞, 卢建军, 卫晨.基于Hadoop平台的OLAP煤炭销售数据分析系统[J].工矿自动化, 2012, 38 (11) :77-80.
OLAP数据挖掘 第7篇
2010年7月颁布的《国家中长期教育改革和发展规划纲要(2010一2020年)》提出:“信息技术对教育发展具有革命性的影响,必须予以高度重视”。数据仓库是在以事务处理为主要任务的数据库基础上发展起来的,数据仓库的安全控制有着更高的复杂性,原因主要在于数据仓库的建立目的与限制对数据的访问是矛盾的;决定了对数据仓库安全的研究是一个复杂的领域。OLAP是数据仓库之上的一个自然地应用,它使用数据的领域背景知识,允许在不同的抽象层上提供数据。建立决策支持系统主要是基于web数据仓库安全和OLAP技术,既是信息化建设成果的展示,也是向智慧校园迈进的重要里程碑,对高校未来的发展和建设有着重要的实际意义。
1数据仓库安全问题及防范措施
数据仓库中的安全问题涉及到对数据仓库技术实质的理解、 数据仓库的设计、管理、操作等各个方面。尽管数据仓库的目的是利用信息,但还是需要限制数据仓库用户可以访问的信息并控制用户可访问的内容。在数据仓库的建立过程中,每一步的安全都可能受到威胁。从数据仓库的体系结构与资源组成来分析,数据仓库的安全大致包括实体安全、数据安全、软件安全、运行安全四个方面。
传统安全措施包括防火墙、 数据库视图、 基于LOGON/LOGOFF的安全措施等。每一种类型的安全性都是把需要保护的数据库从外部包围起来,这种外部安全管理容易出现人为错误,难以管理。数据仓库的安全需要建立在深层次级别上, 即数据仓库自身内部的数据安全。因此有人提出了数据仓库最有效的安全是内部安全,包括网络系统的安全措施、服务器的安全措施、应用系统的安全措施、信息传输的安全措施及访问控制。 由于数据仓库系统的存在形式大多借助于其它传统系统来支撑, 而这里最直接的安全措施就是访问控制,原有系统的访问控制对于数据仓库的支持明显存在不足,这也是目前数据仓库系统安全防护的重心。数据仓库是一项基于数据管理和利用的综合性技术和解决方案,它将成为数据库市场新一轮的增长点。对数据仓库的安全性访问作为数据仓库技术与信息安全技术的结合点,必将面临更大的挑战和机遇。
2系统设计思路
以三大平台数据库为基础,将数据进行抽取、转换、关联、 整理、存储建立数据仓库,并通过联机分析处理(On-Line Analytical Processing,OLAP)技术对数据进行查询、分析、挖掘、 总结,最后设计开发一套决策支持系统为决策者和管理者服务。 使小数据产生大能量,提高服务质量、提升服务效率、降低服务成本。例如对银校一卡通数据进行挖掘,可以统计出学生每天、 每月、每季度的平均消费金额,对学院贫困生的选择及每月补助的发放金额等相关政策的制定起到指导作用。同时也可以总结出学院食堂的经营状况,就餐人数,各个档口就餐率,以及菜价制定的合理性。对数字校园数据库中学生成绩数据的挖掘,可以总结学生的学习状态,统计各区队平均成绩、学习状元、某一课程历年的分数变化规律等数据,各省市生源的学习状况,对学生评优、奖学金、入党等条件进行总体掌握,对招生时分配各省招生指标提供参考。对数字图书馆数据进行总结归纳,可以总结学生借阅图书的种类、数量以及频率等信息,对图书借阅榜单进行排名。另外,对三个数据库数据进行整合关联,形成数据仓库,再对数据进行挖掘、归纳。可以根据需求查询学生学习成绩与借阅图书数量、种类之间的关系,还可以根据需求查询学习成绩好坏与是否吃早餐之间的关系等特定的检索条件。总之,学院决策支持系统的建立可以提高工作效率、提升组织控制率、改进问题的求解方式、节约时间和成本、提供特定的分析和报表等优势,最终为学院制定相关政策提供科学依据,对学院由数字校园向智慧校园迈进具有重要意义。
3系统设计流程
学院决策支持系统主要是基于数据仓库和OLAP技术为核心,以银校一卡通、数字校园、数字图书馆三个数据平台为研究实例进行数据分析,将系统分为数据源、数据管理、数据分析以及数据应用几个层次来划分。数据源主要是指三大数据平台的数据库,通过SQL Server的导入导出数据功能实现。对数据源进行提取、清理、装载等数据转换功能,形成以学号为关键字段,以消费交易流水、历年学习成绩、借阅图书信息为主体的数据仓库。 数据管理过程主要是通过SQL Server 2008中的整合服务(SQL Server Integration Services,SSIS)来实现的。数据仓库建立后, 联机分析处理(OLAP)是在此基础之上建立的数据分析的高效工具。应用SQL Server 2008中提供一个良好的分析平台Analysis Services,通过数据分析最终以简单易懂的多维图形方式将分析结果展现出来,为决策支持提供可靠的依据。该分析系统的开发环境是SQL Server 2008 + Microsoft Visual Studio 2005,使用C# 语言编写程序代码。系统的开发过程如表1所示。
该分析系统的开发流程基本是按照系统的分析与设计、数据提取、决策支持、系统维护与评价四个步骤来实现的。特别是在分析与设计时重点放在了数据仓库的需求分析、概念设计、逻辑设计、物理设计实现,这也是该分析系统的重点实现过程。在概念设计中主要完成数据仓库内数据的E-R图设计。在逻辑设计过程中,主要是将E-R图转换为数据模型,该系统应采用的是星型数据模型,可以在SQL Server 2008中的Analysis Services工具平台中实现。
以学院三大数据平台中数据作为数据来源,从数据源中提取的数据经过转换装载处理后才能存储进入数据仓库,然后根据用户的需求,利用数据管理中联机处理(OLAP)等数据仓库的应用工具,对数据集市或数据仓库进行决策查询分析或知识挖掘。 最后再将数据发布到前端数据应用层,用户通过前端提供的各种工具(如查询工具、报表工具、分析工具等)处理数据仓库,以供用户决策分析使用,系统设计流程如图1所示。
4结束语
基于web数据仓库安全及OLAP技术的决策支持系统的设计与开发对数据中的隐含信息进行研究和分析,利用学院现有信息化成果,关联三大数据库平台,充分收集、整理学院信息化建设中所产生的海量数据,更好的服务于广大师生,为领导决策提供科学依据,为特定需求提供数据查询、报表等功能、为师生提供更好的服务,为学院的发展方向提供了良好的、有力的决策支持。
OLAP数据挖掘 第8篇
关键词:数据仓库,OLAP,话务分析,Web展示
近年来, 电信市场竞争日益激烈, 行业发展面临着新的机遇和挑战。2008年, 我国对电信业实施了大规模的重组, 形成了三家电信运营商的鼎足之势。必将使竞争更加激烈。与此同时, 客户对电信服务质量的要求越来越高, 用户规模庞大, 并且目前通信网络中各种网元设备类型多, 系统版本多, 涉及厂家多, 网络结构复杂。这些都给通信网络的运行管理增加了一定的难度。改组以后, 现有网管系统已经难以满足新形势的业务需求, 主要表现在: (1) 专业网管历史数据堆积, 数据价值等待发掘, 网管数据仍然分散在各个不同的子系统当中, 难以形成统一运营信息视图, 急需集成共享。 (2) 满足一线运维人员需求的同时, 还需满足战术层、战略层等各种角色用户的需求。 (3) 缺乏对运营信息的有效分析和全面掌控, 无法有效地提供个性化、差异化的服务。
因此需要建立一套综合的话务数据分析系统, 整合现有各专业网管中的数据, 充分利用运营商积累的丰富经验和宝贵数据, 为其提供各种强有力的分析手段, 从海量数据中发现有用的信息, 为网络建设和维护提供有用信息, 为网络运营决策提供支持。
1 数据仓库与OLAP技术
1.1 数据仓库技术
数据仓库的概念首先由W.H.Inmon提出的, 他把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的数据集合, 用于支持决策管理”[1]。数据仓库功能强大的一个原因是它能够集成来自不同数据源的数据。这种集成能力意味着可以利用数据仓库以一个统一的视图来合并系统内的不同数据。
数据仓库的最根本特点是存放海量数据, 而且这些数据并不是最新的、专有的, 而是来源于其它数据库的。数据仓库的建立并不是要取代数据库, 它是建立在一个较全面和完善的信息应用基础上的, 用于支持高层决策分析[2]。数据仓库是数据库技术的一种新的应用, 相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
1.2 联机分析 (OLAP) 技术
联机分析技术OLAP (On-Line Analytical Processing) 是与数据仓库技术相伴而发展起来的, 作为分析和处理数据仓库中的海量数据的有效手段, 它弥补了数据仓库直接支持多维数据展示方面的不足。
OLAP能够使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解[3] 。OLAP的技术核心是“维”这个概念。维实际上是人们观察数据的角度, 是考虑问题时的一类属性。同一个问题, 可以从不同维进行观察分析。可以通过这些维度建立数据立方体 (Cube) , 也叫多维数据集。这是进行OLAP分析的基础。
OLAP多维分析操作包括切片、切块、钻取、旋转等基本操作手段。切片或切块的操作可以降低多维数据集的维度, 将注意力集中在较少的维度上进行观察。钻取是改变维的层次, 变换数据分析的粒度。旋转是改变维度的位置关系, 如行列互换[4]。通过这些操作可以对多维数据集进行深入研究, 从而达到从多个角度、多个细节分析数据的目的。
2 系统设计
考虑到系统应该具有开放性、易于扩展和管理以及使用方便等特性, 系统采用前端数据采集层、SQL SERVER数据仓库和用户终端三层体系结构。数据采集层将各网管系统数据库中的原始业务数据进行ETL处理后存放于数据仓库中, 在数据仓库中建立多维数据集, 用户可以通过Web 浏览器访问多维数据集, 完成所需的OLAP分析操作。
某电信运营商现有的话务网管系统主要有固话网管系统, 信令网管系统和C网网管系统。数据仓库将各网管中的数据做相应处理后集成汇总, 作为数据分析的基础。OLAP能够实现从不同的角度观察和理解数据, 找出网络中存在有价值信息, 并通过Web方式展现出来。
2.1 数据建模
数据建模是解决数据仓库中如何组织数据的问题。维度建模是数据仓库建设过程中的重要数据建模方法。在维度建模中按照事实表和维表来构建数据仓库。数据仓库是面向主题的, 通过对数据源中原有数据进行分析, 确定要建立的主题, 然后按主题进行维度建模, 创建事实表和维度表。以C网话务数据为例, 将一类网元 (如MSC, BSC, HLR, CELL等) 的数据存在一张表里, 因此我们以网元为主题建立数据模型。
由一个事实表和一组维度表构建雪花模型。事实表包含的有关网元的各种业务数据, 维表用来描述事实表中的数据的属性。事实表和主维表通过外键关联。确定数据模型之后, 就可以在数据仓库中根据模型设计创建相应的事实表和维度表。
2.2 数据集成
数据集成是是数据仓库系统的重要组成部分。ETL (Extract, Transform, Load, 即抽取、转换、加载) 是企业数据集成的主要解决方案。通过ETL工具将C网话务网管数据、固网话务数据、信令数据等集成到数据仓库中, 图1是ETL的体系结构。
SQL Server 2008的数据转换服务SSIS是用于生成企业级数据集成和数据转换解决方案的平台。通过 Business Intelligence Development Studio 中的SSIS 图形设计器设计ETL包, 通过调用ETL包将各网管数据库中的数据采集到数到据仓库的事实表和维表中[5]。
2.2.1 数据的增量抽取
数据仓库的数据来自各网管数据库, 如何及时准确地追加数据是保证数据仓库数据质量的关键。网管数据库中的数据都包含时间字段, 因此我们可以利用时间戳方法来解决数据仓库中数据追加的问题。即对时间字段的进行比较, 正确地插入新增数据。为了防止源数据库数据因故未能及时采集数据, 出现数据漏采现象, 在设置采集方案时, 设定每天定时采集前三天的数据, 重复采集, 提高数据的完整性和准确性。
2.2.2 渐变维的处理方法
随着通信技术的不断发展, 为了优化和扩容网络, 网元割接的情况时有发生, 因此网元维就发生了变化。变化是相对缓慢的, 所以称为渐变维。
对于渐变维, 有三种解决方案:
(1) 覆盖当前记录, 不保留历史记录。
(2) 保留历史记录, 增加新的记录。
(3) 保留旧记录, 增加新字段记录变化值。
根据网管数据库的特点, 采用第二种解决方案, 即保留原来的信息, 将割接后的网元的所属关系作为一个新的记录插入到维表中;并在维表中加入开始时间字段和结束时间字段, 开始时间表明网元的启用时间, 结束时间表明网元的停用时间, 结束时间为空则说明网元仍在使用。
2.3 创建多维数据集
将原始的业务数据装载到数据仓库中之后, 就为分析决策打下了重要的基础。但是, 我们进行对数据的多维分析却不是直接针对数据仓库的, 而是从数据仓库中提取的子集, 以此建立多维数据集 (也称数据立方体Cube) 。因此在具体的OLAP分析数据之前通常要创建多维数据集。
多维数据集是二维表格的多维扩展, 数据已经过处理的并聚合成立方的形式。多维数据集通过创建Analysis Services项目来实现。将数据仓库作为数据源, 按照主题内容选定事实表和维表创建数据源视图, 在此基础上把事实表和维表聚合到一起生成多维数据集。
2.4 OLAP展示数据
多维数据集建立后, 就可以在此基础上进行各种查询分析操作。OLAP的前端展现方式运用Web技术, 采用现在较为流行的B/S (Browser/Server) 结构。客户端只需利用浏览器而无需其他终端软件就可以浏览丰富多彩的信息。客户端零维护, 系统扩展容易。
用户在Web浏览器上发出请求, 通过HTTP链接至Web服务器, Web服务器则将请求解析成MDX语句, 并通过ADOMD.NET和OLAP服务器建立连接。通过查询多维数据集将结果返回给Web服务器, 最终由Web服务器传送到用户浏览器上。用户访问基于Web的数据仓库可以是跨部门, 跨区域的, 不同的用户权限会有所不同, 所能浏览的信息也不同。系统在Web上的总体设计如图 2所示。
3 系统应用
通过ETL过程把各网管数据库中大量的业务数据进行清理、抽取和转换, 汇总到数据仓库中, 并按主题的需要重新进行组织, 长期保存。在数据仓库的支持下, 以OLAP技术为手段, 通过建立多维数据集, 实现对数据的灵活动态分析。
3.1 首页呈现
首页为管理人员和网络维护人员提供统一的信息视图, 比较全面了解网络发展和运行状况信息。通过WEB页面的方式向省/地市分公司管理层等相关部门发布前一天移动网络运行的主要信息, 及时了解整个网络的整体运行情况。 对各地市系统前一天的运行情况进行量化考核打分和排名, 以及呈现各地市的无线接通率和交换接通率, 了解各地区的整体运行情况。对于得分较低及接通率较低的地市用红色标记, 督促查找原因, 保证网络运行良好。对于公司较为关心的重要指标, 如A接口话务量、业务信道话务量、VLR开机用户数和HLR生成用户数等, 呈现本月和上月的趋势曲线进行观察和对比, 了解公司的话务总量及用户的规模变化, 为公司经营决策提供依据。系统首页如图3所示。
3.2 网络状况分析
由于将各网管数据进行了集中管理, 可以对公司的整个通信网络概况有更全面的了解。为管理者和分析人员提供统一的信息视图, 通过监控和查看重要的网络业务负荷和网络性能指标来实现对整个网络状况进行监控, 观察和分析。根据指标的意义将指标归类, 分为网络发展、网络质量和网络负荷三部分, 各部分包括具体的KPI指标。
从网络运营宏观分析C网、固网重要KPI指标, 便于用户全方位查看KPI指标的波动情况对比情况。能够实现不同时间粒度、不同地域粒度, KPI指标的同比分析、分布分析、环比分析、24小时趋势分析。
3.3 专题分析
专题分析是根据用户的要求, 将用户关心的KPI指标分成各个分析专题, 如考核指标专题、话务量分析专题、系统性能指标专题、网络负荷专题、CDR业务专题等, 便于分析人员根据通信网络的某些指标, 有针对性的对网络的运营情况进行观察分析, 找出网络存在的问题和隐患, 为网络优化和发展提供决策支持。
3.4 自定义分析
自定义分析能够给分析人员极大的灵活性, 能够进行有针对性的深入分析。选定分析专题, 根据需要方便地设定观察指标和维度, 可以帮助分析人员从不同的角度跟灵活的观察数据, 便于发现存在的问题。例如, 某一时段发现有某个指标的数据不正常, 通过自定义分析对这个指标进行深入分析, 通过OLAP的下钻上钻操作, 找出问题发生在哪一层次上 (MSC、BSC、基站或小区等) , 便于维护人员查找问题。
同时系统还提供报表服务, 为报表分析人员、网优人员、监控人员、维护人员等提 供有关C网和固 网的相关指标报表。
4 结束语
随着电信业竞争的加剧, 电信运维必将走向集中监控、集中维护、集中管理的格局。逐步实现对各专业网络进行集中监控、综合分析等, 使得网络管理机构相对集中, 减少管理层次, 实现网络快速的指挥调度。
话务综合分析系统运用数据仓库技术将各专业网管的数据有效集成和管理, 解决了数据分散和历史数据堆积的问题;利用OLAP技术进行灵活深入的查询分析, 并通过WEB应用连接多维数据集将查询结果展现出来, 满足多层次用户灵活的多视角的网络和业务分析需求。辅助领导层进行网络维护决策, 提高网络业务管理水平, 提升网络运行质量, 提高客户满意度。
参考文献
[1]陈志柏.数据仓库与数据挖掘[M].北京:清华大学出版社, 2009:3-5.
[2]祖巧红, 高海耀, 王慧.基于数据仓库的在线分析及其多维可视化研究[J].武汉理工大学学报, 2009, 31 (18) :108-111.
[3]P lattnerH.A common database approach for OLTP and OLAP usingan in-m emory column database[C].Proceed ings of the 35 th ACMSIGMOD International Conference on Managem ent of Data.USA, 2009.
[4]樊同科.OLAP在电信数据仓库中的设计与实现[J].电子设计工程, 2009, 17 (10) :114-115.