处理数据范文(精选12篇)
处理数据 第1篇
网页设计师在设计网页的时候为了使网页显示效果更为吸引用户, 通常会加入大量图片、动态效果、特效字体等。主要包括:为了使用户更容易浏览网站内容还加入了以列表形式给出的水平或垂直导航条;部分网站会为了帮助用户快速查询信息加入网站内信息查询表单;一般网页底部会包含网站的版权信息、联系方式, 友情链接等;通常商业站为了营利会在网页中插入大量的广告。这些网页中的辅助内容与网页要表达的主题内容并无关系, 但是数据量多内容冗长, 我们可把它们称之为“噪音”。虽然这些噪音信息对用户浏览网站来说具有一定的实用意义, 但是对于机器提取网页数据来说, 这些数据会使抽取结果混乱与内容不纯净失去使用价值。因此, 在对网页进行信息提取之前需要先尽可能多的去除掉这些无关的噪音数据。
通常我们要抽取的内容位于网页的中间, 噪音数据分布在网页正文内容的周围, 普通用户阅读网页上时一般会习惯性地越过广告、导航等信息轻松阅读, 不会去关注这些内容。但是, 对于使用程序去抽去信息时, 我们所面对的不是用户所看到的图形界面, 而是直接分析网页所对应的html源代码。这些噪音数据和网页正文信息混和在一起, 显得杂乱无章, 分析起来十分困难。去掉网页中的噪音数据, 有利于减少其对最终抽去结果的干扰, 提高系统抽取的准确度。同时, 去除内容冗长的噪音数据, 实际上是对网页标记树进行剪枝操作, 可以极大地减少整个网页数据规模, 降低程序计算的时间消耗, 提高了系统的性能。另外, 经过实践证明, 去除一定量的噪音数据后系统运行错误分析跟踪工作也变得容易很多。
2 HTML错误检查与修正
目前大多数网站是HTML格式的, HTML的使用存在随意性, 不规范和不严格等问题。HTML编码不强制要求网页中每一个标签都有结束标签配对, 甚至存在一些错误配对的网页标记, 虽然它们依然能够被浏览器正常显示, 但这些错误可能导致后面的数据抽取工作无法进行。XML (可扩展标记语言) 是由SGML发展而来, 是被设计用来描述数据, 其焦点是数据的内容, 具有定义严格、语法明确、表示方便、结构良好适用于所有行业的新的标记定义等特点。将HTML格式网页转换成结构严谨的XML文档是Web数据抽取工作的必要环节。
HTML tidy是一个开源HTML代码检查工具, 可以指出其中没有完全符合W3C发布标准的地方, 对网页中存在的错误自动进行必需的修正并完成HTML到XHML转换工作, 使代码符合相关标准的要求。JTidy是HTML Tidy用Java语言实现的版本。
Jtidy的使用比较方便, 使用Jtidy时需要以配置文件形式给出修订具体要求。使用Jtidy工具页面进行清洗, 有下面几种预处理规则:
(1) 对HTML标记进行配对闭合
所有的标记必须首尾标记配对, 例如
与结束标记
,
与结束标记
等, 对于单体标记必须以结束, 例如
,
(2) 删除与抽取内容无关的标记
与抽取内容无关的标记一般为注释标记、动态脚本标记、样式标记、表单输入标记。注释标记完全独立于DOM文档树结构, 与本文主要研究的网页层次结构算法无关。页面中大量的动态脚本标记和样式标记它们一般包括大量的修饰作用代码, 经研究对比, 这些代码长度较长远远超过正文内容甚至多达数十倍。去除这些节点有利于后期页面正文抽取。需要删除包括这些节点的起始标记和结束标记以及它们的内容。另外, 在详情页中的长文本中, 通常存在换行标记
或段落标记
, 这些标记会导致系统把长文本分成多段抽取, 在后期数据存储时找到不到其对应属性项, 同样把它们作为噪音去除。
(3) 替换转义字符
网页源码中存在一些特殊字符, 例如“ ”和“&gb;”, 需要转换成对就的空格和>符号。输入:原始未处理html文件, 输出:经Tidy修正后的xml文件。
HTML文档的标记之间通常会包含大量回车、换行符、制表符等空白字符这些字符不是网页抽取内容。虽然这些内容在浏览器中并不显示出来, 但是在后期数据抽取阶段时, XML文档经解析生成DOM树结构, 空白文本会被转成空白文本节点。由于文件中空白节点数目较多, 影响后期抽取算法性能, 并且对用户毫无意义, 所以在本文中也作为噪音数据处理。
3 结束语
过滤掉网页中与用户关注内容无关的页面展示数据, 将分散在html标记中的事实信息抽取出来, 转成结构化的语义清晰的数据以供其他应用程序使用。可以看出, 高效地从网络中抽取有价值的数据的前提是“噪声”的识别和消除。“噪声”的识别和消除, 成为数据抽取的网络信息检索领域中的重要研究课题。
参考文献
[1]毛先领, 何靖, 闻宏飞.网页去噪音:研究综述[J].计算机研究与发展, 2010, 47 (12) :025-2036.
[2]SALTON G, FOX E, WU H.Extended Boolean Information Retrieval[J].Communications of the ACM, 1983, 26 (11) , 1022-1036.
[3]宗永升, 张祎.支持向量机与K近邻结合的网页分类方法[J].计算机仿真, 2010, 27 (9) , 08-211.
数据处理教案 第2篇
引言:
根据高专中专部安排,由我带10级综合班的数据处理课和Office办公自动化课,根据教学的要求,特写此教案,该教案分为5部分,第一部分介绍数据处理定义,结构,常用软件;第二部分计算机基础;第三部分介绍Excel数据处理;第四部分介绍常用数据库(access、sql语句),第四部分介绍简单的关系数据库、数据建模等;第五部分介绍简单的数据处理、报表制作等。
第一部分数据处理定义,结构 第一节 数据处理定义
教学目的:通过对数据处理的定义使学生明白,在当今的社会,数据是如何的重要,数据处理在现代社会中起到什么样的作用。
教学内容:重点是数据处理的定义,难点为如何看待数据和信息的关系,模糊数据和数字数据的区别 教学方法:口述与上机
教学进程:全面4个课时为理论口述讲解,后面4个课时上机介绍数据处理常用软件。
1.1.1数据处理定义
数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程
1.1.2数据处理软件
数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种程序设计语言及其编译程序,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。1.1.3 数据处理方式
根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。
1.1.4 数据处理加工
数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。1.1.5 数据清洗
有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。
第二节数据处理结构
教学目的:通过对数据处理结构的介绍使学生明白数据仓库、数据集市与数据挖掘的关系。
教学内容:重点是数据仓库的图像理解,难点也是数据仓库整体结构的理解。教学方法:口述与上机 教学进程:全面4个课时为理论口述讲解,后面4个课时上机介绍数据仓库案例。
1.2.1商业智能在中国的发展机会(数据处理)
商业智能就像几年前的ERP(企业资源管理)一样,正成为企业首席技术官们关注的焦点,呈现如火如荼的发展态势。众所周知,在ERP等基础信息系统部署完之后,企业能够对其业务数据进行更为有效的管理,于是如何利用这些数据创造价值成为企业下一步思考的问题。
商业智能系统已经作为一种含金量极高的管理工具,融合在部分大型企业管理文化的血脉之中了。商业智能在帮助企业管理层发现市场机会、创造竞争新优势的作用显而易见,因此成为企业信息化的新宠也是必然的。
商业智能软件市场稳步增长
从全球范围来看,商业智能领域并购不断,商业智能市场已经超过ERP和CRM(客户关系管理)成为最具增长潜力的领域。从中国市场来看,商业智能已经 被电信、金融、零售、保险、制造等行业越来越广泛地应用,操作型商业智能逐步在大企业普及,商业智能不局限于高层管理者的决策之用,也日益成为普通员工日 常操作的工具。
不过,尽管这个市场潜力巨大,但仍有不少的现实情况导致这一市场的发育没有大家预期中的那么好。首先一点,国内的成熟、专业的商业智能实施顾问较少,不但上游厂商的相关人才少,下游负责实施的渠道合作伙伴更是缺乏相关人才,很多时候用户要启用商业智能工具,但是不太明确自己的需求,负责实施的人很多时 候也是一知半解,不能给用户很好的解决方案;其次,目前多数商业智能厂商,尤其是国外厂商都是通过分公司或办事处来销售的,而未来国内制造业企业多数需要 本地化服务,这种模式必将改变。同时,商业智能系统的销售、服务要求代理商要有很强的能力,如何选择、培养、发展这些代理商将是商业智能大发展面临的一个很重要问题。
SaaS将成为重要交付模式
同时,商业智能系统的核心不是平台,而是模型。目前,由于国内应用商业智能的企业并不多,应用深入的更少,应用基础也比较薄弱,即使拿来国外先进的商 业模型也不一定能运转起来,所以尽快建立各种适合国内企业特色的模型是各服务商未来要加大投入着力解决的。当然,对企业而言,商业智能的有效应用,离不开 数据的支持。如果没有准确的数据,那么所要分析产生的报表、决策都与事实存在差距,将会导致整个决策的错误,因此,必须要求前期的数据准确。
最后,随着云计算的大规模普及,下一代商业智能的精细分析系统很可能会建设在动态的基础架构上,而虚拟化、云计算等技术的发展也会带动商业智能系统的建设和应用,这就是“云智能”。我国企业需要抓住“云智能”机遇,加快发展、迎头赶上,才能从容应对下一阶段的全球化竞争。
1.2.2数据仓库技术的发展及体系结构 数据仓库技术的发展及概念
传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理工作的。然而,不同类型的数据有着不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不了现代商业企业数据处理多样化的要求。总结起来,当前的商、世企业数据处理可以大致地划分为2大类:操作型处理和分析型处理。操作型处理也叫事务型处理,主要是为企业的特定应用服务的(这是目前最为常用的),分析型处理则用于商业企业管理人员的决策分析,这种需求既要求联机服务,又涉及大量用于决策的数据,传统的数据库系统已经无法满足,具体体现在:
1)历史数据量大;
2)辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;
3)由于访问数据的能力不足,它对大量数据的访问能力明显下降。
数据仓库技术的出现为解决上述问题提供了新的思路。数据仓库的创始人Inmon指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程”。它从大量的事务型数据中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中,作为决策分析的数据基础,从而在理论上解决了从不同系统的数据库中提取数据的难题。同时,利用联机分析处理(OLAP)技术可以对数据仓库提供的数据进行深入加工。
企业数据仓库的体系结构
一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。
1)数据源。
数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RD-BMS中)的各种业务数据,外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。
2)数据的存储与管理。
数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。
3)OLAP服务器。
对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。
4)前端工具与应用。
前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。
1.2.3商业智能(BI)落地需要的三大工具
商业智能(后面简称BI)的各类角色用户必须借助和使用工具实现其需求。BI角色分为业务、业务融合技术、技术这三类,对于其相应的应用需求(含演绎型和归纳型)和管控开发需求,需要借演绎型需求支撑工具和归纳型需求支撑工具,及管控开发型工具来予以实现。本篇先讲述演绎型需求支撑的7种工具,其可分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具;
笔者认为BI以认识论和组织理论为基本原理,采取相适宜的“工具”,旨在帮助 “相关角色”对职责范围内的“有关内容”做出最佳决定的整体解决方案。它由“三维模式”和“三层漏斗”组成,是辅助整个企业集理念,组织,流程,技术为一体的整体决策支持方案三维模式由角色维、内容维和工具维构成,体现了BI的主体、客体和工具等一般性原理。根据BI的定义,只有清晰划分相关角色并据以确定需求,并借助工具才能实现BI辅助主体对职责范围的有关事项做出最佳决定的宗旨。
BI的业务类角色、技术类角色以及业务融合技术类角色对应存在着业务应用需求(指业务类的演绎型需求和业务融合技术类的归纳型需求)和技术应用需求,即管控开发型需求。这种需求能否得以有效实现和提升,必须借助工具。针对三大类角色的两种需求,BI的工具分为应用型支撑型工具和管控开发支持型工具。鉴于文章的范围,硬件支撑工具的内容请参见相关书籍。
应用支撑工具可以分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具。一般来说,这些工具以软件包的形式形成产品。鉴于BI对于业务应用的重要作用及业务应用成功对BI的重要意义,本文着重分析BI的应用型支撑工具,并对有关产品作简单介绍。
一、实现演绎型需求的7种工具
BI的演绎型内容可以分为三个层次:报表查询、综合分析、决策选择讨。如下图所示,BI的演绎型需求通过描述性统计工具、报表与展示工具、经济预测方法与模型、经营技术与工具、OLAP分析及专家系统工具、决策方法与模型来实现。
上图中,描述性统计工具帮助用户在报表查询层次实现对事实的充分了解;综合分析以逻辑的方式帮助相关主体寻求原因或对简单问题直接获得建议,需要运用经济预测方法与模型、经营技术与工具及OLAP分析来得以实现。专家系统和决策方法与模型是实现定量和部分定性决策的有力工具。通过该类工具,用户在决策选择时通过评价各个方案的优劣来辅助主体选择最优,得出结论。BI 演绎型应用的三层次结构合理、有步骤地解决了前提、逻辑规则和结论这一演绎型思维方法的迁移应用。
(一)描述性统计工具
统计的基本意义在于利用统计指标,通过指标值的对比关系和发展变化来研究社会经济现象的数量和数量关系,表明其变化发展的过程、结果及其规律。作为统计学两大基本内容之一的描述性统计是整个统计学的基础和统计研究工作的第一步,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,而对变量的集中趋势和离中趋势的分析则是其主要内容。描述性统计工具指为实现相关主体对基本事实了解的需求而需利用基本指标。这些基本统计指标包括总量指标、相对指标、平均指标和变异指标。
总量指标:表明具体社会经济现象总体的规模、水平或工作总量的数值,是计算各种派生指标的基础。如某集团公司年销量即是总量指标。它可分为总体单位总量、总体标志总量和时期总量(如某个事业部门的总销量)、时点总量(如月末库存)。总量指标可通过直接计算和间接计算求出。
相对指标:表明两个互有联系的社会、经济现象之间数量对比关系的统计指标。如竞争企业之间库存周转率的对比,或行业内某企业销量与行业总销量的对比等等;常用的同比和环比也是相对指标的运用。相对指标反映了社会经济现象的实质及其数量的对比关系,从现象间数量对比关系中清晰地认识事物。其次,可使原来无法直接比较的现象,找到共同的基础进行科学地对比分析。相对指标又包括:计划完成程度指标、结构相对指标(高中低档产品利润在全部利润中的各自占比)、比例相对指标(产品A与产品B的对比)、比较相对指标(某企业销量增长率与竞争企业销量增长率的对比)、强度相对指标(如烟草行业销售情况中条/人指标的对比)、动态相对指标(如历年的销售额的比较)。运用时,要正确选择对比的基数、确定可比的对比指标、相对指标要与对比基数结合使用。
平均指标:反映同质总体内各单位某一数量标志的一般水平,可以对比总体的一般水平,如分公司年平均销量与总公司平均销量的对比,可以进行数量上的推算和预测。平均指标有算术平均数、调和平均数(较少用,主要用于已知标志总量而不知单位总量的情况)、几何平均数(一般用于计算平均发展速度)、众数(一组序列中出现次数最多的数)、中位数(按大小顺序排列的数据中处于中间的数)五种。使用平均数时要与变异指标结合使用,有时需要用组平均数补充总体平均数。
标志变异指标:说明总体各单位某一标志数值差异程度,通过变异指标可以揭示被平均指标掩盖了的差异情况,也可作为衡量平均指标代表性的尺度。可分为:全距、平均差、标准差、标志变异系数。全距是标志值最大值与最小值之差,如2006年某产品在全国各省中最高销量与最低销量之差;平均差是各个标志值与总体算术平均数的离差的绝对值。标准差为各个标志值与总体算术平均数的离差的平方和的正平方根,其值越大表明差异越大,平均值不能很好代表一般水平;标准差与算术平均数的比值称为标志变异系数,用以两个平均数指标不相等时的对比。
描述性统计工具在当前BI的行业应用中非常普遍。值得关注的是,当前一般BI的报表查询应用涉及更多是描述性统计的总量指标、平均指标和比较指标,而对于描述离中趋势的标志变异指标运用得相当不够。事实上,标志变异指标可以解决B I的应用主体很多实质性问题,比如在众多品牌中找到销量不稳定的品牌,在众多客户中找到交易额波动大的客户,这些信息为BI的应用有关主体在研发、生产、采购、销售、库存方面起到较为关键的作用。
(二)报表与展示工具
以报表应用类别区分,BI系统能利用报表与展示工具来生成统计报表和查询报表。查询报表较为简单,根据用户的需求可以较容易地定制。由于中国式统计报表众多的表头项以及表头中首格的一重甚至多种斜线的特征,甚至在表头项中又切分子表头的复杂情况,致使生成统计报表较为困难。国外的BI产品在生成统计报表方面和国内的某些产品相比,如水晶报表,操作过程较繁锁。对于报表的展示,一是产生表格,二是产生与表格对应的图形,如曲线图、柱形图、三维图等。一般来说,要求报表与图形连动。即当报表数据发生变动时,图形跟着变动。或者相反,图形的变动要带来报表数据的变动。这是在钻取时较容易产生的情况。如SAS的Business Intelligence和BO的图形互动功能都能实现此种需求。
报表与展示工具注重实现报表的灵活性,更强调图形展示的美观、图形色彩的模板化定,强调图形种类的多样。这是BI工具的基本功能。前两年大家谈到BI时,更容易评判到某个厂家的BI的界面制作的是否美观等等,这是当时人们对BI应用认识不够造成的。现在厂家在宣传BI时,不仅注重更深层次的综合分析功能和预测、决策功能,更扩大到数据集成与整合,数据存储和元数据管理等全套BI平台上。
(三)经济预测方法与模型 经济预测方法与模型是统计学中统计推断部分的运用,复杂且灵活。它是BI在综合分析层次上的应用。该方法满足业务类用户展望未来的需求。统计推断一般包括参数估计、假设检验以及分类与选择。经济预测方法是参数估计的应用推广,包含了点估计和参数估计,如某上时间段销量的预测值,或者预测值所处的区间。经济预测模型是在预测方法的指导下,根据行业的实际经过修正后建立的预测模型。
定量的预测方法实战中可以建立很多模式,此处以时间序列预测为主简要介绍经济预测方法与模型的运用。
时间序列预测法是动态分析法的一种运用。动态分析法是在统计研究中,把经济现象在不同时间上的数量进行对比,以了解现象变动的方向、速度、趋势和规律,并据此预测未来的方法。动态趋势分析与预测是动态分析法的重要用途。时间序列是动态分析研究的一个主要方面,其前提是编制时间序列,并形成时间序列预测法。当前时间序列有100种左右的预测方法,但其基本方法一般包括简单平均、移动平均、指数平滑、最小二乘等,可以运用到直线趋势预测和曲线趋势预测方面。时间序列影响时间序列的值变化的四种因素:趋势变动、季节变动、循环变动、不规则变动,循环变动在短期预测中通常不考虑。将这四个因素从时间序列值中分解出来的方法称为分解分析法。如2月份在某地的某品牌白酒销量为60箱,通过分解技术,可获知趋势变动(平均水平与增长势头)的影响值为40,中秋的季节变动影响值为15,但不规则变动影响值是5,所以即销量为60。时间序列预测的基本方法结合上述四种因素并运用到直线预测和曲线预测中,就形成了近100种的具体预测方法,如加权平均,加权移动平均、温特斯法等。温特斯法是以指数平滑法为基本模型,结合季节因素并运用到直线趋势中而形成的季节直线趋势和季节变动指数平滑模型。下图分别是直线趋势和曲线趋势预测的结果。
1.2.4数据仓库架构的建立
每一个数据仓库有一个架构。这架构要么是即时的或计划过的;或隐式的或形成文件的。不幸的是,许多数据仓库开发时并没有一个明确的架构,这极大的限制了它的灵活性。在没有架构的情况下,主题区域就无法契合在一起,它们之间的连接变得无目的,并且使整个数据仓库的管理和变更都难于进行。此外,虽然它可能看起来不重要,数据仓库的架构已成为选择工具时的框架。
让我们把开发一个数据仓库与建造一个真正的房屋进行比较。你如何建造一幢300万美元的大厦呢?更不用说建造一间10万美元的房子了。你要有蓝图、图纸、技术规范、和在多个层次细节上显示这个房子将如何进行建造的标准。当然,针对房子的各种子系统要有不同版本的蓝图,如管道工程、电气、暖通空调系统(HVAC)、通信、和空间。针对所有的家用的设备也有相应的标准,包括插头、灯具、卫生洁具、门的尺寸等。
对于数据仓库,架构是对数据仓库的元素和服务的一种描述,用具体细节说明各种组件如何组合在一起,和随着时间的推移系统将如何地发展。就像这房子的比喻,数据仓库架构是一套文件、计划、模型、图纸和规范,针对每个关键的组件区域有独立的分区,并且足够详细到让专业技术人员可以实施它们。
这并是一个需求文件。需求文件说明架构需要做些什么。数据仓库架构也不是一个项目计划或任务清单;它说明数据仓库是什么,而不是怎么去做或为什么去做。
一个数据仓库的开发也并不容易,因为相对于房屋的5000年建筑史,我们发展数据仓库系统只有20年的时间。因此,我们的标准还不多,工具和技术正在快速发展,关于我们已经拥有数据仓库系统的档案还很少,而且数据仓库的术语还有很大的出入。
所以,虽然开发一个架构是困难的,但它也是可能的,并且又是至关重要的。首先,最主要的是,架构应该受业务的驱动。如果你的要求是每夜进行更新,这一要求就该包含在架构内,而你必须弄清实现你目标的技术需求。下面是一些业务需求的例子,和针对每种需求的综合技术考量:
●每夜更新――充足的数据准备能力
●全球可用性—平行或分布式服务器
●顾客层次分析――大型服务器
●新数据源――带有支持元数据的灵活工具
●可靠性――工作的控制功能
关键组件区域
一个完整的数据仓库架构包括数据和技术因素。架构可以被分为三个主要区域。首先,是基于业务流程的数据架构。其次是基础设施,包括硬件、网络、操作系统和电脑。最后,是技术区域,包含用户所需的决策制定的技术以及它们的支持结构。对这些区域将在下文分小节进行详述。
●数据架构
如上所述,在整体数据仓库架构中的数据架构部分是受业务流程所驱动的。例如,在一个制造环境里,数据模型可能包括订单、装运和帐单。每一个区域都依据一套不同的维度。但是在数据模型中对相交维度的定义必须相同。所以相同数据项应该有同样的结构和内容,并有一个创建和维护的单一流程。
当你完成一个数据仓库架构并呈现数据给你的用户,就要做出对工具的选择,但随着需求的设定,选择就会变窄。例如,产品的功能开始融合,就像多维联机分析处理(M OLAP)和关系型联机分析处理(ROLAP)。如果停留在你建造的立方体,多维联机分析处理(MOLAP)便可以了。它速度快又允许灵活的查询――在立方体的范围内。它的缺点是规模(整体上和一个维度内)、设计的局限性(受立方体结构所限)、需要一个专有的数据库。关系型联机分析处理(ROLAP)是多维联机分析处理(MOLAP)的一种替代方案,它克服了多维联机分析处理(MOLAP)的这些缺点。通常,混合联机处理(HOLAP)更受欢迎,它允许一部分数据存储在维联机分析处理(MOLAP)中,另一部分数据存储在关系型联机分析处理(ROLAP)中,折衷了各自的长处。
●基础设施架构
对硬件及数据库选择的问题在于其大小、扩展性和灵活性。在大约80%的数据仓库项目中,这并不困难,大多数企业有足够的力量来应对他们的需要。
在网络、检查数据来源、数据仓库准备区、以及它们之间的任何设施方面,要确保有足够的带宽用于数据的移动。●技术架构
技术架构被元数据目录所驱动。一切都应该受元数据所驱动。服务应该依从表格所需的参数,而不是它们的硬编码。技术架构的一个重要组件是 ETL(提取、转换和加载)流程,它涵盖了五个主要区域:
●提取-数据来自多种数据源并且种类繁多。在这个区域如果有数据的应用时必须考虑对它的压缩和加密处理。
●转换-数据转换包括代理主键的管理、整合、去标准化、清洗、转换、合并和审计。
●加载-加载通常是利用加载最优化和对整个加载周期的支持对多种目标进行加载。
●安全-管理员访问和数据加密的策略。
●元件控制--它包括元件的定义、元件安排(时间和事件)、监控、登录、异常处理、错误处理和通知。
数据准备区需要能够从多种数据源提取数据,如MVS、ORACLE、VM和其它,所以当你选择产品时要具体。它必须将数据进行压缩和加密、转化、加载(可能对多个目标)和安全处理。此外,数据准备区的活动要能够自动化进行。不同的供应商的产品做不同的事情,所以大多数企业将需要使用多种产品。
一个监控数据仓库使用的系统对查询的采集、使用的跟踪是有价值的,而且也有助于性能的调整。性能优化包括通过“管理者”工具进行的成本估算,而且应包括即时查询的时间表。有工具能够提供查询管理服务。可使用工具来针对这些和其它相关任务,如对前台的基于服务器的查询管理和来自于多种数据源的数据。也有工具可用于报表、连通性和基础设施管理。最后,数据访问块应包括报表的服务(如发布和订阅),还应包括报表库,调度程序和分布管理员。
关于元数据
在数据仓库流程中数据的创建和管理要遵循以下的“步骤”:
●数据仓库模型
●数据源的定义
●表的定义
●数据源到目标的映射
●映射和转换信息
●物理信息(表格空间,等)
●提取数据
●转移数据
●加载统计
●业务描述
●查询请求
●数据本身
●查询统计
为显示元数据的重要性,上述的步骤列表中只有三步包括了“真正”的数据-
7、8和12。其他的一切都是元数据,而且整个数据仓库流程都依赖于它。元数据目录的专业技术要素包括: ●业务规则--包括定义、推导、相关项目、验证、和层次结构信息(版本、日期等。)
●转移/转换信息--源/目的地的信息,以及DDL(数据类型、名称等等。)
●操作信息--数据加载的工作时间表、依存性、通知和信息的可靠性(比如主机的重定向和加载平衡)。
●特定工具的信息--图形显示信息和特殊功能的支持。
●安全规则--认证和授权。
建立架构
在开发技术架构模型前,要先起草一份架构需求的文件。然后将每一项业务需求计划包含到它的架构中。根据架构的区域对这些内容进行分组(远程访问、数据准备、数据访问工具等)。了解它如何于其它区域相适应。采集区域的定义及其内容。最后提炼和形成模型的文件。
我们认识到开发一个数据仓库架构是困难的,因此要有一个周密细致的规划。但ZACHMAN框架又超出了大多数企业对数据仓库的需要,所以建议使用一个合理的折衷方案,它由四层流程所组成:业务需求、技术架构、标准和工具。
业务需求本质上驱动着架构,所以要对业务经理、分析师、高级用户进行访谈。从你的访谈中寻找主要的业务问题,以及企业战略、发展方向、挫折、业务流程、时间、可用性、业绩预期的指标。将它们一一妥善归档。
从IT的角度来看,跟现有的数据仓库/决策支持系统(DSS)的支持人员、联机分析处理(OLTP)应用组成员、数据库管理员们(DBA);以及网络、操作系统和桌面支持人员进行讨论。也要与架构师和专业规划人员进行探讨。你应该从这些讨论中得知他们从IT的观点考虑数据仓库的意见。从中了解是否有现存的构架文件、IT原则、标准文件、企业数据中心等。
关于数据仓库并没有太多现存的标准,但对于许多组件来说是有标准的。下面是一些需要牢记的标准:
●中间设备--开放数据库连接(ODBC)、对象链接与嵌入(OLE)、对象链接与嵌入数据库(OLE DB)、数据通信设备(DCE)、对象请求代理(ORB)和数据库编程(JDBC)
●数据库连接--ODBC, JDBC, OLE DB, 和其它。
●数据管理--ANSI SQL 和文件传输协议(FTP)
●网络访问--数据通信设备(DCE)、域名服务器(DNS)、和 轻量目标访问协议(LDAP)
无论它们支持的是哪种标准,主流的数据仓库工具都受元数据所驱动。然而,它们通常并不互相共享元数据而且在开放性上也所有不同。所以,要仔细研究和购买工具。架构师是你选择适当工具的向导。
一个数据仓库架构需要具体到怎样的程度呢?这个问题要问的是:它有足够的信息可以让一个有能力的团队来建立一个满足业务需求的数据仓库吗?至于它要花多长时间,随着更多的人加入到它的开发中来(即:它变成了“复杂的技术策略”)和生成的系统需要变得更复杂(即“复杂的功能”),架构的完成会呈指数倍的发展。
像数据仓库中几乎所有的事情一样,一个迭代进程是最好的。你不能一次做完所有的事情因为它太大了,而且业务不能等。同时,数据仓库的市场还没有完备。所以从流程中影响大、高价值部分开始,然后,利用你的成功去带动另外的阶段。
总结:
综上所述,建立一个数据仓库架构的好处如下:
●提供了一个组织结构的框架--架构对什么是单独的组件、如何将它们组装在一起、谁拥有什么部分以及优先次序的问题划出了界线。
●提高了灵活性和维护性--让你能快速加入新的数据来源,接口标准允许即插即用,模型和元数据允许影响分析和单点的变化。
●更快的开发和再利用--数据仓库开发者更能够快速了解数据仓库流程、数据库内容和业务规则。
●管理和通信的工具--定义未来方向和项目范围,确定职务和职责、对供应商传达需求。
●协调多项任务同时进行——多种、相对独立的工作有机会成功地集合。
我们建议公司对准业务需求而又要务实一些。时刻跟上数据仓库产业的进步是很重要的。最后,请记住架构总是存在的:或隐性或具体的,或无计划或计划内的。经验证明,有一个计划内和具体的架构会使数据仓库与 商业智能项目有更多的成功机会。
1.2.5如何规划数据仓库中的数据清洗
可以将数据仓库的数据清洗比做政客们募集资金的过程。几乎不存在任何一方独立存在的可能性。数据清洗往往是数据仓库项目中时间最密集的,最有争议的进程。
什么是数据清洗?
“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”
在哪里会用到数据清洗的一个简单例子是,数据是如何储存在不同的应用系统中的。例如:2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。
为什么要进行提取,转换和加载(ETL)?
提取、转换和加载(ETL)指的是一种可以帮助确保数据在进入数据仓库之前被清洗过(即符合标准)的工具。供应商提供的提取、转换和加载(ETL)工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载(ETL)工具坐镇在数据仓库之前,监测输入的数据。如果它遇到了程序指定转换的数据,它就会在数据载入数据仓库之前对其进行转换。
提取、转换和加载(ETL)工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具,这要取决于你项目的复杂性和预算。数据库管理员们(DBA)可以编写脚本来完成提取、转换和加载(ETL)的功能,通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务(DTS)的提取、转换和加载(ETL)工具。数据转换服务(DTS)是一款不错的免费工具,但它确实有其局限性,尤其是在数据清洗的持续管理上。
提取、转换和加载(ETL)的供应商有Informatica、IBM(Cognos)及Pentaho等。在对所有产品进行选择时,在接触供应商之前列出你认为对一个提取、转换和加载(ETL)供应商的需求。从咨询顾问那里获得服务还是值得的,它能在产品的选择上帮助你进行需求分析。
数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?
在数据仓库产生的结果符合利益相关者的期望值时,提取、转换和加载(ETL)通常被忽视和置于脑后的。结果是,提取、转换和加载(ETL)冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。
如何规划数据清洗?
及早开始对将要进入数据仓库的数据进行筹划是很重要的,这一筹划可能会随着项目的成熟发展而改变,但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时,这些文件的踪迹就变得极为有价值。
处理数据 第3篇
【关键词】油田数据 信息 数据挖掘技术
【中图分类号】TP391 【文献标识码】A 【文章编号】1672-5158(2013)04-0217-01
一、引言
目前决策科学化、管理扁平化、业务综合化、数据集中化是信息化建设的发展趋势,通过建立数据挖掘系统来处理纷繁复杂、规模庞大的信息数据并且挖掘出隐藏在这些数据背后有价值、有决策意义的信息。
数据挖掘技术概述:
数据挖掘就是从大量不完全的而且模糊的、有噪声的、随机的数据中获取隐含在其中的潜在有用的信息和知识的过程。计算机取证数据挖掘技术可以发现、分析并出示计算机犯罪的未知信息。通过对犯罪属性分类、模式的发现、规则的提取实现计算机犯罪证据的数据挖掘。而广义数据挖掘是把统计数据建立在经验和直觉之上的组合数据挖掘方法,不是仅依靠不完全的数据分析。这样,就避免了大量的、不完全的、有噪声的、模糊的和随机的数据在大多情形下并不具有数据分析情况的出现。广义数据挖掘基本结构如图如下:
二、建立数据应用平台
(1)采用数据挖掘与在线分析技术、数据仓库相结合能够实现不同系统的共享和互联,用户访问信息变得很方便,一段时间的历史数据能够被决策人员用来分析,从而对事物发展的趋势进行研究。通过分析油田数据,建立适合于油田数据信息的数据挖掘应用平台,如下图:
(2)建立油田生产数据仓库
系统主领域的确定、数据建模是构建数据仓库的首要步骤,如在在井组生产中系统主题的确定是:油井生产受注水量的不同和层位不同的注采工艺的影响。其中注水井生产数据、油井生产数据、油井属性数据、生产时间等是分析中要应用到的数据,从而对每个主题的维度和事实进行确定,并且数据仓库的建立使用多维数据模型。在井组生产中,气油比、日产气量、日产液量等事实数据是决策者所关心的。数据的含义是多维数据模型所关心的,并且对分析领域的数据模型能够清晰的表达出来。所以应用多维数据模型来建立数据仓库的概念模型。在建立中首先建立的不是物理模型而是逻辑模型,物理实施在逻辑模型的指导来实现。确定数据源、定义关系模式、划分粒度层次等是设计逻辑模型的主要内容,其中粒度的大小需要兼顾查询分析效率和数据量的大小,并且对数据仓库的分析能力也要进行考虑。如下图是井组生产的多维数据模型:
三、在处理油田信息中数据挖掘的过程
(1)在油田信息中应用数据挖掘技术的时候,必须明确所要达到的目标和要解决的问题。针对数据挖掘的目标进行如下定义:对油田生产中的异常现象应用聚类分析法或分类分析法进行分析、如超注欠注、单量异常变化等。而且对泄露、异常井号及时发现,使生产出运行参数得到优化,确保油田经济、安全、正常运行;对数据之间的联系等利用时间序列分析、回归分析、相关分析等方法进行挖掘,能够检测出油田生产受到各变量的影响程度,便于融合油田分散的数据,对生产的指导也有很大的帮助;在油田生产经营中进行了信息化建设,生产经营的大量成果数据和历史数据得到了很好的积累,进行这些数据背后的知识的挖掘和提取可以采用兴趣模型来实现,对油田生产中的规律进行探索,对未来的生产情况、油藏开发指标等能够进行预测,从而在优化和调整生产方面起到更好的作用。
(2)数据准备阶段在数据仓库中完成之后,接下来需要进行模型应用、建立模型、数据探索等工作。在数据挖掘工作中建立数学模型是核心环节,各种数据挖掘算法在这一模型中有效的集成,如贝叶斯预测、模糊聚类、神经网络、统计分析、决策树、关联规则等吗,通综合和比较多种建模方法来实现数学模型的建立,并且数据被分层为校验数据和训练数据,在模型检验主要使用校验数据,在求解模型参数中主要使用训练数据。在已经建立的模型中代入检验数据是模型检验阶段的主要任务,并且要对模型的响应进行观察,模型准确程度的评估是通过真实数据和模型相应的比较来实现的。倘若是比较差的模型准确性,那么就要建立新的模型、重新进行数据探索,指导新模型检验。所以,模型检验、建立模型、数据探索在实际应用中是反复迭代的过程。
(3)在大量数据采集中选择训练样本,很可能出现数据误差,网络训练的准确性会受到一些明显矛盾的影响,网络识别的能力降低,所以必须有效的筛选训练样本,经过专家经验和用户对数据挖掘阶段发现模式的评价,剔除无关和冗余的模式,当用户的要求模式不能满足的时候,整个发现过程需要对数据进行重新选取,换一种算法进行再次挖掘,或对数据挖掘参数值进行重新设定、应用新的数据变化方法。通过图形化的方式把一些正确并有趣的模式呈现给用户。
四、结束语
数据上报“巧”处理 第4篇
一、耐久跑项目数据输入错误“巧”处理
《标准》指出, 在耐久跑项目上报中, 学生成绩录入就以“X′XX″”或“X′XX”进行输入, 但在教师们输入成绩过程中, 难免会因为各种原因使数据输入错误而造成上报出现问题, 输入成绩时误把“′”输入成圆点“.”或全角的单引号“’”, 或者误输成其他违规符号, 按如下操作即可完成数据“回归”。
操作流程:打开图表, 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——表格B列“性别”栏, 筛选“2” (女生) ——表格内“800米跑”栏, 筛选查看都有哪些违规符号, 浏览好后全选“I”整列——操作栏内点“开始”, 在下方最右侧“查找和选择”——点击“替换”——在“查找内容”内填写违规符号“.”——在“替换为”内填写正确符号“′”——最后点击“全部替换”。其他违规符号替换重复最后三步操作即可。
二、性别和成绩输入错误“巧”处理
在输入成绩过程中, 因数据过多、过杂, 可能会在成绩录入过程中将男、女生的项目成绩混淆, 可以按如下操作进行查询与修改, 以女生“一分钟仰卧起坐”和男生“引体向上”两个项目为例。
操作流程:打开图表 (见图1) , 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——表格B列“性别”栏, 筛选“1” (男生) ——表格内“一分钟仰卧起坐”栏, 筛选查看是否有数据存在, 如有数据应按规定核对后进行删除——返回表格B列“性别”栏, 筛选“2” (女生) ——表格内“引体向上”栏, 筛选查看是否有数据存在, 如有数据应按规定核对后进行删除——操作完毕后保存表格即可。
三、数据处理时对未参加测试人员或成绩“录入值”不合理“巧”筛选
在成绩录入过程中难免会有“未测”或“录入值”不合理等情况出现, 应如何进行操作和合理地查询统计呢?下面以excel表格筛选功能进行查询和统计:
操作流程:打开图表 (见图1) , 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——在表格“C”列, 筛选“身高”值——查找身高值的正确情况, 将“全选”去钩, 点击向下拉箭头, 查看是否有不合理的数据, 然后选中, 再确定, 查找原始测试数据并进行核对和修改, 如没有进行下一步操作——将“全选”去钩, 点中下拉菜单找到“空白”项目选中, 确定, 找到空白人员, 查找相关信息, 如没有, 自首行首列“A1”起, 点击鼠标左键向右下拉至无数据 (将所有数据选中) , 松开左键进行全部筛选数据选取, 按“ctrl+c”键复制 —— 点击表格左下新建表格“sheet1”, 点击首行首列“A1”按“ctrl+v”粘贴数据, 最后按“ctrl+s”将数据保存。说明:如经确定此学生数据无法查找或学生是“免修”, 要返回上表重复操作, 对此行数据进行删除处理方可上报 (因上报成绩所有数据不能为“空”) 。其他所有项目查找统计同上操作即可完成数据整理。
四、数据上报“名字”、“数据”或表格不统一“巧”处理
在数据上报过程中的最后一步, 常常会碰到如下情况 (见图2) 。
此情况表明, 在操作过程中可能无意中在表格的其他位置输入了不合法的字符或对表格进行了不合理操作, 运用excel表格最简单的对齐语句“=”进行操作, 会更加便捷, 操作如下。
数据处理面试题 第5篇
*p = *p|(0x01<<(posi%BYTESIZE));//将该Bit位赋值1
return;
}
void BitMapSortDemo
{
//为了简单起见,我们不考虑负数
int num[] = {3,5,2,10,6,12,8,14,9};
//BufferLen这个值是根据待排序的数据中最大值确定的
//待排序中的最大值是14,因此只需要2个Bytes(16个Bit)
//就可以了。
const int BufferLen = 2;
char *pBuffer = new char[BufferLen];
//要将所有的Bit位置为0,否则结果不可预知。
memset(pBuffer,0,BufferLen);
for(int i=0;i<9;i++)
{
//首先将相应Bit位上置为1
SetBit(pBuffer,num[i]);
}
//输出排序结果
for(int i=0;i
{
for(int j=0;j
{
//判断该位上是否是1,进行输出,这里的判断比较笨。
//首先得到该第j位的掩码(0x01<< p=“”>
//位和此掩码作与操作。最后判断掩码是否和处理后的
//结果相同
if((*pBuffer&(0x01<
{
printf(“%d ”,i*BYTESIZE + j);
}
}
pBuffer++;
}
}
int _tmain(int argc, _TCHAR* argv[])
{
BitMapSortDemo();
return 0;
}
可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下
基本原理及要点
使用bit数组来表示某些元素是否存在,比如8位电话号码
扩展
Bloom filter可以看做是对bit-map的扩展(关于Bloom filter,请参见:海量数据处理之Bloom filter详解)。
问题实例
1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。
8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。 (可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)
2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。
数据处理非常道(上) 第6篇
经常有朋友分不清楚数据分析与数据处理这两个概念,常常混淆使用。那到底什么是数据处理?它跟数据分析有什么区别呢?为何要进行数据处理?包含哪些处理方法?在Excel中如何进行数据处理?
数据处理是根据数据分析目的,将收集到的数据用适当的处理方法进行整理加工,形成适合数据分析的要求样式,也就是一维表。数据处理是数据分析流程中必不可少的阶段,并且需要花费整个数据分析流程70%~80%的时间。
数据处理的目的包括以下三点:
1. 抽取、推导出有价值、有意义的数据;
2. 将采集到的原始数据转化为可以分析的形式;
3. 保证数据的一致性和有效性。
数据处理主要包含五大方法:数据清洗、数据抽取、数据合并、数据计算、数据转化。
数据清洗,顾名思义,就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或剔除,最后的数据应该达到“多一分则肥,少一分则瘦”的状态。
清除重复数据
在Excel中,查找或删除重复数据的常用方法主要有:
* 条件格式标识法
* 高级筛选法
* 函数法(Countif)
* 菜单删除法
* 数据透视表法
每种方法各有优缺点,需要根据实际情况选择使用。
条件格式标识法只能告诉你哪些数据存在重复,而不会告诉你各个数据各重复多少次,共有多少个重复数据。
Countif函数对思维逻辑要求高且编写麻烦,不适合用于大量数据的去重。
高级筛选法与菜单删除法则无法告诉你哪些数据存在重复。也不会告诉你各个数据各重复多少次,共有多少个重复数据。只会告诉你去重后的结果。
处理重复数据,推荐使用数据透视表法。它不仅能告诉你去重后的结果,还能告诉你各个项重复的次数。而且,只要用鼠标轻松拖动字段,即可得到我们所要的结果。
现在我们就以上期的通话清单为例,来分别得到去重的结果及各个号码重复的次数。具体操作步骤如下:
步骤1:用Excel2010打开通话清单,点击“插入”选项卡,在“表格”功能组中,单击“数据透视表”按钮,选择“数据透视表(T)”项(见图1)。
步骤2:在弹出的“创建数据透视表”对话框“选择一个表或区域”中选择数据源单元格范围,本例为“Sheet1!$A$1:$H$157”,在“选择放置数据透视表的位置”中选择放置数据透视表的位置,本例为“现有工作表”,位置为“Sheet1!$J$1”,并单击“确定”按钮(见图2)。
步骤3:在弹出的“数据透视表字段列表”对话框中,将“对方号码”字段拖至行标签,这个时候就得到了去重后的号码,这是在上一期数据理解部分介绍数值型数据时提到的一种特殊的分类数据。这里就是利用该原理,把号码当做分类数据拖至行标签处,得到每类数据即可实现数据去重(见图3)。
步骤4:在第三步的基础上,再次将“对方号码”字段拖至数值汇总区域,即可得到各个数据项重复的次数,简单、方便、快捷(见图4)。
缺失数据处理
缺失值是指数据表中某个或某些属性的值是不完全的,这在数据分析中很常见。缺失值是因人为、机械等各种原因而导致数据的不完整。机械原因指由于数据收集或保存失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集;人为原因指由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如在市场调查中被访人拒绝透露相关问题的答案,或者对问题的回答是无效的,又或数据录入人员失误漏录了数据。
处理缺失值的方法有四种:
(1)用一个样本统计量的值代替缺失值,如使用平均值;
(2)用一个统计模型计算出来的值去代替缺失值,常使用的模型有回归模型等;
(3)将有缺失值的记录删除,不过可能会导致样本量的减少;
(4)将有缺失值的个案保留,仅在相应的分析中做必要的排除。
上述这些操作不需要人工进行处理,SAS、SPSS等专业的统计软件都有现成的功能菜单可一步实现,故对此部分不再进行Excel相应操作的介绍。
检查数据逻辑
错误数据一般有两种形式:
(1)数据超出正常范围:例如某项数据的正常范围为0~10,结果出现了0~10之外的数据。在Excel中检查数据是否超出正常范围,可以使用条件格式对异常数据进行标示。
(2)数据选项超出规定项数:市场调查中常见这样的错误,例如“最多选择3个选项”的多选题,答题者选择了4个选项。在Excel中检查数据选项是否超出规定项数,可以使用If+Countif函数组合嵌套的方式进行判断识别,如图5所示,第二条记录就是选了A、B、D、F四项,不符合选三项的要求,所以Countif函数用于统计“不等于0”的选项个数,并用If函数进行判断“不等于0”的选项个数是否大于3个,是的话就赋值“错误”,否则就赋值“正确”。
本期数据处理技巧就介绍到这里,下期将介绍数据抽取与数据合并两方面的数据处理技巧。
编辑:单之卉 / 邮箱:szh@bjstats.gov.cn
巧用数据库处理复杂的人事数据 第7篇
在处理人事数据时, 经常会遇见两个或多个Excel工作表存放不同时期的数据, 要比较各项字段是否发生变化。如表1和表2。
要进行数据核对比较原始的办法就是把它们打印出来, 人工的逐一核对, 这样做既浪费了人力又收不到好的效果。
另一种办法是使用Excel中提供的函数来帮忙, 先把每个工作表按姓名字段进行排序, 再把一个工作表的内容拷贝到另外的工作表中, 让姓名相同的各项信息在同一行, 这时就可以使用EXACT () 函数来帮忙, 通过函数值是T或F来判断数据是否发生变化。但这种办法会因为不同时期人员发生增减变化, 而需要大量的人工调整, 使一个人的信息在同一行上, 所以大批量的数据核对时也不建议使用这种方法。
二、数据核对
既然存在着这么多困难, 最好的办法是使用数据库, 用程序来帮忙, 这样既快捷又准确。下面我们以VF数据库为例来简单介绍核对过程。
1、工作表转换成数据库文件
a、为便于编程, 把工作表中姓名和职称字段都改成简单的缩写XM和ZC, 便于区分, 2个工作表中职称字段分别用ZC05和ZC08表示。并在每个Excel工作表中加入一个BS字段进行标识, 内容是空。
b、先打开表1工作表, 选择文件菜单中的另存为。在另存为对话框中, 路径选“D:数据核对”, 文件名就写成05年信息.dbf, 注意文件类型要选择“DBF 4 (Dbase IV) (*.dbf) ”。08年信息.dbf类同。
2、核对
a、安装VF软件。
b、打开VF软件, 新建->程序->新建文件, 生成程序核对.prg文件。
显示的就是职称信息发生变化的人员。
如果想在同一个库中看一下信息的改变, 先在08年信息.dbf加入一个ZC05字段, 并调整主要程序如下:
即可清晰地看见职称变化的情况。
当然, 用同样的办法也可核对学位是否发生变化, 只要把Allt (ZC05) ) ==Allt (B->ZC08) 命令改成Allt (XW05) ) ==Allt (B->XW08) 即可, 当然也可以同时进行核对, 使用AND并行两条命令即可。
3、数据库文件转换成工作表
在VF环境下, 打开数据库文件:USE“D:数据核对�8年信息.dbf”EXCLUSIVE,
选文件菜单中的导出, 在类型中输入:Microsoft Excel 5.0 (XLS) 。在到中输入:D:人事数据核对核对后信息即可。
三、结论
前面简要介绍了工作表和数据库文件相互转换的方法, 使用数据库, 运用程序灵活性的特点进行数据核对, 既快捷又准确。摆脱了复杂的人工作业, 收到了事半功倍的效果。
参考文献
《用公式处理数据》教案 第8篇
《用公式处理数据》是初中信息技术第四册模块一的内容。它是学生学习Excel的入门操作, 同时也是整个初中阶段的重点学习部分。本课是第四册的重点学习内容, 也是整个初中阶段学生应该掌握的重点操作。
二、教学目标分析
1. 知识与技能目标
(1) 知识目标:掌握Excel中公式的定义及书写格式;学会相对引用和绝对引用的使用方法。
(2) 能力目标:能依据所学知识, 完成当堂练习题, 并对所学知识有所拓展。
(3) 情感目标:通过小组协作完成数据的处理, 培养学生的合作、探索精神。引导学生在学习过程中积极思考、勇于实践, 体验学习的乐趣。
2. 过程与方法
(1) 教学过程:以教师为主导, 学生为主体, 以训练为主线。
(2) 教学方法:激情导入———任务驱动———点拨释疑———成果展示。
三、学习者特征分析
通过前几课的学习, 学生对Excel已有了初步了解, 对数据已有了基本的处理能力。用公式处理数据是学生在日常生活中经常用到的操作, 所以, 他们对本模的学习较有兴趣。
四、教学资源与工具设计
多媒体教学环境、PPT。
五、教学过程
1. 课前准备
教师要求学生总结生活中用到数据的例子。
(设计意图:引导学生感受数据、了解数据的功能。)
2. 教学过程
(1) 导语:还记得老师留给你们的任务吗?找到了吗?
(2) 教师出示PPT, 学生跟随教师引导认知数据, 明确当堂学习任务。
(设计意图:让学生很快进入教学情境, 认知学习目标。)
(3) 出示例题, 教师提问:“可以用什么方法来处理例题中的数据?”学生畅所欲言, 教师启发学生把处理数据的过程说完整。
(4) 学生自主操作, 教师要求学生在操作过程中总结出处理数据的多种方法。
(5) 学生交流得出数据的操作步骤, 教师抓住重点操作, 出示PPT:公式的定义及格式, 以及相对引用和绝对引用在公式中的应用。
(6) 通过让学生做当堂达标练习题 (当评委) , 熟练掌握运用公式处理数据的操作。
(设计意图:让学生结合实践, 带着问题学习轻松又快乐。)
3. 成果展示
让学生进行学习成果展示, 此过程中让学生学会分享他人成功, 并能客观地对同学的成果进行评价。
4. 综合实践活动阶段
(1) 教师导语:Excel是帮助我们处理数据的好助手, 请同学们通过“联欢会购买食品费用表”, 来感知公式的强大功能。
(2) 学生结合所学知识, 根据题目要求进行操作。
(设计意图:将日常生活中的实例与所学操作有机结合, 引导学生在完成任务的同时, 学习相应的信息技术知识和方法。)
六、教学反思
基于大数据的数据处理方法研究分析 第9篇
1 数据记录
1.1 数据处理一般流程
1.1.1 明确研究目的
处理数据时, 选择与研究方向有关的项目进行整理, 这样才能清晰了解所求, 继而最大限度的找到数据背后的有价值信息。
1.1.2 获取数据, 分类存放
在数据存放前, 对所需要研究的各个相关因素进行分类, 条分缕析, 然后将数据对号入座, 这样在处理信息时, 才能游刃有余。
1.1.3 数据分析和高效整理
收集到的数据是海量的, 想要获取数据背后的信息, 必须选择高效的数据处理工具。分析数据即研究数据的变化规律, 从规律中找到其发展趋势, 及弄清楚数据之间, 多因素影响的, 错综复杂的相关性。高效整理, 即是运用合适的数据处理工具, 将这些相关性进行直观再现, 使之便于观察分析。
1.1.4 模块化
建模是很好的数据处理研究方法, 也是深入挖掘数据背后隐藏信息的关键。经过前三步的处理, 我们获得的信息已经基本明确, 但是他们具体到准确预测还不能满足, 前面找到了各个因素之间的相关性, 或正相关, 或负相关, 再或者是无关的, 我们再通过建立模型的形式, 将这些相关因素集合在一个表达式中, 这样, 只需要提供有限数据, 就能预测其他数据的发展轨迹。
1.1.5 常用的数据处理方法
(1) 柱状图法:柱状图会将所有数据展现在一个面上, 各项目的具体数值可以直接在图上找到, 使得在处理数据时, 即可以可到走势, 又能找到具体值, 更加方便。
(2) 直方图法:直方图是一种二维统计图表, 两个坐标轴分别代表统计样本和该样本对应的某个属性的度量。正常情况下, 直方图呈现中间高, 两边低且近似对称的状态, 而对于出现的异常状态, 如孤岛形 (中间有断点) , 双峰形 (出现两个峰) , 陡壁形 (像高山的陡壁向一边倾斜) , 平顶形 (没有突出的顶峰, 呈平顶型) 等, 每种形态都反映了数据的不正常, 继而反映事件的不正常, 如陡壁形就说明研究的产品的质量较差。这时我们就要对数据进行更深入的整理。
(3) 折线图法:折线图是数据走向的最直观表示, 通过线的曲折变化, 对于评估各阶段的数据发展有极大的优势。在折线图上, 还可以将各个相关因素聚集, 根据图形形状, 也能更好的比较各因素的主次。
(4) 回归分析法:回归分析法, 就是在拥有大量数据的基础上, 利用数学统计的方法, 建立因变量与自变量之间的回归方程。由此来预测因变量与自变量之间的关系。前面的柱状图, 折线图, 以及直方图, 都只能展现数据发展趋势, 但回归分析中得到的回归方程, 可以将这些相关性量化, 使之具有实用价值。回归分析的假定, 统计和回归诊断对于线性回归极有优势。另外, 对于非线性关系, 回归分析也能通过虚拟变量, 交互作用, 辅助回归, 条件函数回归等方式找到隐藏信息。
1.2 实例分析
统计湖北省2009-2013年交通事故发生情况:
(1) 根据事故发生的原因:醉酒驾驶, 超速行驶, 违章操作, 逆道行驶, 车辆性能问题, 路面问题, 指示牌混乱, 以及其他原因, 对数据进行分类整合。
(2) 根据事故发生的地点:高速路, 山路, 拐角处, 人口密集处, 以及其他可能地点对数据进行分类整理。
(3) 统计事故发生的总起数, 死亡人数, 受伤人数, 直接财产损失等一系列数据。
2 数学中数据处理
2.1 柱状图分析法
柱状图可以很直观的展现各年的交通事故发生起数, 配上直方图, 很容易看出事故的数量变化。分析得知事故发生数是逐年增加的, 需要引起大家的注意。
2.2 折线图
可以通过线的走势, 预测各个发生相之间的关系。由于数据走势, 可发现, 事故起数与受伤人数, 死亡人数呈现正相关, 要减少受伤人数, 死亡人数, 必须从源头上入手, 减少事故的发生。
虽然高速公路上的事故发生数依旧很大, 但是已呈逐年减少的趋势, 说明现在高速公路的建设和管理势头良好。而在山路, 拐角处, 人口密集处的事故发生数逐年增加, 以此提醒相关部门要重点维护这些地区的安全, 加强安全防范, 做到防患于未然。
2.3 回归分析法
回归分析法, 就是在拥有大量数据的基础上, 利用数学统计的方法, 建立因变量与自变量之间的回归方程。由此来预测因变量与自变量之间的关系。计算残差, 方差, 标准差, 做残差图, 并根据图来预测事故的发生走势。
3 结语
面对浩瀚的数据, 我们想要找到数据背后的信息, 就必须用高效的数据处理方法, 本文讲述的柱状图法, 折线图, 直方图以及回归分析法, 都能将枯燥的数字变成鲜活的图像表征, 使得数据处理和分析变得简单, 方便。
摘要:数据是传递信息的媒介, 信息是数据的外在表现形式。随着网络的发展, 我们已经进入一个信息膨胀的时代, 面对大量的信息, 如何准确高效的提取有效信息成为处理数据信息的关键。本文通过分析一个交通数据案例, 设计合理可行的数据处理方案, 以此来对大数据的处理方法进行研究分析。
关键词:大数据,数据处理,信息挖掘,数学模型
参考文献
处理数据 第10篇
1 数据挖掘
数据挖掘(Data Mining)是从大量的无关数据中,得出潜在的、有价值的知识(模型或规则)的过程,是一种数据深层次的分析方法。数据挖掘是一门交叉性学科,其包括机器学习、神经网络、数据库、模式识别等计算机学科方面的知识,又包括数理统计、粗糙集、模糊数学等相关数学方面的学科知识。数据挖掘过程经过数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示一系列的过程。该过程不是一次完成的,其中的一些步骤或整个过程都是经过数次数次或反复进行的。进行数据挖掘的非常多,比较常见的有:关联规则方式、多层次数据汇总归纳方式、决策树方法方式、神经网络方法方式、正比例覆盖排斥反例方式、粗糙集方式、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技术等[1];以上诸多方式中,以下几种方式比较适合于高校学生信息海量数据处理。
1)关联分析。关联规则挖掘是数据挖掘处理数据的重要方式,也是最常见的一种技术。
关联规则描述的是存储在数据库中数据数据项之间的潜在关联。其理论来源于现实生活中市场购物篮物品分析模型,目的是通过分析购物篮内物品,得出顾客购买物品方式;现在关联性原则不在局限于分析消费者潜在的购物模式,已经拓展到诸多领域内,例如学生管理工作,通过分析学生几个学期内的学生表现,得出适合学生的最佳学习模式等等。
2)分类与预测。分类是将数据根据某种数据分类原则,将大量数据划分到若干个类别中的某一类别中,减少数据的分析量。
分类预测一般分成两个步骤:第一步,构造分类器,利用构造所得的分类器对数据进行分类;分类其实是一种指导数据学习的过程,将数据置放于已知的样本训练集中,并且这些类别是根据模型预先设计好的,个数是确定的,目的是将分类的模型用于下一步的预测中;第二步,预测;预测是根据源于的模型和经学习训练的模型对未知的数据和数据类别对象进行类别预测,得出分类的数据,从而减少数据的查询量。
3)聚类
聚类和分类预测大致相同,主要区别在于聚类是一种无指导的学习过程,面对海量数据,事先并不知道样本的类别,也不知道样本类别的个数,而是将数据划分成若干个组,在划分中使同一组内的数据对象具有较高的相似性,而不同组中的数据对象相似性较低;形成的聚类运用于不同数据处理过程,有效降低数据处理量。
4)决策树方法
决策树数据挖掘方式是利用信息论中的信息(信息增益),从中寻找存储于数据库的数据具有最大信息量的属性字段,把该字段建立为决策树的一个结点,然后根据该结点字段的不同取值建设树的分支,决策树的每一个分支的结点按照同理的方式建立结点和下层的分支。决策树是一种数据的“分治策略”,将比较复杂的问题分解成若干个相对简单些的子问题,通过解决若干分支简单问题,从而解决整个复杂问题。并且,分支的问题还可以递归,在对问题进行分解,即接着分解,直至分解成最简单的元问题为止。其中,在该树中每个内部逻辑结点表示为对数据的某个特征逻辑判断;边表示成逻辑判断的结果;树的叶子结点是数据的每个类别的标记;从树的根节点出发到任意一个叶子,经过的边就是某一类数据的特征序列[2]。
2 目前处理海量数据的方式
目前海量数据处理主要集中在数据库的设计上,采用的方式有:
1)对海量数据进行分区操作
把不同数据表征的数据存放于不同的物理磁盘空间下,通过该方式把数据分散开,用于减少在数据读取和存放时的磁盘I/O操作,进而减少了整个系统的符合,这些数据表征中同样包括日志文件和索引文件。
2)创建索引
创建索引的目的是提高数据的查询效率,通过建立索引,便于数据操作时快速定位到操作的数据,但该方式会降低服务器的操作效率,故在系统中是否建立索引和建立什么样的索引要根据实际的需要进行权衡。
3)创建索引表
建立索引时,在数据表上创建索引或复合索引,当索引较多时,我们可以为索引建立索引,提高数据检索效率。
4)创建存储过程
把数据的操作交给数据库自身进行处理,不通过程序架构的中间层。
5)采用B/S模式
不再专门制作客户端,减少数据的中间访问层次,从而提高数据的访问速度与效率[7]。
以上五种方式是目前面对海量数据处理时大家采用的应对方式。
3 问题分析
1)很多信息经过处理后并非我们需要的数据
以学生年终考核信息为例:我们需要的是排名前20的学生的名字、学号和平均考核成绩即可判定出那些学生年终考核是优秀的,而一些伴生信息如性别等我们并不需要,而在查询中往往出现,大大加重了服务器的负担[3]。
2)很多信息需要多个数据进行联合运算得出结果
例如我们需要学生的详细的家庭信息,可能要经过多个表的联合运算才可出现结果,众所周知,在数据的联合运算中,往往采用笛卡尔积的形式,数据会是以几何增量的方式累加,本已经是海量的数据,经过联合运算,数据更大,更难进行处理[4]。
3)数据的处理往往交给服务器
大量的数据都是在服务器端运行,作为提交用户的客户端很少或基本不参与到运算中来,形成瘦客户端胖服务器的格局;目前提倡的云计算、网格计算等对该方式是极力排斥的,在海量数据处理中,如果让客户端参与到处理过程中来,将会大大减轻服务器的负担,提高服务器的性能[5]。
4 数据挖掘在学生信息管理中的应用
对以上现实中存在与学生管理中的问题,可以通过数据挖掘的理论和一些其他的处理技巧来完成。
1)决策树在学生信息管理中的应用
在学生管理中关注的只是一些比较特殊的数据,可以通过决策树的训练分类规则,首先通过表征数据的关键属性段建立根节点,建立数据训练集,输入已有数据,通过决策树的构建,生成预测学生信息的决策树,这样大量数据可以分成具有数据表征数据,便于直接定位学生管理者感兴趣的数据。以学生综合测评为例分析:
综合素质测评涉及多个方面,主要为政治思想素质、学业成绩平均分数、社会实践能力、体育活动等,而这些指标中只有部分是可以量化的。学生管理部门对这些数据的处理主要采用人工测评方式,利用层次分析模式抑或模糊分析方式进行评价。人工测评受主观因素影响非常大,准确度不够理想,同时还需要设计不同的效用函数给各个指标不同的权值,处理过程比较复杂且难推广[6]。
在评测过程中,分别把政治思想素质分成若干等级:例如优、良、中、差分成四类集合,以学生的学号作为表征数据的根节点树,通过数据的分类,表征不同的数据对象,通过决策树递归,形成“政治思想素质”决策树;同理学业成绩平均分数、社会实践能力、体育活动等也会有不同的训练决策树,再把几种决策树作为新的决策树的数据,把几种决策树通过数据挖掘的再次分类和预测;其中分类就是预测分类标号(或离散值),根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据;其中预测就是建立连续函数值模型;通过该种方式可以摒除在学生数据管理中大量的无用数据,从而得出学生管理者感兴趣的数据,大大降低无用的数据的数量。
2)关联集分析方法在学生信息管理中的应用
由于各种学生信息之间具有前后的联系,所有的信息都似乎循序渐进的,需要学生根据在校内的各种表现进行完善。同时,学生信息的完善在时间上具有一种线性的关系。可以使用数据挖掘中的关联规则分析方法,用来分析学生信息检索过程中之间信息的关联系;例如学生首先完善基本信息,才能完善学生家庭信息,然后每个学期根据校内表现完善各种伴生信息,因此根据关联系原则,在搜索某一学生信息时,可以把一些没有必要的数据直接不让参与运算,例如搜索大二学生的信息,就不要把大三表现的情况信息参与到运算中来。
通过对数据库中学生信息进行回归分析、关联分析,探究学生的信息和其他各种伴生信息之间的关联性,很容易找到处理不同的数据(例如处理不同年级学生)合适的处理方法,进而减少了数据的操作量。
关联规则的分析方法除适用以上方面,还可以有效的分析学生的学年学期情况、成长过程以及生活情况等诸多方面进行描述和评估,进而使学生管理者更容易即使发现学生的问题,进行针对性的指导与疏导。
3)缓存技术在学生信息管理中的应用
处理数据的时候,按照时间这一维度,把数据放于不同缓存数据文件中,这样有助于减少客户查询数据时,减少查询时间,并且数据量越大,该方式效果越明显;即按照页面缓存的原理,先从海量数据中获得用户感兴趣的信息,以页面缓存技术储存在客户端上,再次从服务器上索要数据时,首先在本地缓存上进行查询,根据分页的页面算法获取数据,从而减轻服务器端的负载量,提高服务器的负载能力,更好的为用户提供服务[8]。
根据缓存技术的原理,同样可以运用到高校学生海量数据的处理上,以综合素质测评为例,学生管理者关心的数据是前40%学生的信息,初次查询出的数据,可以存放于客户端上,利用缓存分页技术,当用户再次提取数据时,根据分页算法,先查询客户端存放的数据,当数据不存在或不满足需求时,再从服务器上进行索取,从而大大提高服务器的处理能力,提高在学生信息管理中海量数据的处理能力。
5 结束语
数据挖掘作为一种新兴技术工具,对人类未来将会产生重大影响,将其应用于高校学生信息海量数据的处理中,将会带来效率提高,可以帮助学生管理工作者在日常海量的数据时及时的发现数据的规律和学生潜在存在的问题,为决策提供信息支持,从而不断的提高高校学生的管理质量,提高高校的竞争力,为未来的发展提高强有力的支持。
摘要:随着高校学生规模的日益扩大,学生信息的数据激增,在学生信息管理中,如何处理海量数据是每个学生管理者非常关心的问题;该文提出了利用数据挖掘方式首先对数据进行预处理,然后根据缓存页面分页算法来处理海量学生信息,在实际处理数据时,具有很高的参考价值。
关键词:数据挖掘,决策树,关联性规则,页面分页算法
参考文献
[1]Janwei Han and Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.
[2]朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.
[3]刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(5):1130-1133.
[4]潘锋.浅谈数据挖掘技术在高校教学管理中的应用[J].重庆科技学院学报:社会科学版,2008(4):100-101.
[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报:哲学社会科学版,2004(2):133-135.
[6][美]John Papa.Matthew Shepker[M].北京:机械工业出版社,2000.
[7]百度文库.SQL效率之索引.
处理数据 第11篇
关键词 实时数据库 数据采集 系统设计 实现
中图分类号:TP392 文献标识码:A
这些年,企业进行信息化建设是我国一些大型企业所面临的重大问题。自从新世纪以来,烟草企业也逐渐开始信息化建设。随着MES 系统逐渐被人们认可,在接下来的几年之内,卷烟企业进行战略性调整和信息化建设是关键的工作,这直接决定了中国烟草工业的命运。
1 数据中心框架结构和设计
1.1系统设计的目标
设计出来的实时数据采集系统达到的效果如下:能够建设符合各个领域里面的决策系统;集中了很多小规模范围里面的应用;能够有效分担其它的事物处理系统的负担,提高决策和事物处理的效率。这个系统建设是以公司的业务流程建立的一个管理机制,是可以提供准确相同的分析数据。整个系统采用的是大量数据集中在一起的方式,这样就可以实现数据的自动获取和积累,还有就是业务数据和信息在整个行业里面实现共享。这个系统还能够提供一个相当强大的数据处理平台,能够满足不同种类业务的分析。整个系统的建立还能够提高工作的效率和准确性。这个系统能够满足现代的企业管理模式,这样就可以使得业务流程化和规范化。这样就可以通过智能的商业技术对集团的信息进行分析预测,还可以实现业务的自动化,为企业领导分析决策提供一个准确的依据。
1.2系统的性能指标
在进行实时数据库系统设计的时候需要保证的系统性能如下:(1)可靠性和及时性,设计出来的系统必须能够二十四小时进行工作。这样就可以保证系统在任何情况之下都可以进行资源的分配,这样就可以保证各个板块的功能能够正常进行。(2)系统的整体性和效率性,设计的系统需要是一个高效的一体化管理系统,系统需要能够容纳大量的数据,而且数据的更新还需要在短时间之内完成。整个系统需要在短时间之内完成对数据的处理,而且还需要高效率高质量完成。(3)系统需要先进和实时,整个系统可以运用充分的资源,然后根据客户的要求,把高的工作效率和好的经济效益当作是主要要求,在这个基础上,为客户提供一系列业务服务平台。(4)系统的安全性和实时性,系统采集的数据安全是十分重要的,在系统的设计过程当中,设计人员需要采取严格的技术来对技术进行保密。设计人员需要通过保密技术来保证用户身份的真实性,数据的完整性。在网络连接良好的情况之下,对每一个IP地址请求的操作处理时间需要控制在一分钟时间之内。(5)整个系统需要支持集群技术,设计人员可以通过多个服务器来完成一个集群,当服务器上面的用户达到最大的时候,其它的服务器会开始工作。(6)整个系统需要有一个完好的信息输出端口,整个系统的目标是为了对数据进行分析,而分析的目的是为了借鉴使用。为了能够进行应用,就需要把分析得到的结果数据转化成不同的输出文本,有的人需要把它变成演讲文稿,有的人就需要获得一个Excel数据。一般的开发格式有Excel, PPT, HTML等。
2 系统的结构
烟草企业对过程的监控和数据出来了是通过紫金桥实时数据库来完成的,它把现场的各种数据集中在一起,这些数据包括了生产上面的数据、设备的数据和质量数据等,在此同时整个数据库还包括一个完整的数据查询和分析功能,这可以为企业的生产和决策提供一个可靠的依据。还有生产过程出现状况的时候,系统还能够随时发出警报,这样就能够很方便采取处理解决的措施。整个系统还需要提供各种接口,比如说S Q L 接口、AP I接口等,通过这些接口就可以把各种组件连接到一起,这样就可以实现数据库能够正常工作。
3 实时数据库的功能
实时数据库的作用是对烟草企业的生产过程实施监控管理,但是它在这个系统的作用不只是储存数据,它还需要处理现场采集获得的数据,对获得的数据进行加工分析,一旦出现异常情况发出警报。它需要实现的功能如下:(1)事故的追忆功能。这就需要系统对和事件有关的状态进行记录,这样在事件产生之后就能够进行原因分析了。事件的数量、时间范围等都是可以自由设定的。(2)数据的压缩备份功能,中心的服务器刷新的时间是1 s ,在这样的情况之下,数据库不进行压缩的话是无法容纳这么多数据的。这就要求数据库进行压缩运算,这就可以解决数据量大的问题。(3)物料平衡,系统需要对实际的投料数据、收率数据等进行计算,然后对不同的时间数据进行统计分析。实时数据库当中的数据也是可以来自现场的,也可以通过人工输入的方式。(4)趋势分析,趋势功能主要包括了用户可以选择查看一些含有PID 数值的趋势图,也可以把趋势图打印出来,或者是把图片保存成图片的格式。用户还可以输入开始和结束的时间来查看数据的走向。趋势图如图1 所示。(5)系统还需要有班组考核功能,主要通过对重要工艺数据的追踪,发现生产过程当中的问题,然后提出改进意见。(6)系统还需要有统计分析功能,这样就可以全程监控产品质量。(7)系统还需要有报表系统,这样就可以制作各种各样的报表。
4 总结
考虑到我国烟草企业的规模大,所以系统的点数要多,这样就要有好的数据采集和储存,还需要制定大量的趋势图和报表。实施数据库需要有良好的性能和繁多的数据接口,这样不仅能够满足项目要求,还能够对烟草企业做出评价,推动烟草企业的信息化发展。
参考文献
[1] 张俊良,薛振兴.烟草企业数据中心系统的设计与实现[J].安徽:电脑知识与技术,2009(5) : 2316.
[2] 付文,范广辉.实时数据库实现烟草行业过程管理实时监控系统[J].江苏:工业控制计算机,2009(3) : 17-18.
[3] 徐毅博.烟草一号工程工业数据采集系统设计与实现[J].北京:硅谷,2012(7) : 170-172.
处理数据 第12篇
1.信息发展是“大数据”时代到来的本质
在凯文·凯利的《科技想要什么》中明确地提出了一个全新的概念,文中指出信息作为一种新的元素在宇宙中逐渐发展壮大。
这种现象反映在IT领域,摩尔定律指导CPU每18个月计算能力翻一番,使当下的计算机处理的信息量呈爆炸性的增长,而这些信息中的很大一部分都以各种形式被记录下来了。这些正在生成、被处理、被记录的信息最终形成了人们所要面对“大数据”。
2.电视台信息化建设历史的回顾
广电业务系统中的基础元素包含:采集、制作、播出、存储四部分。在IT化的浪潮下,所有的业务元素代表的解决方案都向着信息易于存储、交换、复制和解析的方向发展。
整个发展包含从单机视频处理到局部的网络化(例如制作网、媒资网播出网)到全台的网络连通与业务整合,三大业务阶段。从系统实践的角度来看,广电系统工艺结构的IT发展已经到达了一个较为成熟的阶段,而接下来的发展将会是“采、制、播、存”四元素在统一平台下的融合的过程。而这个阶段针对系统融合后的数据池内数据的高效处理,将会是广电业务发展的一个新的热点。
3.广电系统拥抱“大数据”
由于当前广电系统内部积累了大量的数字化媒体资料、ENG采集端的图像码率的逐渐提高、以及未来电视台业务运营和版权交易等需求的存在,广电系统对“大数据”处理的需求也将逐渐显现。
二电视台系统数据处理策略
1.全台网架构下电视台内信息生产架构
在全台网架构下的信息生产主要包含以下几条途径:
采集阶段信息:
●外拍素材及文稿的编写;
●信号收录;
●资料上载及外购节目的入库。
内部生产阶段信息:
●内部节目剪辑所创造的节目;
●编目著录产生的说明文件;
●系统内部的运行管理数据;
●系统内部通过数据挖掘聚类产生的关联数据。
发布阶段信息:
●对外发布的播出文件;
●对外交易结算类信息;
●播出结果的反馈信息。
由于ENG画面质量的全面提高、配合高清制作播出的全面铺开,加之未来电视系统交互性能的日渐丰富,电视台内部需要处理的数据量也将随之增长。加之日后对内部数据的深度挖掘,会使后续系统各个环节内总体业务量呈指数型增长。
2.系统架构层面处理策略
在当前岛间互联的全台网架构下,跨系统检索,资源的统一调配是难以实现的,当面对跨系统的大数据流交换需求时,往往采用内部融合或分而治之的处理策略。例如,在业务系统中根据实际回调的实效需求,分开成为诸如新闻媒资、中心媒资、播出媒资等多个分业务系统,或者将收录与制作系统紧耦合等。这样系统设计可以减少系统间的交互量,但是还无法实现系统间较为自由和快捷的跨库检索和内容回调。
而“云计算”技术将会解决传统架构下无法解决问题。所有的业务系统从分离走向融合,构架于统一的基础平台之上,基础业务平台对外提供服务。也就是说当数据库、存储、网络、计算资源进行统一管理时,一方面可以以一个更大的“蓄水池”实现全局环境中的资源优化配置,另一方面可以为台内节目资源的使用,节目内在价值的深度挖掘开创新的局面。
3.产品解决方案层面处理策略
我们可以将电视台的任务分为以下几种类型:
●任务不可拆解类(例如带库的分级存储回调),此种任务类型可采用多机并发的策略进行大规模处理;
●任务不需拆解可后台处理类(例如转码、MD5计算),此种任务类型单机计算效率很高,且任务的整体性较强,如果后台拆分处理反而需要考虑合并效率合并质量;
●任务可拆解可后台处理类(例如编辑),编辑主要包括剪切、预览、打包等子动作,系统可以根据其任务特点以不同的资源服务于该项动作。
在基础系统的规划设计上我们可以根据任务的种类进行相应的规划设计,一部分采用多机并发配置、一部分采用纯物理计算资源的集群任务分配策略、一部分采用虚拟化计算资源池的处理策略。
我们可以根据业务系统的实际运行使用状况,封装出若干的基础动作原子,在云计算底层由相应的任务管理器,根据上层操作调用若干的计算资源处理相应的子任务,最终由各个计算资源直接对操作结果进行通讯,表示为上层实体业务。
4.元数据信息的处理策略
在”大数据”时代的电视台业务将会针对元数据的内部关系进行深入的挖掘,同时检索内部不简单地限制于媒资检索或制作的资源管理器,而是将进入一个“泛检索时代”。这样的检索针对检索的权重排序和检索内容直接的分类提出了新的要求,而且这种检索很可能已经包含了编目信息、文稿信息,乃至于画面信息等复杂的数据结构和数据内容。
在这个“泛检索”的实现上难度主要有以下几点:
●传统分系统结构下的数据库表,着重于描述内容的某个方面,而直接将若干的系统的数据库表进行整合将会造成数据库系统膨胀率非常大,同时数据库的内容非常稀疏,这样只有依靠互联网技术才能实现“泛检索”,一定程度上有杀鸡用牛刀之嫌;
●针对画面的识别和检索目前尚无较好的解决方案,例如搜索人脸或许可以,但是想通过画面搜索泰山就非常困难了;
●由于频道之间的竞争关系等客观因素,台内内容的“泛检索”中需要涉及较多的内容盲区和内容条件锁处理逻辑复杂;
在此,我们可以采用以下的一些策略来处理上述问题:
●跨专业的检索占总检索量的较少部分,靠内容的分类可以有效地减少单方面内容的数据总量,对内容进行分类分库的检索可以有效地解决检索的效率问题;
●画面虽然很难检索,但是使用水印对画面进行标识,可以较好地体现台内节目的应用关系,也在一定程度上代表了节目内容。这样数据检索将成为可能;
●引入较为成熟的检索算法提高检索效率:诸如TF-IDF向量算法、余弦距离算法、基于多重权重的排序算法等较为成熟的互联网算法;
●先交易端、结算端的数据挖掘与分析,以内容价值体系促进制作域最终内容的开放。
三展望“大数据”时代的电视台体系架构
广电领域的”大数据”很大程度上需要承借“采、制、播、存”四要素融合的东风,而云计算将会为电视台提供非常理想的融合IT基础架构平台。
在电视台IT基础架构层将会提供统一存储、网络、数据库和计算资源池,这样就为媒体大数据的集中化管理和从制作到媒资的元数据的跨库分析和检索提供了实现的可能。
全台的业务系统将深化分解为”采、剪、渲、转、审、搜、调、显”等业务逻辑动作为主体的若干计算单位,这些计算单位将通过业务工作流程的任务调度逻辑的串联,合理地动态分配计算资源,最终达到台内资源统一调度、高效利用、服务制播的目的。
四结束语
大数据处理本身是伴随着电视台业务发展的必然产物。它将深深地融入云计算、全媒体平台、三网融合等行业发展潮流。适应“大数据”环境下的新技术、新架构、新工艺将给未来广电行业技术系统带来广泛而深远的影响。
摘要:本文以当前电视台的AV/IT融合系统架构为基础,结合业务发展的趋势,从系统整体架构,系统处理策略,信息处理策略出发,阐述了在未来电视台集成架构框架内,电视台内部数据的处理思想和策略,同时结合这些处理策略,针对大数据时代的电视台系统变革进行了展望。