数据预处理技术(精选12篇)
数据预处理技术 第1篇
关键词:电信行业,抽取,数据仓库技术,经营分析系统
1 经营分析系统体系结构设计
经营分析系统作为通信运营商企业级共享信息服务支撑体系的基础和核心平台, 从而全面提升企业信息支撑能力, 促进基于分析的企业运营管理体系走向成熟。
经营分析系统从现有的业务系统中将相关业务数据进行抽取、清洗、加工、整理、加载到数据仓库中, 在数据仓库中形成基础的分析数据的存储。根据自身管理、业务的需要可以在数据仓库上建立适合自身应用的数据集市。数据仓库、数据集市中蕴含的信息可以通过报表、OLAP分析、即席查询、数据挖掘形式向业务人员展现。
2 经营分析系统技术架构
经营分析系统采用三层式数据仓库系统构架, 数据获取 (包括数据源) 、数据仓库 (含数据集市) 和用户前端三部分。
该系统从原有的业务系统中将相关业务数据进行抽取、清洗、加工、整理、加载到数据仓库中, 在数据仓库中形成基础的分析数据的存储。数据仓库中蕴含的信息可以通过报表、OLAP分析、即席查询、数据挖掘及预测等形式向经营分析系统使用人员展现。
2.1 数据获取部分
数据源包括与客户经营活动相关的各种数据。系统具有强大的可扩展功能, 能够支持各种数据源的数据接口。根据业务需求, 系统的数据源主要来自以下系统:网间结算、大客户系统、联机采集系统、营业系统、本地计费、帐务、渠道管理系统。
数据获取的主要操作包括:数据采集, 每天定时从业务系统中取得数据;数据清洗, 保持各个系统间数据的一致性、完整性;数据转换, 将数据按要求汇总、聚合或生成衍生数据, 例如复杂技术指标;数据装载:将抽取、清洗、转换后的数据按预定义的数据模型存放在关系型数据库中。数据审计:对数据在抽取、清洗、转换和装载过程中进行数据质量的控制。
2.2 数据仓库部分
数据仓库的数据存储一般采用分层的多粒度的存储方式。数据仓库的粒度是设计数据仓库的一个重要方面。粒度指数据仓库的数据单位中保存数据的细化或综合的程度。细化程度越高, 粒度级就越小;相反, 细化程度越低, 粒度级就越大。
数据仓库存储模型设计要求如下: (1) 具备一致、具延续性的数据仓库存储模型设计方法, 并在数据仓库存储模型建设过程中遵循该方法; (2) 数据仓库模型框架需综合考虑业务需求、业务、源数据、以客户为中心的原则, 具备前瞻性、合理性、稳定性、可扩展性; (3) 数据仓库存储层模型依据经营分析系统分期目标、模型框架、目前源数据情况、业务情况、业务需求情况, 需全盘考虑与分步实施; (4) 数据仓库存储层各级模型、同级模型中的不同部分应关系清晰, 有相对独立的业务目标; (5) 数据仓库存储层各级模型应具备快速的响应性能, 支持接口数据到数据仓库存储层最细粒度数据的最短时间转换、装载;支持数据仓库存储层细粒度数据向各级粗粒度数据的最短时间转换、装载;支持数据集市或业务应用层模型从数据仓库存储层模型的最短时间生成、更新; (6) 具有灵活的扩展能力, 具有良好的可维护性, 对数据仓库存储层中实体, 可通过便捷的定制, 完成模型的新增、修订等工作, 同时避免数据仓库中的实体等随工程进展出现不必要增长和关系混乱。
2.3 前台工具部分
前台工具通过配合不同的数据分析应用, 用客户机或浏览器方式对数据进行可视化展现。
3 数据获取
数据获取层功能是将数据从数据源经过必要处理后加载到数据仓库系统中。数据获取过程包括:源数据分析和映射、ETL (Extraction、Transformation、Loading) 及数据审计。
3.1 源数据现状分析和映射
根据通信运营商的IT战略规划, 未来通信运营商的业务系统将集中为BSS、OSS和MSS三大系统, 数据仓库的数据将来自于这些系统。在经营分析系统的实施过程中, 必须对源数据进行全面的分析, 包括如下内容:⑴数据的业务范围及业务含义。⑵数据所在平台, 包括系统平台和数据库平台。⑶数据结构。⑷数据更新周期。⑸数据更新方式。⑹数据量。
源数据分析完成之后, 需要将源数据与数据仓库系统物理数据模型进行匹配, 即源数据映射。这是设计和开发ETL的前提。
3.2 ETL处理过程
系统每天或定期从各业务系统中抽取详尽的业务数据, 对源数据进行过滤以保持数据一致性及完整性, 按分析的要求对数据进行汇总、聚合等, 装载到信息管理平台中。
ETL (Extract Transform Load) 子系统是建立数据仓库系统的重要组成部分, 它将经营分析系统中所需的数据按数据仓库建立的方法从业务系统进行采集, 并根据各自的需求进行数据调整, 数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。
从功能上看, 整个ETL包括三个部分。
数据抽取:从数据源系统抽取数据仓库系统需要的数据;
数据转换:将从数据源获取的数据转换按数据仓库要求的形式, 对数据进行转换;
数据加载:将数据装入数据仓库。
数据处理专业技术服务合同书 第2篇
为**分行
提供数据处理专业技术服务合同书
合同号:
甲方:**分行
乙方:**银行股份有限公司
*年*月
专业技术服务合同
甲方:**分行(包括在韩国所有分支机构)地址: 电话: 传真: 联系人:
乙方:**银行股份有限公司 数据中心地址: 电话: 传真: 联系人:
甲乙双方经充分协商确认合同,同意按照以下条款签定本合同并执行本合同。
一、合同标的
1.1乙方同意向甲方提供、甲方同意接受乙方提供本合同项下所列的专业技术服务(以下简称专业服务)。
1.2 一方未获另一方事先书面许可,不得将本合同所述的权利、义务及/或责任转让予第三方。
1.3 乙方需将本合同项下的专业技术服务项目分包其他方提供时,应在本合同规定的项目启动前30个工作日,专业技术服务合同
以书面形式通知甲方,甲方同意后双方签署合同变更书,方可生效。否则,甲方有权视分包商提供的服务为无效服务。
1.4 《专业技术服务说明书》应确定乙方提供的专业技术服务项目、专业技术范围、服务实施前提、工作项目、乙方及甲方责任、服务水准、专业技术服务完成标志以及提供专业技术服务的时间。
1.5 《专业技术服务说明书》服务项目中每一项服务完成时,双方将依照双方共同约定的验收方式和标准进行验收后,签署《验收备忘录》。
二、定义
“专业服务”指《专业技术服务说明书》,乙方向甲方提供的服务项目管理、工程、计划、咨询、教育、培训、安装及维护、场地准备、设备管理或操作支持等服务。
“服务水平” 指《专业技术服务说明书》所列乙方须提供的服务水平。
“项目” 指与《专业技术服务说明书》相关的活动。“获授权人员” 由乙方指派提供专业服务的人员。“数据”由甲方提供给乙方并与甲方客户相关的所有数据,以下所列均是数据的一部分:1.存储或者以其它方式固定于有形媒体、电子媒体或其他媒体上并且可提取为
专业技术服务合同
三、专业技术服务内容、服务期限
3.1 专业技术服务内容的具体细节见《专业技术服务说明书》。
3.2 专业技术服务期限:本合同持续有效到任何一方向另一方提前六个月发出书面通知予以终止。
四、服务变更
4.1 任何一方均可以要求对《专业技术服务说明书》下的服务进行更改。任一更改申请须以书面形式提交。
4.2 根据更改要求的范围和复杂程度,甲乙双方可对实现变更要求所发生的费用进行磋商。
4.3 就上述第4.1条,双方达成一致,并签署变更备忘录后,变更生效。变更将修改或替取《专业技术服务说明书》中或先前的任何变更备忘录中所有不一致的条款。
4.4 提出变更请求的一方应提交书面申请,描述变更、变更的理由和变更将产生的影响,并提交另一方讨论,接收方须于接到申请后三周内向建议方知会其决定。
4.5 如双方对该申请达成一致同意意见,双方授权代表将签署相应的《变更备忘录》。经双方授权代表签字盖章后的变更备忘录将作为本合同的有效附件和执行变更的依据。变更将修改或替取《专业技术服务说明书》中或先前的任何变更备忘录中所有不一致的条款。
专业技术服务合同
国金融管理机构推荐的现场安全审计以及韩国金融监管要求的信息系统维护的建议。
6.1.4 根据本合同条款以及所有合法的由乙方发布的指令,乙方须事先彻底地咨询甲方后负责谨慎地以最正确和最有效的方式提供专业服务,同时乙方对安全性有关规定、手册、获授权人员和委员会组织等应及时维护并升级,同时向甲方通知。
6.1.5 乙方在系统投产后6个月以内应进行安全性及系统缺点分析,向甲方提出分析报告。6.1.6隔离和区分: 乙方须确保:
(a)对数据进行清晰的隔离及/或区分,以确保乙方的任何其他客户或无权限人员不能够浏览、更改和访问数据。
(b)在乙方可运用的范围内必须对专业技术服务分工处理,只有获授权人员并且在必要情况下才能访问数据。(c)必须有充分的阻止非获授权人员进入的物理控制程序。必须有必要的数据加密措施、逻辑控制和监控程序以确保甲方数据所在网络、系统及对甲方数据的计算机操作正确地与乙方的其他客户隔离及区分。
(d)乙方须检测隔离及区分标准之有效性。乙方须在甲方对隔离及区分进行检测和审计时提供协助。
(e)所有正确数据及文件的管理程序须制定于乙方的操
专业技术服务合同
以及设备检查结果的第三方独立报告,报告范围指的是双方服务协议涉及的全部设备和费用(即包括购买设备的费用和维护设备所需要的费用,如果这部分费用需要分行承担的话)。
6.1.15乙方必须根据所提供的服务,提供合格的、有竞争力的人才来负责专业服务,以保证甲方业务的正常运行。且乙方必须制定人力资源培训计划,乙方制定的计划应该包括培训数量、培训类型、培训费用等方面。
6.1.16乙方应将本合同项下使用和操作的知识传授给甲方,以便甲方IT部门的人员懂得如何运用,特别是乙方提供的应用系统的处理流程和数据库结构。
6.2 甲方义务
6.2.1 为了乙方能够及时并按时完成本合同规定的责任,甲方须与乙方合作并为乙方提供其合理要求的资料和协助。
6.2.2 甲方必须让乙方注意到依据韩国相关法律乙方必须履行的对外保密责任。
6.2.3 甲方应乙方要求的技术配合,应认真负责。甲方技术部门应认真执行值班制度,在规定时间有响应。
6.2.4 甲方对乙方提出的版本升级、新业务投产等提供相关测试环境和配合。
6.2.5 甲方需采用防火墙、IP加密机、数据备份等技术,910
专业技术服务合同
予以保密,不得将数据作为履行其在本协议项下责任以外之任何其他用途(中国/韩国法律法规及监管要求另有规定的除外)。
9.8 若事先未经甲方书面同意,除获授权人员外,除非在本合同考虑及目的而言属必要或属于中国法律及/或韩国法律规定要求以外,乙方不得向任何人员透露数据(无论是全部还是部分)。
9.9终止:本协议终止后,乙方关于数据保密性的责任仍然具有全面效力。
十、保密
10.1 任一方将视另一方业务相关的所有信息为商业秘密,并有义务予以保密,不将在本合同谈判时或合同期间所获知的任何信息泄露给任何第三方(中国/韩国法律法规及监管要求另有规定的除外)。此条款的条文将本合同期满或终止后继续生效,但不适用于任何已在公众知悉范围的资料。
10.2 本合同属双方商业秘密,未经一方书面同意,另一方不得向第三方披露。
十一、违约责任和赔偿
专业技术服务合同
11.1 对于乙方在执行合同中给甲方造成的直接损失,损失由过错方承担。对于利润上的损失、本可节省或避免的损失、附带损失或其他经济上的间接损失,以及因甲方没有履行本合同项下义务而发生的任何损失,乙方不承担责任。
十二、终止
12.1 如一方提出终止合同,该方可在任何时间向另一方提前六个月发出书面通知予以终止。
12.2如果任何一方不能履行本合同中的责任和义务,则另一方可在知悉该重大违反事项后5个工作日内向违约方发出书面补救通知,要求违约方尽快就该重大违反事项作出补救措施。如在收到书面补救通知14日内,违约方未能补救该重大违反事项,则另一方可向违约方发出书面终止通知,于该终止通知指定之日期全部或部分终止本合同。12.3 在本合同期间,如接到韩国金融管理机构的书面要求,甲方可向乙方即刻发出书面通知终止本合同。如中国金融监管机关要求的,乙方可向甲方即刻发出书面通知终止本合同。12.4 对于在服务的所有工作终止之前乙方所提供的专业服务,甲方有责任支付费用。
十三、协助移交服务
314
专业技术服务合同
16.5 双方同意遵守韩国、中国以及此项业务所涉及的其它国家或地区的所有有关法律和条例。
16.6 本合同一式四份,双方各执二份,经双方授权代表签字并加盖公章后生效。
专业技术服务合同
甲方:**分行 盖章:
授权代表签字:
日期:
数据预处理技术 第3篇
关键词:数据预处理;数据挖掘;劳动保障信息系统
中图分类号:TP274 文献标识码:A文章编号:1007-9599 (2010) 06-0000-03
Application of Data Preprocessing Technology in Labour&Security Information System
Zhang Jingchun
(Nanjing Human Resources&Labour Security Bureau,Nanjing210002,China)
Abstract:The data mining is a kind of technique of knowledge,and has got fast development in recent years.The data preprogressing is becoming more useful day by day.Whether to use the technique of datapreprogressing in real subjects of data mining will receive the different out- come.And there give a method in data mining of labour & security information system how to use the technique of data preprogressing.
Keywords:Data preprogressing;Data mining;Labour&Security information system
近年来,劳动保障系统的信息化建设正由事务处理层面走向集成和数据管理阶段。各应用系统产生和收集数据的能力已经迅速提高,拥有越来越多的数据,可以高效地实现数据的录入、查询、统计等功能,但缺乏从海量数据挖掘出知识的手段,无法全面正确分析和理解数据,无法根据现有的数据预测未来的发展趋势,对管理和决策缺乏有效支持。
面对这一挑战,我们引入数据挖掘技术,逐步构建宏观决策支持系统。
数据挖掘是指从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则的高级处理过程。在劳动保障信息系统,多年的应用产生了海量的数据,这给数据挖掘准备好了物质基础,但是目前还没有针对这些海量数据成功地进行数据挖掘的应用项目。如何规划数据挖掘项目工程,如何选择数据挖掘算法、数据挖掘工具和产品,这些都是具有重要的理论研究价值。
一、数据挖掘(Data Mining)
数据挖掘技术作为基于数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算和数据可视化等学科领域而发展起来的从数据中获取知识的技术,正成为各个科研机构竞相研究的对象,也正在多行业得到广泛的应用。数据挖掘的定义可以从技术和应用两个角度叙述:
(一)技术角度的定义
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(二)劳动保障信息系统应用角度的定义
从劳动保障信息系统应用的角度来说数据挖掘从本质上说是一种新的信息处理技术,是对劳动保障信息资源的有效采集和管理、合理衍生和使用、充分挖掘和利用,对大量的数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,实现联机事务处理(OLTP)和联机分析处理(OLAP)的合理隔离和有机统一,从而实现对各种业务及其管理的强有力支持,通过定期发布各项统计指标向管理部门提供南京劳动保障工作开展情况及南京市民基础信息、劳动就业和社会保障等各方面情况,并为政府提供政策制定依据。
数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对数据进行抽取、转换、分析和其他模型化处理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导劳动保障管理决策活动,如图1所示。
图1数据挖掘和劳动保障管理决策
(三)数据挖掘的功能
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。
数据挖掘功能以及它们可以发现的模式类型有以下六个方面:概念/类描述(特征化和区分)、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。
(四)数据挖掘的过程
一般的数据挖掘过程中主要有如下四个步骤:数据选择、数据预处理、数据转换和数据挖掘。整个数据挖掘过程是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。
数据挖掘的过程的工作量比例如图2所示。
图2 数据挖掘过程工作量比例
从图2可以看出,数据预处理环节的工作量占全部工作量的60%,因此,如何提高数据预处理的效率,是加快数据挖掘规则进程的关键。
二、数据预处理(Data preprocessing)
由于数据库系统中数据量的迅速膨胀(达到GB或TB数量级),现实世界的数据库极易受噪声数据(noise data)(具有不正确的属性值)、空缺数据(missing data)(缺少属性值)和不一致数据(inconsistent data)的侵扰。当进行数据挖掘时,只有进行数据的预处理,才能提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。
数据预处理的主要方法包括:
(一)数据清理
数据清理(data cleaning)例程通过填写空缺值,平滑燥声数据,识别、删除孤立点,并解决不一致来“清理”数据。
(二)数据集成与变换
数据集成(data integration)就是将多个数据源中的数据结合起来存放在一个一致的数据存储中。这些数据源可能包括多个数据库、数据立方体或一般文件。数据变换(data transformation)主要是将数据转换成适合于挖掘的形式,如规格化和聚集。
(三)数据归约
数据归约(data reduction)的目的就是缩小所挖掘数据的规模,但能够产生同样的(或几乎同样的)分析结果。数据归约的策略有数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层等。
数据预处理的方式如图3所示。
图3数据预处理的方式
三、数据预处理实例分析
(一)劳动保障信息系统简介
数据预处理关键技术应用研究 第4篇
随着互联网的发展和大数据发展上升为国家发展战略, 人面在工作中需要处理的数据越来越多, 但这些数据并非全部都是人们所需的有价值的数据, 因为这些数据有可能是漏掉了某些变量或者是缺省了数据, 倘若我们把这些互联网或硬盘上的数据直接拿来作为数据挖掘的数据来源, 那么将会影响到整个数据挖掘的效率。因此, 在不影响这些数据原有挖掘价值的前提下, 选择适当的预处理方法对这些原有数据进行有效处理, 可以有效缩短整个数据挖掘的时间和提高挖掘效率[1]。同时也是当前面临的一个难点, 尤其是解决大数据环境下的存储和处理技术问题, 因此, 继续推动并加强对数据的预处理技术研究具有重要的意义。
1数据预处理方法
数据预处理是指对数据库中存在的有缺陷或不能直接用于数据挖掘的不完整数据进行处理的过程[2]。当前针对单维数据预处理方法已经有了相应的方法和技术[1,3]。一般情况下, 数据预处理主要针对介质上存储的数据和互联网络中的数据两种数据。下面主要介绍四种常用的数据预处理方法:
(1) 数据清理。数据清理是一种对原始数据采取填充、纠正和删除等操作达到清除掉冗余数据的一种方法。孤立点、重复数据和不完整数据是数据清理的主要对象, 进行数据预处理的目的就是使数据挖掘的数据具有规范化, 以此纠正并删除那些不规范的数据和那些异常、重复的数据。
(2) 数据集成。数据集成就是把不同数据库中的数据进行规范化和统一化等一序列的处理之后整合到一起。例如可以用不同的数据形式表示同一个实体类。例如出版社编号在一个数据库中名称为publish Id, 在另一张表中则描述为pub Num。
(3) 数据转换。数据转换就是把数据库中的原始数据统一转化成有利于进行数据挖掘的数据形式。数据概化是数据转换最常用的方法, 例如多个数据库中存在雪碧、可乐和橙汁属性字段, 则我们可以用饮料字段对雪碧、可乐和橙汁进行概化处理, 统一到同一个数据库当中, 具体如图1。另一种数据转换方法就是逻辑化, 也就是在进行数据挖掘之前把数据库中的数据进行逻辑转换成数据挖掘算法能够识别的逻辑数据。
(4) 数据归约。数据规约就是通过压缩数据以减少数据挖掘的冗余时间, 但必须不影响整个数据挖掘效果的前提下。例如:在数据挖据过程所需的数据是在一周内在线网络论坛中的注册用户信息, 而在数据库中的数据是每天网络论坛注册用户信息, 此时就可以对每天的注册用户进行一周汇总得到一周注册用户。二维表1的横向则表示属性压缩, 而纵向则表示数值压缩。
2数据预处理应用案例及其面临的问题
2.1数据预处理方法在网络论坛主题中的应用
随着互联网的发展, 网络论坛已经成为网上用户的相互交流发表意见的重要社区。因此, 本文主要是收集近几个月某高校网络论坛的主题信息作为研究的数据来源。数据预处理阶段是对高校网络论坛主题信息关联规则进行挖掘的一个关键环节, 对网络论坛主题信息进行相应的预处理尤为重要, 直接关系到挖掘主题之间关联性。下面将根据所采集的高校网络论坛主题信息的特征, 有针对性的选择适当预处理方法。
2.1.1高校论坛主题两大因素的提取
高校论坛主题信息包含两大因素: (1) 主题诱发的原因 (2) 主题影响力结果。把每个主题信息分为主题诱发的原因和主题影响力结果两大因素, 其中主题诱发的原因包含论坛主题发帖用户, 发生的时间, ip地址, 涉及人数, 主题类型五个因素;主题影响力结果包含影响作用1个因素。提取出各个因素就可以归纳出主题诱发因素和主题信息导致的结果。因此, 我们首先把论坛主题发生的用户, 时间, ip地址, 涉及人数, 主题类型和影响作用六个因素提取出来。
我们还可以归纳出高校网络论坛中的主题信息诱发因素和导致结果两大因素, 用表2描述如下。
2.1.2网络论坛主题数据清理
提取出高校网络论坛主题诱发和影响力因素后, 接下来我们将对高校网络论坛主题信息进行数据清理操作, 数据清理高校网络论坛主题信息的具体步骤如下:
(1) 清理空缺值。这里我们只对完整包含两大因素的主题信息进行研究, 因此需要对主题因素不完整的信息数据进行清理。数据清理主要针对主题诱发因素和主题影响力结果。对主题诱发因素, 我们直接采用忽略元组法直接删除掉数据库中某个记录元组的属性值都为空或者缺少大量数值的数据, 因为这些数据没有太大挖掘价值;对于论坛主题信息属性值空缺的数目较少的记录采用设置默认值把空值填补上去。例如, 如果论坛主题信息属性表中涉及人数为空, 则把这些空缺人数数值全部设置为0;对于主题影响力结果, 我们可以观察主题诱发因素中的注册用户对该主题的回帖数来确定其主题影响力结果类型。例如, 如果我们所采集的论坛主题信息没用过任何用户注册用户对其进行回帖, 这说明该帖主题并无任何影响力在整个网络论坛当中。这样经过数据预处理以后, 就可以减少下一步关联规则挖掘的冗余时间。
(2) 统一化数值。统一化数值是针对那些数据库中不统一的数据, 必须对其进行规范化处理以减少数据之间的差异。如果网络论坛的主题内容大致分别是应届生公务员报名考试人数、高校毕业生就业问题, 大学生应届生工资待遇, 则我们对这三个主题进行规范化处理, 全部用大学生就业来表示。也就是说网络论坛主题存在同属一个事件类型且同一个属性对应的属性值含义相近或相同的事件记录, 必须用同种形式来描述以减少给数据挖掘带来困难。
2.1.3论坛主题信息的集成与转换
下面就可以针对具体情况可以对经过数据清理以后的网络论坛主题进行数据集成与转换处理。具体过程如下:
(1) 进行数据集成。利用数据库技术把采集到的多个数据库文件生成一个基本数据库。可以利用前面得到的主题影响力结果对网络论坛主题进行泛化处理。把无注册用户回帖的主题影响力级别是较差的;把回帖用户数量低于整个论坛注册用户10%的影响力级别为一般;如果回帖用户数量超过整个论坛注册用户10%到30%影响力级别设置为较大;其它超过整个论坛注册用户30%的影响力级别设置为最大化。
(2) 进行数据转换。就是用统一的符号表示网络论坛主题及其包含的六大因素, 构成具体的主题信息表以便作为关联规则挖掘的输入参数。例如:在学校论坛出现一主题“武大一学霸立志横扫学校图书馆一年看书900本”, 发布时间是2014.4.26, 有200多人回复该帖。提取该主题诱发原因和影响力结果, 用户是学生, 用Ca表示;其中时间是2014.4.26, 用St来表示;地点是论坛ip为172.18.172.*, 用Lip表示;涉及用户人数200多, 用Nu表示;主题类型是教育, 用St来表示, 影响力结果是200多人注册用户回复本主题, 用Sa表示。则论坛主题可以用Ca, St, Lip, St, Nu;Sa符号化来表示。
总之, 网络论坛主题经过主题诱发和影响力因素提取, 清理和集成等预处理之后, 我们就可以把预处理结果作为挖掘网络论坛主题关联关系的初始化数据, 可以提高整个主题影响力关联规则的挖掘效率。
2.2数据预处理面临问题
虽然当前的数据源预处理关键技术发展已经比较成熟, 特别是针对非空间数据的预处理技术[4,5,6]。随着互联网和计算机技术的发展, 人们要处理的数据是海量的, 有可能是纯文本或声音和图像, 也可能是来自三维或多维的组合数据。对不理想或不一致数据进行预处理是当前关注的主要问题, 而且到目前为止国内外并无通用的数据预处理软件;另外高维空间数据具有海量、类型和存储复杂等问题将成为数据预处理面临的一大难题。
3总结
文中首先简要介绍了数据预处理的几种常用方法;其次利用这些数据预处理方法, 把他们应用到相应的网络论坛主题信息的预处理上;最后给出了网络论坛主题信息数据预处理的具体流程和预处理结果, 本结果作为可以相应的关联规则算法的初始化参数, 从而提高这整个主题关联规则挖掘效率。
参考文献
[1]Han, Micheline Kamber.Data Mining:Concepts and Tech-niques[M].USA:Morgan Kaufn ann Publishe rs, 2001.
[2]Jiawei Han, Micheline Kamber.数据挖掘概念与技术[M].机械工业出版社, 2005.
[3]A Famili, et alEvangelos Simoudis.Data Preprocessing and Intelligent Data Analysis[J].Intelligent Data Analysis, 1997, (1) :3-23.
[4]张春生, 李艳, 图雅.基于属性拓展的数据挖掘预处理技术研究[J].计算机技术与发展, 2014 (3) .
[5]解二虎.数据挖掘中数据预处理关键技术研究[J], 科技通报, 2013, 29 (12) , 212-213.
数据预处理技术 第5篇
航空器通信寻址报告系统数据处理技术研究
在实时追踪航空器动态的各类信息中,航空器通信寻址报告系统(ACARS)数据的精度和更新速度虽然无法和空管雷达相比,但其作用距离远、信息内容丰富的优点对空中交通管理尤为重要.由于目前国内民航采用的.ACARS数据处理系统全部是引进美国ARINC公司的产品,极大地的限制了ACARS数据的应用.本文将尝试研究ACARS数据处理技术,以期对开发中国自己的数据处理系统做出贡献.
作 者:黄俊祥 HUANG Jun-xiang 作者单位:中国民航,厦门航管站,厦门,361000刊 名:中国民航大学学报 ISTIC英文刊名:JOURNAL OF CIVIL AVIATION UNIVERSITY OF CHINA年,卷(期):200725(1)分类号:V355.2关键词:交通 数据处理 ACARS报文 地空数据链 电报网
数据预处理技术 第6篇
关键词:Excel编程;数据处理;360°制度
中图分类号:P209 文献标识码:A 文章编号:1009-2374(2013)17-0056-03
1 概述
在矿山井下测量工作中,导线推算及平差解算工作是必不可少的,既是一项经常性的,也是较为复杂的技术工作。多年以来,由于计算工具的限制、人员素质问题等,一直都是以人工干预计算为主,为获得正确、使用方便、规范管理的测量计算成果,进行了大量的演算过程,可谓耗费大量精力和时间,但技术管理效果不好,工作效率不高,不适应现代矿山生产技术管理需要。
随着计算机的广泛应用,电子表格Excel软件为矿山测量计算工作提供了一个很好的技术管理平台。Excel软件具有强大的计算功能,表格化显示成果,集数据处理和成果管理一体,因此,结合测量知识和相关技术管理需求,借助平台采取一些编程技术处理方法,能满足测量技术管理应用相关技术需要,达到准确、快速出成果,优质高效服务矿山生产技术管理的效果。
2 测量编程计算相关共性问题
测量计算工作与其他专业技术管理有所不同,但一些技术处理过程在各种测量计算中具有共性特点。
一是计算过程相对复杂。各种测量计算都具复杂性,因此编程也难度大且复杂,只有充分借助软件平台功能将复杂计算过程进行程序化计算,才能快速、规范获得测量成果,这是现代测绘技术管理的必然,也是技术进步的
要求。
二是成果精度质量要求高。即计算过程中数据必须正确,取位和舍入必须经过严格的技术处理控制,才有精度保障和得到高质量测量成果。
三是数据处理过程极其特殊。即通过平台功能进行技术处理的数据,必须经过反复转换的技术处理过程,才能最终表达为测量专业数据语言或格式,也才能达到方便使用和规范管理的目的。
总之,应用Excel测量编程计算就是通过平台的一些技术手段对测量原始数据加工处理快速得出准确、可靠性高、达到精度要求的测量成果过程。其技术性强、处理过程难度大等特点,在各种测量计算中都要面对,而将其解决则在各种测量计算中可借用,从而全面提高技术管理水平和效率。
3 关键数据技术处理解析
Excel表格根据计算的需要和表达的清晰,可以合并一些单元格和添加表格的边框和内框,为了简化显示和打印输出,可以“隐藏”某些计算过程的行或列。
每一单元格中可以写入一个计算公式,并能以“拖曳”方式使在该单元格的同一列中具有同样的计算公式(仅变量的下标随行号而变),计算式中可以利用Excel的“粘贴函数”(快捷键为“fx”)实现。
完成单元格的公式写入,经过鼠标按住已输入计算公式的单元格的右下角,并向下拖曳后,该Excel表格就具有计算导线的功能。应用时,只需在表格中输入导线点号、起始点坐标和方位角、观测的导线左角和边长,即能自动完成待定点的坐标计算。
在编制完成的《导线计算表》(如图1)程序中,解决了矿山井下测量各种计算编程可借鉴或通用问题。最主要的关键环节技术处理方法有以下四点。
图1
图1为编制完成的《导线计算表》界面,有的列是为了公式编辑方便简单、表达清晰而设置的,最终不需要显示,可将其隐藏,如F、H、J、L、N等列。
3.1 常用函数
图1编程主要应用到了以下函数,也是测量专业各种计算常用的函数,列出如下:
IF(判断是否满足某个条件,如果满足返回一个值,如果不满足则返回另一个值)。
VALUE(将一个代表数值文本字符串转换成数值)。
RIGHT(从一个文本字符串的最后一个字符开始返回指定个数的字符)。
MOD(返回两数相除的余数)。
ROUNDDOWN(向下舍入数字)。
ROUND(按指定的位数对数值进行四舍五入)。
SIN(返回给定角度的正弦值)。
COS(返回给定角度的余弦值)。
RADIANS(将角度转化为弧度)。
INT(将数值向下取整为最接近的整数)。
3.2 方位角推算
在图1中,阴影部分是编入公式后的计算结果,其余为手工输入。
在F7单元格中放入待求方位角的度,根据α前=α后+
β左±180°,当之和大于180°时减180°,小于180°时则加180°,放入方位角与观测角以360°制换算的度之和,该列是为了公式编写简单明了、表达清晰而设置的,最终被隐藏而不显示的,写入(下列公式中G5、I5、K5单元格分别为已知方位角的度、分、秒。C6、D6、E6单元格分别为观测角的度、分、秒):
=IF(INT(G5+I5/60+K5/3600+C6+D6/60+E6/3600)>180,INT(G5+I5/60+K5/3600+C6+D6/60+E6/3600)-180,INT(G5+I5/60+K5/3600+C6+D6/60+E6/3600)+180)。
在G7单元格中放入最终待求方位角的度,按左角推算方位角过程中有时它们之和会大于360°,此时应减360°,小于0°时则加360°,写入:
=IF(F7>360,F7-360,IF(F7<0,F7+360,F7))。
在H7单元格中放入待求方位角的分,写入:
=IF(IF((K5+E6)>=60,I5+D6+1,I5+D6)>=60,IF((K5+E6)>=60,I5+D6+1,I5+D6)-60,IF((K5+E6)>=60,I5+D6+1,I5+D6))。
在J7单元格中放入待求方位角的秒,写入:
=IF((K5+E6-60)>=0,K5+E6-60,K5+E6)。
3.3 测量数据语言或格式的输入与显示
3.3.1 输入显示:观测角各列及起始方位角°′″用手工输入,若其值小于10时,如D6单元格6,可按'06输入,即可显示为测量数据表达格式06。
3.3.2 计算显示:在阴影部分的方位角推算过程中为了避免出现0、9等数据显示,如H13中的4、J13中的8,应在相应列中编入公式,方法如下:
I7单元格中放入最终待求方位角的分,输入公式:
=IF(H7<10,0&H7;,H7)。
K7单元格中放入最终待求方位角的秒,输入公式:
=IF(J7<10,0&J7;,J7)。
下面的公式采用“拖曳”方法即可完成。
通过编入公式计算后,H13的4在I13显示为04,J13的8在K13显示为08,H13、J13是为了后面的I13、K13公式编辑方便简单、表达清晰而设置的,最终要隐藏而不显示
出来。
3.4 成果数据小数取位及舍入控制数据精度
在L7单元格中放入待求点X坐标增量的值,写入(B7单元格为观测边的水平距离):
=ROUND(COS(RADIANS(G7+I7/60+K7/3600))*B7,4)。
在N7单元格中放入待求点Y坐标增量的值,写入:
=ROUND(SIN(RADIANS(G7+I7/60+K7/3600))*B7,4)。
从图1中看出L7单元格中的值为-0.2265,N7中的值为48.2725和N13中的值为-26.4715,如果不输入公式计算,保留小数点后3位则会出现四舍五入的情况,而测量的要求是四舍六入,按测量数据取舍的要求当小数点后第4位为5时,第3位是单数则进位,是双数则抛弃,即“单进双抛”,处理方法如下:
在M7单元格中放入最终待求点X坐标增量,写入:
=IF(VALUE(RIGHT(L7,1))=5,IF(MOD((VALUE(RIGHT(L7,2))-5)/10,2)=0,ROUNDDOWN(L7,3),ROUND(L7,3)),ROUND(L7,3))。
在O7单元格中放入最终待求点Y坐标增量,写入:
=IF(VALUE(RIGHT(N7,1))=5,IF(MOD((VALUE(RIGHT(N7,2))-5)/10,2)=0,ROUNDDOWN(N7,3),ROUND(N7,3)),ROUND(N7,3))。
下面的公式采用“拖曳”方法即可完成。
通过编入公式计算后,L7单元格中的-0.2265在M7单元格显示为-0.226,N7中的48.2725在O7单元格中显示为48.272,N13中的-26.4715在O13中显示为-26.472,L7、N7是为了后面的M7、O7公式编辑方便简单、表达清晰而设置的,最终要隐藏而不显示出来。
在P7单元格中放入待求点X坐标,写入(P5单元格为已知点的X坐标):
=P5+M7。
在Q7单元格中放入待求点Y坐标,写入(Q5单元格为已知点的Y坐标):
=Q5+O7。
最后将F、H、J、L、N等列隐藏即可。
4 结语
Excel集数据计算处理可编程序化和成果表格化管理一体,适用各种测量计算的灵活编制,是测量技术管理的友好平台;关键环节计算过程在各种测量计算中相同,编程具有共同性,虽然程序编制技术过程复杂,但通用,其方法为之引用或借鉴提供方便;编程须测量专业知识和专业技术管理规范要求相结合,正确的编程计算过程才能确保结果正确,数据严格按技术要求处理才能保证成果精度和质量,通过技术手段使成果明确、完整、有序显示,资料才能规范管理和安全使用。
由于本人水平有限,错误难免,有不完善之处,恳请各位专家同行及时发现问题,并给予提出宝贵意见和加以改正。
参考文献
[1] 安海波.现代矿山测绘新技术与实际应用及现场操作技术规范[M].西安:西北矿业学院出版社,2005.
[2] 张国良.矿山测量学[M].徐州:中国矿业大学出版社,2006.
[3] 刘星,吴斌.工程测量学[M].重庆:重庆大学出版社,2004.
Web挖掘中数据预处理技术研究 第7篇
关键词:数据挖掘,Web挖掘,数据预处理
Web挖掘是从Web资源上抽取信息或知识的过程,通过Web挖掘[1],可以从大量多种多样信息的Web页面中提取出我们需要的有用的知识.通常实际应用中收集到的原始数据是“脏”的,不适应数据挖掘[2]的需要。所以需要对其进行数据预处理,从而把各方面的信息组织成适于挖掘的形式。
1 预处理过程
数据预处理过程分为以下几个部分:数据采集、数据清洗、用户唯一性识别、用户会话识别、事务识别等。用户会话识别和事务识别是关键步骤,也是最棘手的部分。
1.1 数据采集
按照主题相关的原则,数据采集完成从外部的Web环境中有选择地获取数据,为后面的数据挖掘提供素材和资源。在网络挖掘中,数据可以从服务器端,客户端,代理端,或从网站数据库中采集到。
1.2 数据清理
数据预处理的首要任务是数据清理,在任何形式的Web日志分析过程中,清除服务器日志中不相关数据的技术是非常重要的。
1.3 用户识别
接下来,唯一的用户必须被标识出来,也就是说要识别出来具体的用户。采用的方法是使用IP地址,Agent类型以及一些临时信息综合起来标识一个用户。
1.4 会话识别
对于上一步标识出的用户所有的访问序列,它们可能超越了很长的时间段,因此可能用户在这个时间段内不只一次访问了该网站。
1.5 事务识别
事务识别是把用户的事务文件划分成多个有意义的用户的访问序列片断。事务识别的任务是或者划分一个大的事务到多个小的事务,或者合成多个小的事务到几个大的事务。
2 算法实现[3]
输入:用户日志记录集H
输出:用户的一次访问序列
1)主程序
对于每一个Hi={f1,f2,,fn}是一个时间序列的日志记录集。
其中lj,fj,rj,tj分别定义日志记录的页面视图,URL,Referrer和访问时间Time。
定义T为一个时间戳,代表一次会话时间已到。将日志记录数据按IP地址/Agent和时间进行排序。
3 结论
本文得出了Web挖掘中数据预处理技术相应的算法,该算法准确度高,简单得多,对于处理大量的数据来说,无疑是非常关键的。并使得预处理以后的访问事务更接近于用户使用网站的真实情况。
参考文献
[1]韩家炜,孟晓峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-410.
[2]高岩,胡静涛.Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002(3):15-20.
Web数据挖掘预处理技术研究 第8篇
随着全球经济、科技等领域的迅猛发展, Internet技术也在飞速的发展中, 同时也为我们带来了不少新的问题和需要解决的研究课题。于是, web数据挖掘预处理技术应运而生, 成为当今比较热门的研究领域。在挖掘领域中, web日志挖掘是一个极其重要的应用方面, 而数据预处理技术在web日志挖掘中又起到了至关重要的作用。本文介绍了web数据的挖掘过程和数据预处理的流程以及处理一些特殊情况的特殊方法。
1 Web数据挖掘
1.1 Web数据挖掘定义
web数据挖掘是数据挖掘在Web上的应用, 它利用数据挖掘技术从与www相关资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域, 是一项综合技术。
1.2 Web数据挖掘的基本流程
在Web数据挖掘中, 最重要的是Web日志挖掘应用, 就是运用挖掘服务器的日志文件, 以此获取到用户的访问模式, 从而可以进一步分析、研究日志记录的规律, 从而改进网站组织结构及性能[1];也可以通过统计、关联分析, 增加个性化的服务, 以此来发现潜在用户群体。
Web日志挖掘的过程大致分为三步骤:
(1) 数据预处理。根据挖掘目的, 对原始的Web日志文件的数据进行提取——分解——合并, 然后转化为适合进行数据挖掘的数据格式, 最后, 保存到关系型数据库表或者数据仓库中去进行进一步的处理;
(2) 模式识别。使用多种不同的算法对处理后的数据进行挖掘来生成新的模式;
(3) 模式分析。用户访问的模式分析——将有效的模式提取的过程。
在挖掘过程中, 数据预处理环节是整个过程中的基础, 也是实施有效挖掘算法的充分条件。原始的日志文件是简易平面文本文件, 其中有一些是不完整的、冗余的、错误的数据, 这些数据需要进行过滤、删除、简化等处理。不然, 将会影响到挖掘的效果。另外, 一些分析、挖掘算法的运作也需要运用这些规范化的数据源来实施, 从而在这个阶段还需对数据存储格式进行调整, 来适合所用的挖掘方法。
2 web数据预处理
2.1 web数据预处理的意义
在Web数据挖掘的过程中一个重要的基础条件是数据的准确性, 只有有了准确的数据才能正确地反映出使用者的意图, 进而使分析沿着正确的方向进行。由于日志记录和HTTP协议的自身原因, 日志数据是杂乱无章的, 还原信息中, 有可能包含着一些错误的信息, 因此对日志信息进行准确的预处理是至关重要的。
2.2 数据预处理的过程
2.2.1 数据抽象定义
用户:使用浏览器来访问网页的个人;用户可在不同地点, 通过不同的机器, 运用不同的代理来访问网站。
页面浏览:使用者点击浏览网页得到的访问的结果;访问结果可以是由多个文件组成;一次页面浏览, 代表一次用户的行为。
点击流:用户访问的一组连续页面的浏览序列。
用户会话:用户的阶段性的页面浏览, 所构成的点击流。其特点是, 可跨越多个服务器。
服务器会话:用户在一个服务器上, 阶段性的页面浏览所构成的点击流。
片断:某个用户会话中的一段有意义的点击流。
2.2.2 数据预处理的四个阶段
数据预处理, 是在将日志文件转换成数据库文件后进行的。目的是把Web日志转化为合适进行数据挖掘的、可靠的、精确的数据。在这个过程中, 包括主要的四个阶段过程:数据清洗、识别用户、识别用户会话、识别片断。
(1) 数据清理
数据清理是指, 根据需求, 对日志文件进行处理。数据清理包括:删除无关紧要的数据、合并某些记录、对用户请求页面时发生的错误记录进行适当的处理等等。
(2) 识别用户
如果进行用户访问模式的挖掘, 或者对用户进行聚类分析, 用户识别问题则显得至关重要。因为群体是由个体组成的, 只有对个体有了清楚的了解, 才能识别群体的特征。
(3) 识别用户会话
用户会话是指, 某个用户对服务器进行的一次有效访问, 通过连续请求的页面, 我们可以从中获得用户在网站中的访问的习惯、行为和浏览兴趣。
日志文件中, 不同的用户访问的页面是属于不同的会话的。当某个用户的页面请求在时间上呈现出较大的跨度时, 就有可能是因为该用户多次访问了同一个网站。从而, 可将此用户的访问记录进行分组, 分成多个会话进行处理。其中比较简单的方法就是设置一个timeout值, 如果该用户访问页面的时间超过了这个值, 就可认为该用户开始了一个新的会话。
(4) 识别片断
识别片断, 是指找出用户会话中有价值的访问路径。在识别片断之前, 需要准备的工作是进行路径填充, 为的是补全访问日志中没有记录的用户的请求, 从而获得用户的完整的访问路径。
识别片断用的方法是识别最大的向前引用路径。一个最大的向前引用路径相当于一个片断;向后引用, 等同于同一个用户再次请求其浏览过的页面。
当一个向后引用发生说明向前引用就被中止了, 从而得到的那个向前引用路径就是一个最大向前引用;或当这个用户会话结束的时候, 也获得了一个最大向前引用。
3 应用中遇到的问题及解决方法
由于日志文件的来源不同, 因此, 对一些细节问题处理上可能有所差异。
有些网页在设计的时候用到了框架, 叫做框架式结构的网页。框架式结构的网页可以包括多个子网页, 如下图。
由于框架式结构网页是普遍存在的, 并且其具有特殊性, 所以我们应在数据预处理的阶段就考虑到这种情况。当用户发出请求一个框架式结构的网页时, 浏览器就会自动下载自身所包含的子网页。
在上面的示意图中, 用户请求了A页面, 则B、C、D、E和F页面会被一起请求。在进行数据预处理时, 如果忽略了这种情况, 那么将出现令人失望的结果。其解决方法应是根据网站的拓扑结构, 填充路径之前进行框架过滤[2]。
4 结论
随着互联网日新月异的迅猛发展和普及, 网络资源会越来越丰富且多元化。Web数据挖掘预处理技术已经成为一个很热的研究领域。
本文重点浅析了Web数据挖掘的前期工作——数据预处理技术的过程, 数据挖掘算法可以在此得到实现。数据挖掘技术是建立在结构化的数据之上, 随后才有人注意到类结构化的数据挖掘。数据挖掘的预处理技术的价值之高是有目共睹的, 人工智能的最终目的则是消除自然表述与机器表述的差别——非结构化数据的挖掘。而web数据挖掘必将带动许多新技术的出现, 最终使人工智能发展到一个新阶段。
摘要:数据预处理是将原始Web转化成为适合进行数据挖掘的中间表现形式, 并且在web文本的挖掘过程中起到了决定性作用。文章主要探讨了数据预处理的环节过程, 并介绍了在这个过程中会出现的某些情况的特殊处理方法。
关键词:Web文本挖掘,数据预处理,数据挖掘
参考文献
[1]Workilow Management Coalition.Workflow process definition interface—XML Process definition language[S].Wf MC-TC.1025.2001.
数据预处理技术 第9篇
Web数据挖掘是数据挖掘技术和Internet应用研究相结合的研究领域, 在Web数据挖掘中, 最重要的应用是Web日志挖掘。Web日志挖掘与传统数据挖掘的区别在于数据源不同, Web日志挖掘的对象通常是服务器的日志信息, 而传统数据挖掘的对象多为数据库。Web服务器的日志 (Web log) 记载了用户访问站点的信息, 这些信息包括:访问者的地址、访问时间、访问的页面、页面的大小、浏览器类型、响应状态等等。每当站点被访问一次, Web log就在日志数据库内追加相应的记录。站点的规模和复杂程度与日俱增, 利用普通的概率方法来统计、分析和安排站点结构已经不能满足要求。通过挖掘服务器的日志文件, 得出用户的访问模式, 从而可以进一步分析和研究日志记录的规律, 来改进网站的组织结构及其性能, 构造自适应网站;还可以通过统计和关联分析, 增加个性化服务, 发现潜在的用户群体, 这在电子商务等领域是很有市场的。
2 数据预处理的四个阶段
数据预处理是在将日志文件转换成数据库文件以后进行的, 其目的是把Web日志转化为适合进行数据挖掘的可靠的精确的数据。这个过程主要包括四个阶段:数据清理、用户标识、会话标识和格式化。
2.1 数据清理。
数据预处理的首要任务是数据清理, 在任何形式的Web日志分析过程中, 清除服务器日志中不相关数据的技术是非常重要的。只有当服务器日志中表示的数据能够准确地反映用户访问Web站点的情况时, 经过挖掘得到的关联规则才是真正有用的。
由于HTTP协议是一个面向不连接的协议, 每次客户连接请求完所要的网页后, 服务器会自动与客户断开连接, 同时被申请的网页文件连同文件上的图片和脚本代码一并被下载到了客户端。在大多数的情况下, 只有HTML代码是有用的, 并被保存在日志文件中以用于用户的识别。因此这就要清除日志中的图片文件, 通常清除不相关数据项可通过检查URL的后缀来实现, 例如:可以把所有后缀是gif, jpeg的文件名从日志数据中清除掉。
2.2 用户标识。
接下来, 唯一的用户必须被标识出来, 也就是说要识别出来具体的用户。采用的方法是使用IP地址, Agent类型以及一些临时信息综合起来标识一个用户。具体方法是:
第一步, 如果IP地址相同, 但Agent信息中如浏览器软件或操作系统不同则可以假设为不同的两个用户。
第二步, 如果IP地址和Agent信息都相同则判断每一个请求访问的页面与访问过的页面之间是否有链接。如果一个请求访问的页面与上一个已经访问过的所有的页面之间并没有直接的链接, 则假设在访问Web站点的机器上同时存在着多个用户。
2.3 会话标识。
对于上一步标识出的用户所有的访问序列, 它们可能超越了很长的时间段, 因此可能用户在这个时间段内不只一次访问了该网站。会话标识的目的就是将用户的所有访问序列分成多个单独的用户一次访问序列。为了获得这个划分, 一个最简单的方法就是定义一个时间段, 如果用户请求的相邻的任意两个页面之间的访问时间间隔超过了这个时间段, 则认为用户又开始了一个新的会话, 这个时间段, 一般情况下选择为30分钟。会话标识的目的就是要创建每一个用户的有意义的页面聚类。
2.4 格式化。
在数据集完成会话标识之后, 会话数据必须被格式化成符合相应数据挖掘算法的数据模型, 这一步工作称之为数据转化。例如, 进行关联规则挖掘的数据格式和进行序列挖掘的数据格式就可能不同。在数据转化完成之后, 可以对格式化的数据进行相应的数据挖掘。
3 算法及实验
3.1 算法。
STT算法是首先把网站的树形拓扑结构转换为二叉树的结构, 然后在二叉树结构上根据用户的会话序列得到事务序列。Path中用来存在当前向前的引用路径, 也就是用户的访问事务数据, Session为用户访问序列, S指向用户访问序列中的当前结点, flag用来表示是否在树中找到了浏览路径的第一个结点。T为树的根结点, P为指向树根结点的指针, 采用二叉链表存储结构。
获得最大向前参引路径的算法描述如下:
3.2 实验。
算法实现的操作系统Windows2003Server, 使用编程语言C++, 编译器Microsoft Visual C++6.0。图3 (a) 代表一个网站的拓扑结构, 是一棵普通的树结构, 将其转换为二叉树结构如图3 (b) 所示。图3 (b) 中每一结点的左结点为其在图3 (a) 中的孩子结点, 右结点为其兄弟结点。
假如在同一个会话产生的日志如表1所示。
这次会话的浏览路径即用户访问序列为A-B-E-I-F-K-A-C, 通过路径补充技术, 得到用户会话序列为A-B-E-I-E-B-F-K-F-B-A-C, 再利用最大前向引用路径算法得出用户的访问事务为A-B-E-I、A-B-F-K、A-C。利用文章中给出的算法, 在不需要补充路径的情况便可由用户访问序列直接获得用户的访问事务A-B-E-I、A-B-F-K、A-C。
因为在数据预处理的过程中省略了路径补充的步骤, 根据用户访问序列直接得到用户的访问事务, 文章中提出的算法使得预处理的过程得到简化, 从而节约了一定的时间, 提高了整个日志挖掘的效率。
结束语
文章对Web日志挖掘中的预处理模块进行了研究, 且提出了一种由用户访问序列直接生成用户访问事务的算法, 这种算法不需要使用路径补充技术来补充完整的路径后再进行事务识别, 从而使得预处理的过程得到简化, 提高了挖掘的效率。
摘要:在Web数据挖掘研究领域中, 数据预处理在Web日志挖掘过程中起着至关重要的作用, 深入探讨了数据预处理环节的过程, 并介绍一种由用户访问序列直接生成用户访问事务的算法。
数据预处理技术 第10篇
数据交换系统是构筑在数据交换平台上的业务系统, 其核心功能主要包括数据传输和数据处理。而数据处理又是数据交换系统中的重中之重, 是体现一个数据交换平台区别于其他同类系统的关键技术, 数据处理的好坏直接关系到数据交换过程的安全性、有效性、易用性、可控性和可扩展性是否能够得到保障, 同时也体现了一个数据交换平台是否能够从用户的角度出发去实现千变万化的交换业务和适应复杂多变的应用系统。
这里所述的数据处理技术包括数据校验技术、格式转换技术和数据加工技术。数据校验技术是保证数据的完整性、安全性和有效性的手段, 如果没有数据校验技术, 数据交换的结果可能会产生无法预料的后果, 甚至会在目标数据库中生成很多的垃圾数据。格式转换技术体现了一个数据交换平台对各种数据格式的适应能力, 很多的应用系统的数据格式和数据类型都是千差万别的, 电力行业经常使用的数据格式就有XML、Excel、E语言、文本文件等, 要实现这些系统的数据交换, 就必须能够适应这些数据格式, 而且能够通过扩展能力适应未来其他的数据格式。数据加工技术是为了实现复杂的数据交换业务而采用的技术, 无论是发送方还是接收方都有数据加工的需求, 如属性的合并、关联关系的建立等。从目前的应用情况看, 数据处理技术能够满足电力企业不断发展变化的数据交换业务需求, 在电力企业信息化建设过程中为各应用系统之间的数据交换发挥着越来越重要的作用。
1 数据校验
数据校验是对接收数据的完整性、数据来源的可信任性和数据属性的有效性进行校验, CRC校验是对接收数据完整性的校验, 身份校验是对数据来源合法性的校验, 非空校验、范围校验、更新校验和时间闸校验是对属性有效性的校验。数据校验穿插在整个数据交换过程的各个环节, 从数据接收到数据转换、数据入库。从这些数据校验技术的目的可以看出, 数据校验技术保证了数据交换过程的完整性、安全性和有效性。数据校验层次结构图如图1所示。
数据校验过程按照箭头方向依次进行, CRC校验是在数据刚接收完毕时进行, 一旦发现数据接收不完整, 就抛弃此数据并通知发送方重新发送。身份校验是对发送方身份进行校验, 看是否是合法用户。非空校验是校验属性值是否为空, 范围校验是校验属性值是否在一定范围内。更新校验是校验数据能否更新。时间闸校验是判断业务时间是否在规定时间范围内。
1.1 CRC (Cyclic Redundancy Check) 校验
在数据交换系统中, 数据在传输时往往会由于网络故障、干扰等因素的影响而导致接收到的数据不完整。这就需要有一种校验机制来保证数据传输的完整性。而CRC校验就是一种比较常用的数据完整性校验技术。
CRC校验采用多项式编码方法。被处理的数据块可以看作是一个n阶的二进制多项式:校验码的编码方法是用待发送的二进制数据t (x) 除以生成多项式g (x) , 将最后的余数作为CRC校验码, 并将校验码和数据一起发送到接受端。接受端对接受到的数据进行相同校验, 再将得到的校验码和接受到的校验码比较, 如果二者一致则认为传输正确。
根据多项式阶数的不同, 分为CRC-4校验、CRC-16校验和CRC-32校验。阶数越高, 误判的概率就越小。CRC-4的校验码生成多项式g (x) =x4+x+1;使用CRC-16, 其生成多项式g (x) =x16+x15+x2+1;CRC-32的生成多项式。CRC-32出错的概率比CRC-16低10-5倍。由于CRC-32的可靠性, 把CRC-32用于重要数据传输十分合适, 所以在数据交换系统中通常采用CRC-32校验方式。
采用CRC进行校验时, 如果发现数据传输不完整, 就抛弃接收到的数据并通知发送方重新发送。
1.2 身份校验
在数据交换应用中, 有的业务要求一个用户只能发送自身的数据, 不能发送其他用户的数据。这可以采用身份校验的方法加以阻止。身份校验就是对数据来源的合法性进行校验的有效手段。采用身份校验时, 要求数据文件中的身份标识和接口调用的身份标识一致方可。如图2所示。
要想实现身份校验功能, 只需在接收协议里把身份标识属性设置为发送方。
校验过程:例如, 数据传输采用Web Service接口方式, 在接口调用时必须有身份标识参数, 如果接收到的文件中的身份标识和此身份标识参数不一致, 就表示此文件来自于非法用户, 并予以抛弃。
1.3 非空校验
对于某些关键数据, 要求属性值必须非空, 这可以采用非空校验机制实现。当然对于交换目标是数据库的情况, 可以在数据库端把属性定义为非空。但如果交换目标是非数据库的情况, 就必须在数据交换系统中进行非空校验。数据交换系统中提供了统一的非空校验机制, 对于交换目标是数据库的情况, 在数据交换系统中定义非空校验, 也要比在数据库中执行操作来进行非空校验来的有效率。如图3所示。
要实现非空校验功能, 只需在接收协议中把接收属性设置为非空即可。
校验过程:判断数据文件中每个属性值是否为空, 并根据此属性是否定义了非空校验进行过滤, 如果违反了非空校验, 就阻止入库, 把异常信息写入日志并在监控界面提示用户。
1.4 范围校验
在数据交换应用中, 往往会有这样的业务需求:要求接收到的属性值必须在某一个范围内, 如员工年龄必须在18~60岁之间, 超过此范围的被认为是无效的数据。针对这样的业务需求进行属性值的控制就是范围校验机制。范围校验就是判断属性值是否在一个预定义的范围中。范围有3种类别, a) 数字范围, 可以设定范围的上下限, 如年龄范围:18~60;b) 字符串关键字范围, 如性别范围:男, 女;c) 数据库中的某个表的某个属性值, 定义格式为:ATable.AField。如设备编号必须在“设备台账”表的“编号”属性中已经存在;否则被认为是无效的设备。如图4所示。
要想实现范围校验, 只需在接收协议的接收属性上定义好范围即可。
校验过程:如果接收协议的属性上定义了范围校验, 就判断该属性值是否在定义的范围内, 如果不在范围内, 就阻止入库, 把异常信息写入日志并在监控界面提示用户。
1.5 更新校验
在数据交换应用中, 用户有时希望一个单子不能重复上报, 即只允许上报一次;有时希望一个单子可以重复上报, 但单子中的某个属性只允许上报一次。这就要用到更新校验技术。更新校验用于阻止数据的重复上报, 如一个流程在流转过程中, 不允许重复上报数据, 以避免领导审核过的内容被覆盖。
此校验有2个校验级别:行级校验和属性级校验。行级校验指在发现数据属于重复上报时, 阻止整行数据的更新;属性级校验指在发现数据属于重复上报时, 阻止某个属性的更新, 但其他属性仍然可以更新。如图5所示。
要想实现行级更新校验, 只需在接收协议的接收条款上定义“不可更新”即可。
要想实现属性级更新校验, 只需在接收协议的接收属性上定义“不可更新”即可。
校验过程:首先判断数据是否属于重复上报。如果是重复上报, 判断接收协议是否定义了行级更新校验, 如果没有定义行级更新校验, 直接更新整行数据, 否则, 就阻止入库, 把异常信息写入日志并在监控界面提示用户。如果没有定义行级更新校验但定义了属性级更新校验, 就阻止此属性的更新, 但其他属性照常更新。
1.6 时间闸校验
时间闸校验是对于有时效性的数据进行有效性校验。如有的业务要求数据必须在某个时间段上报, 超过此时间段的数据不允许上报。时间闸校验就是设置了一个时间闸, 只有在时间闸内的数据才允许通过。
时间闸可以为当天的某个时间段, 也可以是多少年 (月、日) 前 (后) 某个时间段。
时间闸校验的设定:a) 在接收协议层定义时间闸;b) 定义某个属性为业务时间;
系统即可根据业务时间进行判断, 不在时间闸内的数据予以排除。
但有时候根据业务需求, 也需要上报时间闸之外的数据, 如补报历史数据。这就需要开辟一个“绿色通道”, 专门供需要补报的历史数据通过。
此“绿色通道”就是请求令牌。即用户向系统发送一个请求令牌, 要求时间闸之外的数据通过。只有符合请求令牌的数据才能走“绿色通道”。而且请求令牌是一次性有效。如图6所示。
请求令牌的格式如下:
数据名称:请求哪类数据, 如“日入炉煤量”;
发送方:数据来自于谁:如“清河电厂”;
业务时间:请求什么时间的数据:如“2008-3-1”;
下面以“日入炉煤量”为例说明时间闸校验和请求令牌的应用。
“日入炉煤量”为每天上报数据, 要求在下午5~6点钟之间上报, 过期作废。所以, 时间闸设定为当天5~6点钟。“日入炉煤量”数据格式如下:
日期:2008-4-18
电厂:清河电厂
入炉煤量:3000
在数据接收端把“日期”属性设定为业务时间。
这样, 只要清河电厂每天在5~6点之间上报数据, 数据就能够成功接收入库, 否则将被时间闸过滤。
假如用户需要清河电厂重新上报昨天的日入炉煤量数据, 原则上会被时间闸过滤。但用户可以向系统发送一个请求令牌, 请求令牌的内容如下:
这样, 清河电厂就能够顺利的把昨天的日入炉煤量数据上报。上报完毕, 请求令牌即告作废。
2 格式转换
在数据交换应用过程中, 会遇到各种各样的数据格式, 电力行业经常使用的数据格式就有XML、Excel、E语言、文本文件等, 数据交换系统要想更好的服务于电力行业, 就必须能够适应多种数据格式, 并能够提供扩展途径适应未来其他的数据格式。
数据交换系统通过格式转换技术来适应各种各样的数据格式。把多种数据格式转换成一致的数据格式, 进行一致的处理。这也体现了模块化思想。数据处理模块处理的是经格式转换后的统一的数据格式。
图7中每种格式转换均对应一个格式转换器, 将来如果需要交换其他格式的数据, 也相当容易, 只需要再实现一个格式转换器即可。格式转换器需实现如下接口:
//格式转换器接口原型
string Form Convertor (string originfile) ;
其中, 输入参数为原始文件, 输出为转换后的统一格式的文件。
3 数据加工
数据加工技术就是对复杂的、交换过程需要进行更多控制的交换业务数据及交换过程进行干预, 实现如动态交换、属性计算等功能。数据加工技术采用事件驱动的脚本实现, 数据交换系统的脚本功能提供了丰富的事件及各种底层接口, 为高级用户及二次开发人员进行复杂的数据交换业务开发提供了底层支持。脚本的定义和执行提高了数据交换的灵活性, 可以解决用户的许多个性化交换需求和复杂的数据处理逻辑, 大大增强了数据交换系统的生命力。
数据交换系统提供的常用事件如 (部分) :
每个数据交换对象上都可以定义事件驱动的脚本, 其控制粒度非常细。大到数据交换前后触发事件, 小到计算一个属性的值, 从而能够实现任意复杂的数据交换业务。
数据加工结构图如图8所示。
协议定义器是客户端程序, 用来定义各种数据交换对象上的事件脚本。数据交换服务是后台服务程序, 用于处理实时数据交换任务。脚本引擎用来负责事件脚本的执行工作。脚本底层接口在框架基础服务中提供, 如数据库访问操作、磁盘操作等。数据访问实现到不同数据库的访问, 屏蔽了不同数据库的差异, 提供统一的数据库访问接口。
在发送和接收时均可以进行数据加工, 发送时的数据加工如可以实现在数据交换完成后把源数据库里的记录删除, 一个属性值经过计算后 (如单位换算, 把元转换为万元) 再发送等;接收时的数据加工如把多个属性值连接起来保存在一个属性值中、把一个子对象自动关联到父对象下面等等。
总之, 有了数据加工就能够应对各种复杂多变的交换业务逻辑, 实现数据交换的持久性和可维护性。
4 结语
数据处理技术作为数据交换平台核心的技术, 在各级电力企业应用系统的数据交换应用中发挥了重要的作为, 为电力企业日益复杂的数据交换应用和越来越多的应用系统的接入提供了完善的解决方案, 并为将来的数据交换应用预留了广阔的应用空间。目前, 以该技术为核心的PX2000数据交换平台已经成功应用于全国各级电力企业间的数据交换。
参考文献
[1]王新梅, 肖国镇.纠 错码-原理与方法[M].西安:西安电子科技大学出版社, 2001.
数据预处理技术 第11篇
【关键词】 “大数据”时代 计算机 信息处理技术
随着计算机的普遍应用,已经彻底将我们的传统生活方式进行改变,同时也推动了我国的科技的今后发展。随着人们接收的信息量也开始逐渐增多,对这些新信息的储存需求也越来越高,许多网络企业看到了计算机信息处理技术的美好前景,并开始在这方面进行专研,希望专研出的成果可以为我国的互联网用户提供更便捷的服务。“大数据”就在这种环境下逐渐产生,它不仅给人们的日常生活提供了便利,同时也推动了我国计算机信息处理技术的今后发展。随着科技发展越来越好,基于这种大环境的影响,计算机信息处理技术也会随着变得更加完善。
一、“大数据”时代与计算机信息处理技术概述
1.1 大数据定义
《华尔街日报》曾经报道过一篇关于先进技术发展的文章,在这篇报道中提到,带领社会走向繁荣的先进技术一共有三种,第一种是智能化生产技术;第二种是无线网络革命技术;第三种是大数据时代。大数据从字面上理解为资料含量比较广,从概念上主要是指资料信息的规模比较庞大,有价值的信息也非常多。大数据重要包含四种大数据特点。第一点数据含量较大;第二点数据种类较多;第三点数据处理速度较快;第四点数据价值密度较低。因为大数据具有特殊性,因此,人们对大数据的技术要求也逐渐增高。现阶段大数据的关键技术重要分为五种,其中包括大数据遗传算法技术、大数据分类分析技术、大数据聚类分析技术、大数据机器学习技术以及大数据自然语音处理技术等。
1.2计算机信息处理技术定义
将数据进行输送、数据获取、数据分析、数据处理这四项内容结合在一起就组成了计算机信息处理技术。 而计算机信息处理技术主要包含四种技术,其中包括第一种为计算机技术;第二种为通信技术;第三种为网络技术;第四种为微电子技术。计算机信息处理技术的种类又分为三种:第一种为信息系统技术;第二种为数据库技术;第三种为检索技术。计算机信息处理技术中其中核心作用的技术是信息处理技术,而进行数据分析的技术是配合数据库以及通信网络技术。在计算机信息处理技术中起着关键作用的技术就是数据库技术,它不仅可以把有关信息进行整合,同时还可以将有关信息进行储存并进行有效利用。
二、“大数据”时代下计算机信息处理技术所面临的机遇与挑战
2.1面临的机遇
随着科技发展前景越来越好,数据挖掘和应用也给我国的经济发展创造出了有利的产业价值,数据挖掘的主要原理就是将每个数据进行充分的分析,从分析的大量数据中探索其规律的一种先进技术。数据挖掘组成部分一般分为 三个阶段:第一阶段为数据准备阶段,第二阶段为规律寻找阶段;第三阶段为规律表示阶段。对相关数据进行挖掘可以有效提升信息处理对策。许多单位在收集数量较大的数据之后,都会出现一些通病问题,例如数据信息太多以及寻找信息的目标不明确的问题,这些问题出现,就给数据的准备阶段增加了难度,对于传统的事物型数据库来说,它只具备数据登记、数据查找以及数据统计等这些相对简单,层次又不是很好的能力,这就导致其无法从这些规模庞大的数据中快速准确的给人们提供想要应用的信息,因此不能借助这些数据给人们概括出有价值的数据和信息,也就不能将目标规律进行及时的发现以及表达。如果可以将这些规模庞大的数据进行准确的分析,就能够找出一些不以人们发现的数据信息,例如,当目标群体出现在我们监控的范围内,我们可以通过安排专人为这些群体进行服务,通过该群体在监控区域内的行为习惯以及兴趣爱好,并建立科学合理的对策以及有效措施,进而提升工作效率以及提高整个公司的核心竞争力。例如,当我们在浏览器中要查询某条信息时,只要在搜索栏中输入关键词后,就会自动搜索这些关键词,甚至当我们只要输入关键词的首字母后,搜索栏就会自动弹出相应的词汇,造成这种现象出现的因素只要是浏览器将网络用户们所搜索的词汇轨迹进行记录,并在数据挖掘分析的根本上,将搜索者的共性习惯进行充分总结,这就有效的提升了浏览器的搜索速度,进而有效的提升了搜索网站的推广度,使得更多的网络用户不约而同的应用这个搜索网站。
2.2面临的挑战
2.2.1信息安全的要求更高
随着大数据时代的来临,网络技术也开始被人们广泛应用,随之而来的就是信息安全问题。随着网上冲浪和网络购物的用户越来越多,网络用户就需要加强信息安全的防范意识,对真假信息进行辨别,如果不太注意,不法人员借助钓鱼网站将用户的个人信息进行盗取,这些信息一旦被不法人员盗用,就会出现信息安全问题,甚至会造成用户的财产损失。因此,为了保证用户的信息安全,国家有必要建立相关的法律法规。网络用户也要加强个人信息安全的保护意识,防止出现不必要的经济损失。
2.2.2需要专门的人才
随着大数据时代的来临,网络技术也开始被人们广泛应用。为了保障网络用户的信息安全,就需要专门的人才以及管理人才。大数据时代正处于技术时代,而技术型人才更是受到了各个行业的争抢。而培养专业性人才需要经过很长的时间,这对科技快速发展的今天来说,缺少专业性人才是普遍存在的。因此,想要在这个大数据时代中计算机信息处理技术得到更好的发展,管理人员就需要不断的完善自己的数据库,利用大数据的方式,去寻找合适自己的解决方案。要想实现这些方案,是需要一个漫长的演变过程。
三、“大数据”时代的计算机信息处理技术发展前景
大数据通常具备两种特点,第一种是数据容量比较大;第二种是结构相对比较复杂。与传统的数据形式进行比较,大数据占有的特点就是可以将各种数据进行连接,构成一个互相关联的稳定结构,由于这些特点的存在,导致现在的计算机信息处理技术不能很好的将其处理干净。现在的计算机网络大多是以硬件作为基础元件进行建造的,这种框架模式一般会受到一定的局限性,因此,计算机性能存在局限性就会给网络的一些性能造成一定的影响。
所以,为了迎合大数据下时代下的网络需求,就要对计算机网络结构进行不断的探索新的信息。为了保证为了的网络技术发展前景越来越好,就需要构建开放模式的网络传输框架,只有这样,才可以将网络信息和计算机硬件彻底的分开,之后在对网络框架进行定义,进而促进网络技术与网络软件朝着更好的方向发展。
随着社会科技发展不断进步,大数据时代也逐渐来临,在这种环境的影响下,计算机技术与网络技术逐渐结合,构建了一种新形势的计算机网络框架,这种框架的出现可以推动大数据技术更好的发展。它不仅可以将传统的计算机信息处理技术和网络技术进行完善,同时还促进了我国计算机处理技术的今后发展。除此之外,许多计算机信息处理技术在大数据时代的影响下,它的研发效果和应用效果已经不会受到单一形式的局限,借助网络技术,将众多小的企业进行合作,共同研发新的计算机信息处理技术。
四、结束语
随着大数据时代的来临,这就给计算机信息处理技术带来了新的能力。本篇文章就根据大数据时代下对计算机信息处理技术的重要性进行详细的阐述,并对计算机信息处理的主要技术与研究进行分析,希望通过本文的阐述,可以给从事相关研究工作的人员提供一些参考建议。
参 考 文 献
[1]赵春雷,乔治·纳汉. “大数据”时代的计算机信息处理技术[J]. 世界科学,2012,No.39802:30-31.
[2]田茂林. “大数据”时代的计算机信息处理技术研究[J]. 无线互联科技,2016,No.7802:144-146.
浅析硬盘数据恢复处理技术 第12篇
1.硬盘数据丢失或损坏的原因
导致硬盘数据丢失或损坏的原因主要有逻辑故障、物理故障、人为失误和病毒破坏。物理故障是指硬件自身损坏如:电路板、磁头、芯片等, 由此引起的故障一般要专业人员来维修。逻辑故障是指与File System有关的故障, 诸如硬盘文件系统损坏、分区表或主引导分区被破坏。人为故障主要有错误操作 (误删、误格式化、误克隆、误分区或覆盖) 造成的数据丢失、分区表破坏。病毒常会导致硬盘找不到分区、文件被病毒损害等。本文主要从软件恢复方法上来讨论基于逻辑、人为原因导致的数据问题[1]。
2.硬盘数据存储与恢复原理
硬盘的完整数据项目一般包括MBR (主引导扇区) 、DBR (操作系统引导记录区) 、FAT (文件分配表) 、DIR (目录区) 和DATA (数据区) 五部分。文件在硬盘存储时采用链表方式, 链表的指针构成FAT分配表, 由此硬盘的不同簇链接成为可以连续的空间存储文件。硬盘数据的目录表DIR里面记录文件分配表FAT的名称、属性、文件的起始地址信息。当硬盘存储文件时候, OS先在找到目录表DIR, 再通过其中的表项找到文件的分配表FAT, 从中找到足够容纳文件的空间, 最后把文件数据写到对应的硬盘扇区。删除文件时, 只重新改写了硬盘的主引导扇区 (0面0道1扇区) 中的内容, 即删除了硬盘的FAT分区表信息, 只是把指向这数据存储空间的链条删除了, 真正的数据还是以二进制的方式存储在硬盘上没有改动。如果删除文件后又创建了新文件, 那么被删文件所占用的扇区就有可能被新文件所使用, 这时候就无法恢复被删文件的数据了。如果已经对分区用Format命令格式化, 需在恢复分区之后, 再恢复分区数据。所以一旦发现数据丢失, 就不要轻易尝试任何操作, 它有可能覆盖原来的数据[2]。
只要这些数据不被覆盖, 通过一些特定的软件方法, 对这些存储数据的磁盘进行扫描, 通过对所扫描得到的数据进行分析, 以一定的格式来进行编译, 就能够在一定范围内把丢失的数据找回来。比如一块硬盘或者是一个闪存, 在Windows下进行高级格式化, 实际上主要是对FAT表进行重新分配, 把通向原来数据的通道给切断了, 这样从表面上看起来是把磁盘进行格式化了, 而实际上原来存储的数据还存储在盘片或是存储元件上, 通过对盘片或存储元件进行扫描, 然后按照主引导区、分区、DBR、FAT、文件实体恢复的顺序来解决, 可以在一定限度内对文件进行恢复。
如果硬盘中的数据被完全覆盖或多次被部分覆盖, 很可能使用任何软件也无法修复。因此, 当出现数据丢失的情况时, 最主要的操作就是不要对原来存放数据的区域进行数据存储或写操作, 以保持原来存放数据的区域不被改动, 为数据恢复做好充足的准备。
3.数据丢失后的具体注意事项
根据数据恢复的原理, 一旦发生数据丢失或者损坏现象, 最重要的是不要做任何操作, 防止存在故障的数据区域被读写从而导致更严重的数据损坏, 主要的注意事项有:
3.1不向目标分区写入新文件。
3.2不要安装新软件或运行新任务。特别是不要向恢复目标分区安装新的软件, 即使是恢复软件本身。如果您的虚拟内存设在了C盘, 此时也不要打开新的任务, 以免因为虚拟内存的更新变化而造成覆盖数据。您应该在“系统”里更改虚拟内存的指向路径, 然后重新启动Windows, 再安装恢复软件到目标以外的分区。
3.3注意Windows扫描和报告的设置。Windows会在启动的时候检测分区有没有错误, 如果上次是非正常关机, 您就会看到一个扫描的任务及进度条, 这种扫描对解决交叉链接错误有用, 但对于要恢复的文件可能会造成致命的破坏。因为扫描完毕后, Windows会生成信息报告, 有可能会破坏目标文件的关键字节, 如果是可执行文件, 就算勉强恢复过来也用不了。进入Windows后, 也请您不要在该目标分区进行磁盘扫描, 因为默认状态下, Windows会把交叉链接文件和文件碎片转化成*.CHK, 也有可能破坏你的目标文件。如果您用的是Windows XP, 按回车跳过磁盘检测直接进入Windows即可[3]。
3.4不要尝试Windows的系统还原功能。
3.5不要反复使用杀毒工具。
4.硬盘数据恢复处理技术应用
4.1硬盘数据恢复前的准备工作
根据硬盘数据恢复的原理, 当数据发生丢失或损坏时, 最重要的是不要对出现故障问题的原数据存储区域进行任何操作即保证该区域数据不被做任何改动, 从而避免数据被覆盖或进一步损坏。
需要进行恢复的DATA一般非常重要, 但现有软件恢复技术并不能确保100%的成功率, 为防止意外的误操作发生, 一般应首先进行备份工作。基于硬盘扇区级别的备份工具有Ghost、DiskExporer和WinHex, 这里以WinHex为例, 它是一款通用的16进制编辑工具。具体操作为, 双击WinHex软件图标, 单击“工具”“打开磁盘”, 选择逻辑驱动器或者物理硬盘;单击菜单中的“编辑”在驱动器下选择要备份的文件, 再打开“定义选块”,
在弹出的对话框中输入选块开始和结尾的地址;最后单击“编辑”“复制选块”“置入新文件”, 选择好保存的位置并命名即可完成备份。
4.2主引导区的恢复
对于计算机启动后屏幕出现“Boot failureinsert system diskette”、“Miss operation system”等提示信息, 如果在DOS下逻辑启动分区的内容完好, 一般属于主引导扇区问题。此类故障可将光驱设置为第一启动顺序, 然后用光盘启动, 选择进入DOS状态, 查看能否读取用于启动的逻辑驱动盘上的内容。若可以读取, 采用Fdisk/mbr命令即可向主引导扇区写入主引导程序, 硬盘便可以恢复正常的启动[4]。
4.3修复分区表和DBR
当使用诸如PQ Magic等分区软件时, 由于误操作致使不能进入OS或进入OS后文件打不开等情况, 这些都是分区表出现了故障。对分区表的恢复一般是查找相应的备份分区表并复制相关的扇区, 例如可以使用DiskGenius软件 (FAT和NTFS格式均可修复) , 该软件可以在DOS环境运行。运行该软件后, 单击菜单中的“硬盘”, 在下拉菜单中选择“还原分区表 (F10) ”子菜单, 然后打开备份分区表即可实现恢复硬盘分区表。
当在Windows状态打开一个原来正常的有数据存储的分区时, 系统提示“该分区没有格式化”不能使用, 而如果在DOS下查看, 会有信息提示“General Fail Reading Drive”, 这是由于所在分区的DBR出现了损坏。如果按照提示进行分区格式化, 那么将失去该分区的所有数据。我们可以用WinHex软件来修复DBR, 将故障硬盘作为从盘挂接, 在WinHex软件中选择此从盘, 最后使用硬盘中的分区表信息来处理分区, 从而可以达到修复的目标。
4.4基于软件故障的硬盘数据恢复方法
计算机用户常见的误操作有误删除和误格式化。基于软件故障的数据恢复软件有EasyRecovery、FinalData等, 这里以EasyRecovery软件为例介绍 (它能够恢复大于8.4G的硬盘数据以及重建文件系统) 。
打开安装好E a s y R e c o v e r y, 进入界面后 (如图1所示:EasyRecovery数据修复初始界面) 首先在左边的列表中选择“数据恢复”工作模式, 此时软件会提供更多的选项供大家选择。这里我们选择使用功能最强的“高级选项自定义数据恢复功能”, 它已经包括了“查找并恢复已删除的文件”和“从一个已格式化的卷中恢复文件”以及“不依赖任何文件系统结构信息进行恢复”等三个功能选项。
选定“高级选项自定义数据恢复功能”, 随后按系统要求输入需要恢复的分区, 即让EasyRecovery扫描指定的分区 (如图2所示:EasyRecovery扫描指定的分区) 。
指定需要恢复的文件类型是FAT32还是NTFS, 如果我们已经不记得需要恢复文件的格式则可以选择RAW格式。选定格式之后就可以开始扫描了, 即让EasyRecovery帮我们列出指定类型的所有可恢复文件;根据需要选择我们需要恢复的文件, 单击“下一步”选择恢复文件需要存储的文件夹即可 (如图3:恢复的数据文件) 。
根据前面对硬盘数据恢复原理的介绍我们知道, EasyRecovery并不是万能的, 并不能恢复所有删除或损坏的文件。EasyRecovery能够恢复的是那些操作系统已经删除了目录表、文件分配表, 但是仍然没有更新、覆盖数据实际的物理存储区的文件。这就要求我们一旦意识到有文件需要恢复就不要再对硬盘做任何的读写操作, 防止覆盖需恢复文件的物理存储区。如果需要恢复的文件在C盘上, 就必须把该硬盘作为从盘挂在别的计算机中进行操作。
EasyRecovery不仅能恢复被删除的文件, 它还能恢复被破坏的硬盘中像丢失的引导记录、BIOS参数数据块、分区表、FAT表、引导区等都可以由它来进行恢复;能够对ZIP文件以及微软的Office系列文档, Email进行修复, 使用方法大同小异。
5.结束语
硬盘数据损坏后很多情况下是可以采用一定的恢复技术修复的, 但还是存在大量修复失败的案例。究其原因, 失败主要是因为用户在数据的恢复过程中实施了错误的操作, 导致了物理上的数据丢失。因此, 当出现数据丢失现象后, 不要对原数据存储区域做任何操作尤其是读写操作, 以避免对该受损区域的数据覆盖, 防止数据在物理上受到损坏。我们应先使用备份软件将该数据区域内容备份, 然后使用类似EasyRecovery的修复软件进行处理。按照这样的处理顺序, 一般数据丢失都能恢复。当然, 如果是是物理故障或病毒原因, 应该进行专业维修。
参考文献
[1]梁宇恩, 沈建刚, 梁启来.计算机数据恢复技术[M].西安:西安电子科技大学出版社, 2009.
[2]邵喜强, 朱宏斌.硬盘维修与数据恢复标准教程[M].北京:人民邮电出版社, 2008.
[3]邵喜强.硬盘维修与数据恢复标准教程[M].北京:人民邮电出版社, 2008.