it运维自动化论文(精选8篇)
it运维自动化论文 第1篇
IT运维自动化 概述
目录 什么是IT运维自动化传统运维管理方式存在的问题 IT运维自动化迫在眉睫 4 IT运维自动化管理的具体内容 5 IT运维自动化的工具 建立高效IT运维自动化管理的步骤
1.什么是IT运维自动化?
随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是IT运维(其他因素是更加优越的IT架构等)。
从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。
IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。
因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。可以说自动化一定是IT运维最高层面的重要属性之一,并且需要与之配套的一系列软硬件平台环境及体系。2.传统运维管理方式存在的问题
目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:(1)运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。
(2)缺乏一套高效的IT运维机制
目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。(3)缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。3.IT运维自动化迫在眉睫
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。
例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势——
首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。4.IT运维自动化管理的具体内容
IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前--自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。
所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。
简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。
自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。5.IT运维自动化的工具
对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于: 监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙、机房环境监测设备等;
配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置。
维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人。
系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控。维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
6.建立高效IT运维自动化管理的步骤
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。
例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。
因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。(3)建立规范的事件跟踪流程,强化运维执行力度
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(4)设立IT运维关键流程,引入优先处理原则
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
it运维自动化论文 第2篇
目前,电力行业IT支撑平台还没有统一的技术体制,更没有适合国内复杂环境和投资高速增长特点的成熟案例。为解决大量IT建设运维仟务与电力IT技术人员不足的矛盾,提高IT系统建设质量、运维水平,实现IT精益化管理要求,解决大规模IT投资项目全过程管控、精益化信息运维和精益化通信运维3大问题,需要开展如下关键技术的研究:
建立基于合同、项目之间多对多联动关系的业务模型,实现IT系统建设全过程精细化管控;构建共享数据平台,实现系统运行状态可靠性分析、多维告警信息相关性分析机制、系统检修影响范围预评佔,完成运维检修闭环管理。
1业务活动联动性管理方法
电力信息化项目建设需要严格遵循合同来计算资金收支、管控项目进度计划,因此,需要建立合同、项目之间的业务模型,管理合同之间、项目之间、合同与项目之间的联动关系。同时,在审核流程中,通过联动关系量化判断因素,为审核人员提供辅助判断结果。
1.1业务联动数据模型
根据实际业务需求分析,合同分类形成一种网状结构,例如,按照合同的资金流向将合同分为收人类合同和成木类合同,成木类合同又分为自建项目合同、技改大修项目合同、分包项目合同,而分包合同要对应收人合同。一个合同可以分拆为多个子合同,一个项目又可以由多个子项目组成,一个合同可包含多个项目、一个项目可以对应多个收人和支出合同,每个项目下又可能对应多个成木项目。项目与合同,项目与项目之间都是多对对多的关系。在进行项目过程管控和合同管理的时候,这种复杂的关联关系将影响上层项目与合同的进度整体为建立上述的业务关系模型,需要建立虚拟合同和虚拟项目,将网状结构拆分为树形结构,构建了虚拟合同与实际合同、虚拟项目与实际项目之间的虚拟关联关系,从而在虚拟关联关系的基础上将实际的多对多的联动关系转换为一对多的关联关系,建立了合同与合同、项目与项目、合同与项目之间一对多关系,简化项目过程管控和合同资金支付的实现难度。
1.2基于加权法的联动性计算方法
在构建业务联动性模型后,在审核流程中引人加权项,通过加权项权重、权值设置,在审核节点自动触发加权计算方法,根据业务联动关系收集加权项设置的数据,按照线性加权法计算该节点项目进度、合同执行情况,以及资金支付比例,为审核人员给出科学的辅助审查的建议值。加权项设置在联动关系或者项目属性上。在联动关系上设置加权项,例如:项目与子项目之间、合同与子合同之间设置加权项,并根据子项目工程量或者资金比例设置权重,则在计算项目进度、合同完成率和资金支付比例时,需要根据子项目权重联动计算子项目进度、完成质量等,汇总得出项目进度、合同完成率和资金支付比例。
在项目属性之间设置加权项,是指在具有联动关系的属性之间设置加权项,并根据属性特点设置权重,例如,计算某一个项目应支付资金比例,则需要在项目进度、里程碑交付物、工作质量评价、环境因素评价等关联属性设置加权项和权重,根据获得的加权项的值和权重计算资金支付比例。
2基于状态可靠性的检修预评估方法
2.1运行状态可靠性分析
采集系统建设费用、运维成木、运行时长、运行状态、故障次数、检修次数,计算可靠性指标(MTTF(平均失效时间),平均无故障工作时间(MTBF)、平均修复时间(MTTR),故障率),反映建设期的建设质量、建转运质量。
MTTF作为最为广泛的衡量系统可靠性的参数,指系统平均能够正常运行多长时间才发生一次故障,系统可靠性越高,平均失效时间越短。MTBF越长可靠性越高,正确工作能力越强。MTBF的目的是找出设计中的薄弱环节,用于判断可维护性和不可维护性的系统。MTTR包含维护所需时间,获得配件时间,维修团队响应时间,记录所有仟务时间以及重新投人运行时间。MTTR越短表示恢复性越好。通过对系统运行状态分析的可靠性研究,在某一方面反映运维团队的执行效率与可靠程度,另一方面通过对运维阶段发现的问题,追溯到建设期项目与合同配置项等信息,检查是否是建设期出现的缺陷。
2.2多维告警相关性研究
信息、通信系统在运行过程中,针对异常现象会抛出告警信息,但这些告警信息的内容在故障定位和排除的时候其可参考性不强,并且没有对告警资源类型进行分类、分层详细说明,因此需要对告警进行过滤、分类等预处理,对告警原因进行层次化分析,找出发生告警的最初资源项。告警相关性分析如下告警集中监视应包括告警分类、告警过滤、告警显示、告警操作(确认、清除、封锁)、告警提示(短信、语音)、告警根原因分析、告警查询、告警状态计算等功能。
告警过滤主要通过制定合理的告警过滤规则,从大量告警中屏蔽用户不关心的告警,过滤出重要告警从而有效防止告警风暴。告警过滤包括告警过滤规则定制、告警过滤规则应用。告警过滤规则定制指对告警等级、告警原因、告警所属设备、告警关联业务等制定相应的过滤规则,并存储到过滤规则库告警原因分析依据告警之间的相关性,通过对众多的告警信息进行处理,找出根告警,从而定位出故障产生的根木原因。告警根原因分析包括规则制定、规则应用。告警相关性规则制定是通过资源对象之间的关联性、告警之间的相关性以及告警与资源对象之间的所属关系,动态判断根源告警与衍生告警之间的推导关系。
告警状态计算根据对象的层次关系,分析对象及下属子对象的告警信息,提取告警的最高等级作为该对象的告警等级,并计算该对象内所有告警数目和已确认告警数。
2.3检修预评估方法
由于信息通信系统间的耦合度和关联度越来越高,一个系统功能点可能会影响多个系统,要求检修人员在进行检修工作前必须做好检修影响范围的分析做好对应的防范措施。但面对支撑电网的几十套核心业务系统和数以万计的系统间接口关系、数据横向纵向集成关系、数千台硬件设备间的拓扑关联关系和电力内外网的拓扑关系,检修人员缺乏全面了解如此庞大的系统关联关系,存在检修风险点分析不到位而造成检修过程中其他关联系统中断。
因此,需要建立检修预评佔影响范围模型,识别关键检修步骤,评佔每一个步骤的检修影响范围、检修成木和检修时间,结合最短路径法,根据所有关键步骤的检修影响范围、检修成木、检修时间3个方面综合选择最优的检修方案,提高检修效率、降低检修风险与成木。
基于系统资源数据库,提供制定检修计划功能,通过对系统关联关系以及传输网络业务保护关系等计算,实现影响业务范围自动分析,完成检修计划的制定。针对检修的系统、设备和设施,利用通信网络、传输通道、通信业务、系统之间各种关系分析受到影响的通信业务。对于当前的检修单需要与正在执行的检修单进行相关性分析,避免多检修单执行时中断业务。
3结束语
业务活动联动性管理方法、基于状态可靠性的检修预评估方法等关键技术,已经应用于电力行业精益化IT支撑平台,实现了信息通信系统建设、建转运、运维全过程管控,大幅提高运维效率和系统运行可靠性。
IT运维自动化管理探析 第3篇
IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。
因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。可以说,自动化一定是IT运维最高层面的重要属性之一,但不是全部。
2 传统运维管理方式问题
目前,许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
2.1 运维人员被动且效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前,绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,导致故障发生后或报警后才会进行处理,使到IT运维人员的工作经常处于被动“救火”的状态。
2.2 缺乏高效的IT运维机制
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
2.3 资源管理不集中
在云平台中,将硬件资源组成资源池,并通过虚拟化技术为用户提供服务。在云平台中有专门提供硬件资源整合、分配硬件资源为其上运行的各虚拟机使用、协调跨硬件资源完成各种高级服务的管理平台,由管理平台对物理资源和虚拟资源进行集中管理。这与传统系统以单台物理机为管理单位,或以几台物理机为集群的技术不同,云平台的集中管理具有整体性,即所有属于平台的物理资源和虚拟资源,均需在管理平台中进行集中管理,由管理平台进行资源调配实现各种高级服务功能。
3 自动化管理建设
现在IT系统的复杂性客观上已经要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化,是指通过将日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度) 由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。
简单地说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可以帮助IT运维人员完成日常的重复性工作( 如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
3.1 IT运维自动化工具分类
对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:
(1) 监控自动化,指对重要的IT设备实施主动式监控, 如路由器、交换机、防火墙等。
(2) 配置变更检测自动化,指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认, 通过自动检测协助IT运维人员发现和维护配置。
(3) 维护事件提醒自动化,指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
(4) 系统健康检测自动化, 指定期自动地对IT设备硬件和应用系统进行健康巡检, 配合IT运维团队实施对系统的健康检查和监控。
(5) 维护报告生成自动化, 指定期自动地对系统做日志的收集分析, 记录系统运行状况, 并通过阶段性的监控、分析和总结, 定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
3.2 建立IT运维自动化
3.2.1 建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发,完成对IT运维的例行巡检形成检查报告,包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
3.2.2 建立故障事件自动触发流程
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报警的故障,应以红色标识显示在运维屏幕上,然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员,IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
3.2.3 建立规范的事件跟踪流程
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。实践证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
3.2.4 建立规范的事件跟踪流程
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时引入优先处理原则,日常事件按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
4 自动化管理工具应用
4.1 工具应用分类
一个完善的自动运维体系包括系统预备、配置管理以及监控报警三个功能模块,如图1 所示:
(1) 预备类工具
预备类工具可以使Linux操作系统及软件安装自动化。它们借助服务器上的软件包系统,比如RPM或者APT业安装软件包,甚至会做一些粗略的配工具。
(2)配置管理类工具
配置管理工具可以自动化部署常用的应用程序,设置参数或者开启一个新服务器上的服务,也可以用来把对操作系统及业务支撑系统的变更管理回滚到上一个版本。
(3) 监控报警类工具
监控工具用来收集服务器数据,从而生成可用性、性能和其他系统状态的报告,可用性监控可以第一时间向运维人员发送业务不可用报告,以便第一时间处理,减少业务中断时间。
红帽资助的Genome项目是将预备类、配置管理类以及监控报警类集成到一起的框架,如图2所示:
5 结语
it运维自动化论文 第4篇
“我们认可中国市场对IT运维的需求,特别是桌面管理,未来卡西亚将会通过多种渠道推广IT运维产品。”张静涛认为,中国的大型传统企业,基本都有专门的团队对企业运营做大系统支撑,这部分企业应用的产品,大都是一线IT巨头生产的,虽然功能强大,但是价格昂贵,对本土化的需求分析、技术支持和客户服务做得不够细致;而中小企业则对IT自动化运维重视不足,基本上只有1〜2个网管人员负责整个公司的日常维护工作,企业应用的IT运维自动化产品价格相对便宜、本土化服务好,但却存在技术瓶颈,无法真正做到电信级应用。
对此,张静涛介绍,卡西亚2010年进入中国,从技术、服务两方面着手,提高客户的IT运维管理水平,增加大型企业的IT投资回报、保障中小企业的高效运营。
目前卡西亚已经与中软国际、东软集团、金道网络、联想等外包企业达成合作。“传统外包是以驻厂、派单的模式进行,一个工程师可能管理200〜500台PC;而把卡西亚产品嵌入到service desk后台,通过IT全自动化方式,直接管理客户终端,可以让外包企业直接从服务器后台抓取远程客户问题,保障托包企业业务顺利运营,减少外包企业的人力运营成本。”
而对于中小企业用户,卡西亚也开发了基于云计算理念的MDM模块,可以有效管理客户的移动桌面,包括电脑漏洞检查、推荐新的应用更新等功能。
“卡西亚非常重视中国IT运维自动化市场,今年下半年,我们将在北京建立研发中心,着重适合中国用户的本地化研发。还将在上海、广州、成都建立分支机构,并招聘大量韩语、日语、越南语人才,对东北亚地区的业务提供支持。”张静涛表示。
同时,在渠道销售方面,卡西亚除了将加强与本地有实力的外包服务商合作、共同搭建数据中心、统一对终端用户提供外包服务外,还将在全国部署渠道代理体系,与合作伙伴共同开发中国市场。
it运维自动化论文 第5篇
一、县域支行IT运维现状
(一)没有专职的信息科技人员县域支行以业务经营为主,再加上岗位编制有限,一般不会配备专职信息科技人员,往往是从业务岗位中挑选具备计算机知识的人员来兼任。通常情况下,兼职科技人员会将专职的事情放在第一位优先处理,将兼职的IT运维工作放在第二位,待专职的事情完成后再进行处理,甚至是不处理。
(二)兼职科技人员技术水平较低县域支行的兼职科技人员,基本上不是信息科技等相关专业毕业,普遍存在基础知识不牢固、技术维护能力弱等问题,故障的排查和处理周期较长。再加上兼职人员的主要精力投入到业务学习上,不愿抽出时间学习信息科技知识,导致技术水平停滞不前。随着时间的推移,信息技术不断更新换代,原有的技术知识已难以适应不断发展的IT运维需要。
(三)兼职科技人员老化严重,后备不足县域支行员工年龄结构普遍偏大,部分支行超过40岁的人数已达到80%,兼职科技人员更是老化严重。与此同时,新入行员工则一般都被安排在客户经理等相关业务岗位上。另外,干业务更容易出成绩,收入较其他后台岗位高,年轻员工会偏向性地选择业务岗位。久而久之,造成支行信息科技生产运维人员老化、后备不足的困境。
(四)IT运维管理制度难以落实,新系统推广难度大因为没有专职的科技人员,IT运维制度在支行推广实施时,难度较大,会有打折扣的情况出现,相关制度难以落实到位。在业务繁忙阶段,新系统推广没人接手、没人干,或是干了,但是进度不够快、不够好,影响新系统推广的进度。
二、县域支行IT运维存在的问题
(一)信息技术改革,基层科技处于改革末端随着农行信息技术改革的推进,IT构架的调整,以及数据全国集中及综合业务系统的上收,科技人员呈现出“倒金字塔”的趋势,人员规模及资源配置从总行、省级分行到二级分行逐级递减,且递减幅度越来越大,处于改革末端的县域支行基本上已无专职科技人员。
(二)业务竞争激烈,导致科技生产运维被边缘化随着工行、建行等大型商业银行重返县域战略的实施,加上本地农村信用社等金融机构以其灵活的经营方式抢挖客户资源,业务竞争进入白热化阶段,县域金融市场面临鲸吞蚕食的局面。为了提高业务的竞争能力,抢夺客户资源,争夺市场份额,县域支行的人力、物力、财力等资源都偏向业务经营领域,科技生产运维自然而然地被边缘化。
(三)不能直接创造价值,得不到重视IT运维作为支行业务发展的“后援军”,发挥着不可替代的作用。但是,IT运维工作不能直接创造“看得见,摸得着”的效益,业务上的经营成果也不能通过量化方式直接在IT运维上得到体现,不像存款、贷款、中间业务等,其价值跃然纸上,其产生的利润能够体现在财务报表中,造成信息科技生产运维工作在支行得不到重视。
(四)综合考核分值占比低在综合考核中,信息技术所占比值低,考核分数比值的高低直接影响偏重的导向,支行管理者会在分值高的领域投入更多,相反地,分值低的领域被搁置一旁。工资、费用先往分值高配备,人力先往分值高配置,重心先往分值高偏移。这也是造成县域支行IT运维力量薄弱的原因之一。
(五)无法计价考核IT运维是一项维护、管理的工作,无法量化到某件产品或收益上,难以进行计价考核。当前,业务岗位可以通过产品的营销数量、拉到的存款数量、发放的贷款数量、办理的业务笔数、新开的个人账户数或对公账户数等进行量化计价考核,这提高了员工的积极性,同时也引导着员工不断向有计价考核的业务岗位靠拢,而IT运维因无计价考核而受到冷漠。
三、解决办法及对策
(一)加强信息科技生产运维宣传,提高认识县域支行信息科技得不到重视,往往和宣传力度不够、认识不足有关。很多IT事故的发生也是因为平时重视不够、认识不足所致。为提高IT运维质量,加强支行信息科技生产运维的宣传是件非常必要的`事情。只有不断地开展生产运维宣贯,信息系统的运维管理重要性才能在支行生根发芽,才能提高大家对信息系统风险的认识,从而重视IT运维工作。
(二)加强信息科技队伍建设在不影响生产系统正常运行的情况下,二级分行信息科技部门可以定期从支行抽调1-2名刚入行大学生到相应岗位上进行锻炼,提升IT运维水平和能力。与此同时,要充实基层科技人员队伍,科技主管部门应积极主动加强与人力资源部门沟通及向行领导汇报,争取相关部门及行领导的理解和支持,在每年的大学生招聘中,意向性地面向高校招聘计算机相关人才,不断充实基层科技人员队伍。
(三)提高信息科技在综合考核中的比重在支行的年度考核中,适度提高信息科技考核在综合分数中的比值,对提高支行运维管理水平具有很大的促进作用。提高分值一是可以体现信息科技在整个体系中的重要性,二是可以引导支行管理者加大对信息科技生产运维的重视度,有利于信息科技生产运维制度的落实执行,提高支行整体运维管理水平,防范和化解信息科技风险。
(四)细化计价考核可以将信息科技生产运维与业务计价按照一定比例进行挂钩。如业务人员成功营销一笔业务,总的计价收入是1000元,那么,信息科技人员可以得到5%的计价工资收入,也就是50元。如此细化之后,原本不能计价的信息科技工作也能实现计价,信息科技人员的价值可通过业务人员的业务营销来体现,提高了支行信息科技人员的工作积极性。
(五)制定激励机制二级分行可以根据地区的实际情况,制定相应的信息科技激励考核机制,每年划出一部分资金作为奖励,定期对每个支行的信息科技工作完成情况进行考核,按照考核分值兑现给IT运维人员。例如,每个季度拿出3000元作为支行科技人员的奖励工资,考核分数为100分的,可获得3000元奖励,考核分数为99分的,可获得2800元奖励,以此类推。通过制定激励机制,可以提高支行IT运维人员的工作积极性,使支行科技人员工作起来有动力,执行起来有劲头。
四、结束语
县域支行作为农行整个网络的节点,为农行创造着直接效益,就好比大树的根系,为树干、树枝、树叶提供水分和养料,它的好坏与整棵大树息息相关。因此,县域支行信息科技生产运维工作就更加举足轻重、任重道远。建立一支高水平的县域支行信息科技生产运维管理队伍,提高支行、网点的生产运维管理水平,确保县域支行及其所辖网点信息系统安全、平稳运行,维护农行形象和利益,这也是农行各级科技管理部门必须面临并解决的一个问题。
参考文献:
[1]孟爱科.人行县级支行科技基础工作亟待解决的问题和建议[J].时代金融,(30):161.
it运维自动化论文 第6篇
基于IT 运维的`设备管理平台的设备管理流程包括请实现、事件管理以及配置管理,其总共规划目标是实现设备管理的快捷性、全局性以及经济性。从整体结构上而言,设备管理平台从上而下分为表示层、业务逻辑层以及数据访问层三层。表示层用户和用户交互,业务逻辑层制定业务规则并实现相关的业务流程,充当表示层和数据访问层之间的桥梁;数据访问层的作用是访问数据库。这三层之间的依赖关系是向下的,底层无法感知上层的存在,对上层的任何设计上的改变都不会影响底层。
设计基于IT 运维的设备管理平台的目的是对基于IT 运维的设备管理、维护中的各项功能及非功能性需求进行设计,其中最重要的一部分是数据库,不仅要明确数据库的表名、字段名等数据信息,还要进行存储过程等数据库脚本的扩展。具体设计数据库时,要考虑系统模块相关概念的设计、数据关系图设计以及数据的逻辑结构设计等。使用设备管理系统的人员主要是系统管理员、维护人员以及一般用户,不同角色应该有不同的操作权限。数据逻辑结构的设计包括设备数据库关系图、故障信息数据库关系图以及系统管理数据库关系图等。设备数据库关系图包括设备的信息表、设备相关资料表等;故障信息关系图包含发生故障设备信息表、设备备件维修信息表等;系统管理关系图包含设备单位信息表、厂商信息表等等。
IT运维管理 第7篇
目录
定义
IT运维管理包含内容
运维员三大法则
在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。
IT运维管理包含内容
IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:
第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
运维员三大法则
IT运维管理自动化是关键 第8篇
随着企业业务的不断扩张, IT设备以及硬件也在扩张且不断增加, 随之带来的是运维工作更加复杂。在IT运维服务中, 通常包含了许多的运维项目, 比如系统镜像服务、网络运维、安全运维等, 这些运维无论是哪项出现故障, 都会影响到业务人员的正常使用。
目前, 大多数企业的IT运维逐步面临以下问题。首先, 虽然IT部门已针对性发布了运维制度与流程, 但业务部门依旧不满运维工作, 运维管理效率低下, 相似问题屡屡发生, IT运维人员疲于奔命。其次, 随着信息化硬件以及应用系统建设的完成和交付, 如何整合运维人员并建立统一服务流程也成主要问题。再次, 由于企业协同未能充分实现, 运维制度、流程更多立足于单个系统考虑, 运维缺乏统一性。最后, 随着系统使用的深入, 部分运维制度、流程未及时更新, 已经不能适应需要, 用户抱怨增加运维流程的落实不力, 流程执行始终无法实现从理想到现实的跨越。
之所以出现以上问题, 究其原因在于企业忽视了IT运维的质量, 只知制定流程, 却无法最大限度进行流程的监督、检查和修正。IT运维诚然必不可少, 但不能纯粹地为了运维而运维, 更应该充分保证IT运维的质量。
金融行业是信息化应用的最重要领域之一, 中国经济的迅猛发展对中国金融行业提出了更高要求, 众多金融机构面临的日益增长的数据吞吐量与持续的IT成本压力, 以及来自企业内外部信息安全的诸多问题, 使有效的IT运维管理在金融行业的应用势在必行。
从日常的IT养生开始
IT基础设施与业务的结合日趋紧密, IT基础架构的安全和稳定已经直接关系到企业未来的兴衰与发展。面对日益复杂的IT架构、技术能力不足和管理体系不完善等问题, 如何才能保证IT运维的健康运行?
首先要从日常的IT养生开始, 从防范一切细微祸患开始, 才能避免IT运维从量到质的变化, 不至于酿成大害。
目前大多数中国企业采用外包给IT服务公司或依靠自身的IT部门来进行维护。然而, 不管采取哪种方式, 国内普遍的IT基础运维依然是依靠传统的手动方式被动地“救火”, 只有当事件已经发生并造成业务影响时, 才被发现并着手处理, 而此时IT系统已经受损。
另外, 大部分系统的更新管理工作还是依靠IT运维管理人员手工操作来完成的。即便是一个最简单的系统变更或更新, 也得靠IT运维管理人员逐一登录每台设备去执行, 此外, 如果IT运维管理人员面对的是几套完全不同的系统, 那他在有限的时间内不仅要处理各种各样的问题, 还要去熟悉掌握这些不同的系统, 工作效率可想而知。
事实证明, IT系统与人一样, 需要进行定期系统检查与维护, 才能避免久病无医的悲剧发生。
IT服务流程管理
切实贯彻执行IT服务管理流程, 对IT运维的发展具有强大的推动作用。对此, 建立有效而合理的流程管理, 可以帮助企业建立快速响应并适应其业务环境及业务发展的IT运维模式, 实现基于ITIL的流程框架和运维自动化。
在实施过程中, 应构建一整套行之有效的面向业务和应用、以服务为导向、具有创新性的IT运维管理体系如图1所示。该体系应包括组织管理模式、制度规范体系、技术支撑体系等3个层面的内容。
组织模式层。确定和规范IT运维管理体系运行的管理方式和与之相配套的人员岗位职责安排、机构设置, 将IT服务相关的全部活动进行统一决策与规划, 形成集中统一的IT运维管理机制, 实现对客户的端到端服务。在集中统一的IT运维管理模式下, 按照IT运维管理任务科学设置或调整组织机构, 划分任务、角色、岗位, 合理配置IT运维管理资源, 达到人、工具、流程的有机融合。
制度规范层。分别从管理与操作方面建立IT运维管理过程中各个参与要素 (人、流程、工具) 的行为准则与工作程序, 从IT运维管理体系总体运行、流程执行和岗位职责3个层次建立考核评价体系, 确定运维费用的组成与计算方式, 规范运维费用的来源保障, 实现IT运维管理的量化管理。
技术支撑层。建立面向业务客户的IT服务请求响应窗口和面向技术支持人员的体系运行管理窗口, 建立负责IT运维管理流程运行的流程管理平台, 以及负责IT基础设施和业务应用系统运行监控的集中监控管理平台。根据不同类型IT基础设施和业务应用系统的管理职能, 建立技术管理子系统以及知识库、配置库、报表及日常操作等共享支持子系统和为业务管理提供服务的业务运维管理子系统。
引入优先处理原则
在设置IT服务管理流程时, 还需要引入优先处理原则, 例行的事按常规处理, 特别事件要按优先级次序处理。
首先, 建立规范的事件跟踪流程, 强化运维执行力度。需要建立故障和事件处理跟踪流程, 利用表格工具等记录故障及其处理情况, 以建立运维日志, 并定期回顾以从中辨识和发现问题的线索和根源。实践证明, 建立每种事件的规范化处理和跟踪指南, 可以减少IT运维操作的随意性和强化运维的执行力度, 在很大程度上可降低故障发生的概率。
其次, 建立故障事件自动触发流程, 提高故障处理效率。所有IT设备在遇到问题时能自动报警, 无论是系统自动报警还是使用人员上报的故障, 应以红色标志显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据, 逐步操作就可以。因此, 需要事先建立自动工单式流程管理, 当设备或软件发生异常或超出预警指标时会触发相关的事件, 同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作, 以提高IT运维响应问题的效率。
变事后管理为事前管理
核心业务和IT系统息息相关, 一旦网络出现故障, 影响和损失非常巨大。因此, 要落实主动运维, 在运维中做到“看、监、析、查”, 变事后管理为事前管理。
首先, 要看得见。无法知道IT系统中的每个关键应用承载设备在哪里, 甚至不知道这些设备连接的应用在哪个端口上, 此时的IT管理就等于盲人摸象。这会导致IT运维管理人员无法及时发现问题, 更加无法迅速定位故障, 各关键系统的运行也无法得到保障。如果看不见, 就无法获取底层物理网络的结构和瓶颈信息, 后面所有的步骤也就成了空谈。看得见是关键的第一步。
其次, 监得到。只能看到设备是无用的, 只有实现底层监控平台, 通过监控IT基础设备发现故障并预警, 才能让运维人员脱离以往“救火队员”的角色。通过采集系统负载状况、设备属性以及线路的实时流量, 通过颜色显示负载和流量的压力, 主动告诉用户关注点应在哪里, 动态告诉用户可能的故障点。此时, IT部门就可以把这些对象控制起来, 设置多级的预警阀值, 将可能出现的故障在未爆发之前就形成主动关注。
再次, 析得清。监控下一步的操作是按告警事件种类、告警事件源、密集告警时间段等分类生成报表。当然, 这并非是数据的堆砌, 而是经过整理的统计和分析。比如, 可以通过之前记录的故障排除步骤和与故障相关的值班员日志, 构造排错行动记录, 将“事件、故障、日志”三者构成逻辑上相互关联的整体, 以反映故障产生、变化、消除的整个过程。
最后, 查得勤。由于网络管理员已经实时监视网内所有设备的各个端口、CPU、内存, 既可以通过传统的设置阈值的方式来判断异常, 也可以通过对历史数据的智能分析, 及时发现网络设备的异常波动。一旦发现异常情况, 通过事件和数据的关联性及一致性, 帮助用户分析可能出现的故障。
自动化是关键
随着IT运维管理工作的复杂度和难度的大大增加, 仅靠过去几个“运维英雄”来包打天下已经行不通了, 需要运用专业化、标准化和流程化的手段, 来实现运维工作的自动化管理。例如, 全天候自动检测与及时报警能实现IT运维的“全天候无人值守”, 大大降低IT运维人员的工作负担。而且, 通过自动化诊断能最大限度地减少维修时间, 提高服务质量。因此, 对于越来越复杂的IT运维来说, 将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。
首先, IT运维流程自动化能够提高流程的可控性, 可以基于业务需求来制定个性化的流程, 使企业领导有机会看见他们的业务流程, 对企业流程有一个深入的分析和理解, 进而改造和优化流程。其次, IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现, 手工流程的不透明将会给流程定制和优化带来相当大的困难, 而自动化流程可以使用户能够一目了然地看到整个流程的各个节点运转情况, 自动化工具潜移默化地提升业务保障能力。再者, 运维系统实行了自动化监控以后, 通过工具自动监控, 对人的工作是一种减负, 也是一种降低成本的表现。
IT运维自动化是指基于流程化的框架, 将事件与IT流程相关联, 一旦被监控系统发生性能超标或宕机, 会触发相关事件以及事先定义好的流程, 可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作 (如备份、杀毒等) , 提高IT运维效率。同时, IT运维的自动化还要求能够预测故障、在故障发生前能够报警, 让IT运维人员把故障消除在发生前, 将所产生损失减到最低。
云时代的IT运维“远景”
“云”的出现, 为金融信息化提供了更加宏大的IT平台, 但随着各个金融机构的业务数据整合成为必然趋势, 这为IT运维质量提出了更高的要求。
云计算是一种把IT资源当作服务提供的手段:几乎所有的IT资源都可以作为云服务提供, 如应用程序、计算能力、存储容量、联网和编程工具, 以至于通信服务和协作工具, 也是大规模扩展、水平分布的系统资源抽象为虚拟IT服务, 并作为持续配置、合理利用的资源进行管理的一种架构。当前, 云计算作为突破性的信息技术和创新商业模式, 能够把数据、IT资源、应用作为服务通过网络提供给用户。同时, 云计算也能够把大量高度虚拟化的资源管理起来, 构建成一个庞大的资源池, 统一提供服务。
云计算技术着力解决大规模系统的资源整合、管理和调度问题, 在海量数据以及并行处理方面为企业的信息系统构建提供了新颖的解决方案。在运维方面, 云计算技术可以集成方案与策略, 梳理工作流程, 处理复杂事件, 形成资源与服务管理调度机制, 为企业提供高度智能, 高度自动化的系统运维基础。
很多人把“云的运维”抬得过高, 但如果把云落地, 我们实际面对的则是数据中心的运维。因为不论是分布式还是虚拟化, 这些链路、网络设备、服务器、存储、软件、数据库都要放在云端, 即数据中心。
经过调查发现, 很多政府行业的信息中心都在尝试利用虚拟化整合方式, 来提供更大业务系统容量和整合迁移问题。但是这些数据中心由于缺乏配套的IT运维流程管理, 以及对云中的基础设置缺乏统一监控, 不但使得数据中心的运维成本降不下来, 反而增加管理难度, 服务品质也无法得到保障。
通过实施云计算IT服务管理, 可以在压缩IT成本的同时提高效率, 创造比过去更多的IT价值。从长远的角度来说, 可以给企业整体带来了运维管理制度的改革, IT服务管理的价值就会随着企业IT规模的发展而日益体现出来。很多时候, 企业为节省成本, 会放缓建设大规模的网络基础设施的IT项目, 将更多的资金和力放在充分发挥现在IT资产潜能上, 提高现有IT投资回报率。而要实现这一目标就可以通过IT服务管理来提升管理效率, 同时减少IT运维管理人员, 因此云计算IT服务管理是实现高水平IT运维管理的重要手段。