正文内容
IT应用运维范文
来源:火烈鸟
作者:开心麻花
2025-09-18
1

IT应用运维范文(精选11篇)

IT应用运维 第1篇

关键词:IT应用运维,研究,自动化

0引言

随着信息时代的持续发展, 运维已经成为IT服务内涵中重要的组成部分, 面对越来越复杂的业务和多样化的用户需求, 不断扩展的IT应用需要更为合理的模式来保障IT应用能安全、稳定地持续运行, 这种模式中的保障因素就是IT运维。

从初期的几台服务器发展到庞大的数据中心, 单靠人工已经无法满足在技术、业务、管理等方面的要求, 标准化、自动化、架构优化和过程优化等降低IT服务成本的因素越来越被人们所重视, 其中, 自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。

1 IT 应用运维现状

1.1 运维人员被动、效率低

运维人员日常大部分时间和精力忙于处理一些简单重复的问题, 而且由于故障预警机制不完善, 往往是故障发生后或报警后才会进行处理, 运维人员的工作经常是处于被动“救火”的状态, 不但事倍功半而且常常会出现恶性连锁反应。

系统和应用变更、日常检查、信息采集等大部分工作都是手工操作的, 需要运维人员逐一登录每台设备进行操作, 当设备数量达至成百上千时, 这些操作占用了大量运维人员的时间, 工作质量无法得到保障, 并且工作效率低。

1.2 缺乏一套高效的 IT 运维机制

尽管IT运维管理的技术在不断进步, 但实际上很多IT运维人员并没有真正解脱出来, 原因在于目前的技术虽然能够获取IT设备、服务器、网络流量、数据库的警告信息, 成千上万条警告信息堆积在一起没法判断问题的根源在哪里。

1.3 缺乏高效的 IT 运维技术工具

IT应用日趋复杂, 各类型的网络设备、服务器、中间件、业务系统等让运维人员难以从容应对, 即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断, 严重影响商业银行的正常运转, 出现这些问题部分原因是商业银行缺乏事件监控和诊断工具等IT运维技术工具, 因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

2 IT 应用运维对象与内容

2.1 IT 设备

是指在提供IT服务过程中所应用的各种IT设备, 包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能, 是IT服务最直接的物理载体。

2.2 系统与数据

通过对运维对象和日常运维工作分析, IT应用运维工作从如下7个方面开展, 具体包括:运行状态实时监控、事件与问题处理、例行运维操作、系统与应用变更、审计与合规检查、环境投产部署、配置信息管理, 如下图所示。

2.3 运行状态实时监控

工作内容与要求:实时监控IT应用的各个组件, 业务运行的状态以及处理效率等, 及时、准确、全面的发现IT应用运行过程中出现的各类事件和故障。

面临挑战:商业银行数据中心内部都有上百套IT应用系统和数据库、成几千台服务器和网络设备等, 而运维人员的数量与被管理对象的数量严重不成比例, 及时发现潜在的风险点提前预警, 对发生的故障快速定位故障根源。

2.4 事件、问题等日常工作

工作内容与要求:建立事件处理机制, 及时发现事件, 生成工单, 通过工单跟踪事件处理的进展, 掌握事件处理的效率和质量;建立问题跟踪机制, 通过问题单跟踪问题的解决效率和质量;

面临挑战:运维对象产生大量的事件 (问题) , 由于事件 (或问题) 的分级不合理, 无法保证紧急的事件优先得到处理, 流程的高效运转需要各环节运维人员及时处理, 这就要求事件处理人员需要一定的规模并具备一定的技能。

2.5 日常例行操作等

工作内容与要求:日常运维工作中有大量固化的, 例行的操作的内容, 例如, 银行业务系统日终批处理、定时数据报送、业务定时日启、数据库定期更新统计信息、数据定期清理等, 要求这些例行操作必须在特定的时间点执行跟踪执行结果。

面临挑战:可固化的、例行的工作项多, 操作步骤复杂, 要求操作人员具备丰富的技能, 需要严格的流程和制度保证例行工作不被遗漏, 确保固化和例行的工作按照正确的步骤执行, 并及时发现过程中出现的问题。

2.6 变更实施的自动化

工作内容与要求:涉及运维对象的变更包括:IP网络配置、存储网络配置、操作系统、数据库、中间件、应用软件等, 变更要求按照既定的步骤和时间窗口操作, 不允许临时改变变更的时间和步骤。

面临挑战:运维对象多, 变更内容种类繁多, 变更频率高, 运维人员每天疲于各种各样的系统和应用更新;制度和流程要求执行不到位, 无法保证变更是按照既定的安排执行;

2.7 基础环境部署

工作内容与要求:信息系统投产环境的准备, 包括操作系统、数据库和中间件、监控软件、备份软件、自动化软件等基础软件的部署、以及技术规范点在环境中的落实等;

面临挑战:待投产信息系统环境复杂, 靠人工去实现容易出现遗漏, 基础环境的交付质量无法得到有效保证;基础环境的准备包含大量重复性的工作内容, 消耗运维人员精力和时间, 而且效率低。

2.8 配置信息管理

工作内容与要求:将运维对象的配置信息 (例如序列号、用途、位置等) 以及运维对象之间的对应关系管理起来, 并保证信息的准确性, 作为运维日常管理的基础数据, 供给支撑运维工作的其他工具平台和日常运维需要;

面临挑战:配置管理工作涉及范围广, 对象之间的关系错综复杂, 如何准确的获取配置信息, 并保证信息的有效性是配置管理面临的最大的一个问题, 通过手工的方式是来开展配置管理工作几乎是不可能实现。

2.9 审计与合规检查

工作内容与要求:对运维人员行为、系统行为、以及安全设备的行为进行审计, 发现当前已经存在或潜在的风险点, 提出安全整改建议;

面临挑战:运维人员行为和系统行为产生海量数据, 如何从这些数据中发现有价值的信息是非常有挑战的事情, 通过人工去搜寻几乎是不可能完成的任务;对于大量的运维对象执行合规检查, 采用手工的检查方式, 效率低, 检查结果无法有效保障。

3 IT 应用运维自动化建议

3.1 运行状态实时监控

建设集中化的监控管理平台, 对所有运维对象以及业务的运行情况的实时状态进行监控, 实现监控自动化。通过监控自动化, 实现运行状态全面、及时、准确的监控, 能及时发现故障隐患, 主动的告诉用户需要关注的对象, 以达到防患于未然。

3.2 事件、问题等日常工作

基于ITIL中的最佳实践, 建设IT服务管理 (ITSM) 平台, 并与监控管理平台对接, 将事件管理、问题管理、变更管理等运维日常工作通过ITSM流程平台进行管理, 提高流程的可控性和透明度, 能够一目了然的看到整个流程运转情况, 有针对性的对运维流程中不顺畅的地方进行优化。

3.3 日常例行操作等

通过例行操作自动化, 将日常容易遗漏、出错的手工操作转变为规范的、标准化、流程化的步骤执行, 避免人为失误、简化操作人员的工作内容, 确保规章制度和流程的落实执行, 并节省大量的运维资源, 并能够及时发现过程中出现的问题。

3.4 变更实施的自动化

规范基础设施、网络、应用变更的步骤, 将变更的内容标准化, 形成变更模版, 基于模版编写变更的实际步骤, 然后在自动化平台 (网络自动化平台和系统自动化平台) 配置变更计划, 确保变更在规定的变更时间窗口执行, 以及变更严格按照既定的步骤实施, 确保变更与预期的目标和要求一致, 并监控变更执行的结果。

3.5 基础环境部署

通过基础环境部署自动化, 实现信息系统基础运行环境的标准化、避免出现手工部署中出现的遗漏和不合规的地方, 提高基础环境的交付质量, 缩短信息系统投产的周期, 节省运维资源。

3.6 配置信息管理

设计与运维工作密切相关的实用配置管理参考模型, 避免大而全的模型, 通过自动发现工具自动采集配置信息和配置项之间的关系映射, 从BSM的维度 (业务服务管理) 的去管理运维对象。通过配置管理自动化, 基于实用的标准, 实现配置信息采集、关联的自动化, 确保配置信息的准确、实用、可用, 作为运维过程中最为重要的数据源供运维人员和其他运维工具平台使用。

3.7 审计与合规检查

明确审计和合规检查目标、标准、方法, 建设运维数据加工平台, 从海量运维数据中发现运维人员和系统行为中的异常行为, 检查运维人员、系统、安全设备是否满足规章制度要求, 发现运维工作和系统中存在的风险点。通过审计与合规检查自动化, 将监管机构的监管要求、商业银行内部的合规与审计要求、技术规范要求、安全规范要求等应用到运维工作的各个方面, 从制度流程、运维人员、技术等方面找到风险点, 逐一解决, 即提高了运维工作的安全性, 又能满足各种管理要求, 还可以节省大量的运维资源。

4 总结

自动化对IT运维的影响, 不仅仅是人与设备之间的关系, 已经发展到了运维工作的各个层面, 通过IT运维自动化, 可以提高提高运维工作的效率、提高运维工作的规范化程度、能提高运维工作的流程化程度、提高节省大量的运维资源, 降低成本。

参考文献

[1]罗金满陈华军等.试谈IT安全运维管理的应用.《电脑编程技巧与维护》[J]-2013年22期.

IT运维现状 第2篇

现状一:IT运维人员成本偏高

据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使到IT运行越来越复杂,也越来越难管理。同时,其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。

同时,另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。

从图中,我们可以看出,“流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示:

备注:C类成本的大小很大程度取决于B和D类。

现状二:处在“救火式”的IT运维控制

目前,国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①.IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。

现状三:简单的自动化程度起了“反作用”

尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,主要原因是目前的自动化不高而导致的。目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。还有,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

就如图中一样,所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面,信息进去后不能主动流出来。可能会出现的情况:这个圆圈容器装满后会爆破,或者是溢出来;圆圈的运行速度会慢慢降下来,从而导致信息输入的速度也会变慢。

现状四:本是同家兄弟,却不经常来往

这个问题主要是发生在拥有许多子公司的企业,每个子公司的系统都是独立的,下面主要以国内银行业为例。以前国内的银行业没有搞集中建设,每家银行的各个地方分行都单独建设和维护自己的核心业务系统,都各自配备开发人员和维护人员。

同时在运行维护方面,对故障的解决,完全依靠运行维护部门的工程师的上门服务。不管问题大小,工程师都要来回去现场解决。遇到一些技术难度大的问题,如果工程师的水平高,处理起来就快;如果水平低,甚至花上几个小时,可能也解决不了。

虽然现在国内银行业的IT运行维护管理水平,有点接近国外80年代末90年代初银行业的水平,现在银行IT结构上都采用了大集中模式。从硬件设备上来看,国内银行不比别人差,甚至还有些领先,但IT运维管理还没达到国外当时的水平,尤其是呼叫中心、客户服务方面。”

结束语

加强IT管控,提升IT运维水平 第3篇

【关键词】信息化 量化 管理 流程

【中图分类号】G647【文献标识码】A【文章编号】1672-5158(2013)02-0349-02

近年来,大部分企业信息化建设已初具规模,信息化基础建设基本到位,信息系统渗透到企业生产经营的各个环节。在新的形势下,如何使信息系统更好、更稳定、更安全运行,提高管理效率,落实有效益的信息化,是企业信息化工作的迫切需求。要实现这一目标,必然要管理与服务相结合,要求企业建立以国际行业标准为依据的较为完善的IT管控体系,提升IT运维服务水平。

企业加强IT管控,目的就是建立一个类似“轮流分粥,分者后取”的规则,明确区分母公司与各子分公司(含控股)、业务部门与IT部门和IT部门内部各岗位的责任、权力、利益。责、权、利分清后,对IT部门的约束力、执行力等会有很大的提高,其中IT管控对于组织工作的健康有序开展起到了重要作用。

一、IT管控对于IT工作的重要意义

1.IT管控能保障IT组织的稳定

有效的IT管控对IT组织的控制最主要是职责分离、合理设岗。要求完善人员管理与控制,能清晰定义IT部门相关岗位,能明显一个人能同时给予多少相关权限,从而清楚规划IT部门必要的岗位人数,最大程度保障IT组织的稳定。

2.IT管控能确保IT工作的有序

IT管控必然要求将建立完善的IT流程体系,制定完备服务目录。信息化部门利用服务台统一接收各种流程输入的表单,根据服务级别协议(SLA)和操作级别协议(OLA),对相关需求或故障,安排不同的技术力量,进行针对性的解决,从而确保了IT工作的有序。

3.IT管控能促使IT工作强度的均匀

信息化日常运维工作量不均衡是因为有较多的突发事件,如信息基础设施故障和信息系统故障等。要使运维工作量比较均衡,就要降低突发事件概率,使忙的时间少下来。IT管控能就是要让“闲”的时间忙起来,要求IT部门各岗位在日常中加强监测,重视巡检,加固系统,防患于未然;同时加强学习和演练,提高处置各种事件的能力。这样,一旦发生突发事件,也可以有条不紊地进行处置,实现信息化日常运维工作的“削峰平谷”,强度均匀。

4.IT管控能确保IT风险的可控

IT风险主要包括IT技术风险和IT项目投资风险。随着业务系统访问、网络应用行为日益频繁,网络被攻击、数据被篡改、设备被入侵和信息被泄密等IT技术风险的压力也日益增大。IT管控提供管理程序、技术和保障措施,确保信息技术服务的可用性,能适当地防御不正当操作、蓄意攻击或自然灾害,并从这些故障中尽快恢复;确保拒绝未经授权的访问。IT管控体系要求IT项目投资必须事先经业务部门和IT部门共同把关,再报公司管理委员会决策,这样能确保IT项目既符合业务需求,又符合IT技术规范,降低了IT投资的风险。万物皆有规律,IT风险防范也是有规律可以把握,良好的IT管控能很好控制IT风险。

二、IT管控在企业信息化中的运用

从行业信息化发展战略出发,从企业自身发展战略出发,作为信息化建设到一定规模的企业,必然要求企业信息化建设的重点则从技术转向管理,要求信息化工作必须精益求精,加强管控,夯实基础,强化运作。

构建完整的IT管控体系是一项复杂的系统工程,涉及到人、硬件、软件,以及管理层面的IT服务管理、风险管理和成本管理多个方面。因此,必须从更高的角度,更宽的视野,更新的理念去构建有效的IT管控体系。

1.选择合适的IT管控模型

现今企业IT管控体系的国际标准,主要有COBIT、ITIL、ISO20000等,选择构建一个既满足企业的业务需要,又能够符合国际标准的IT管控体系,是信息化工作的成功保障。就如笔者,结合企业实际、IT部门现有实际运作流程和知识框架,选择以ITIL主要标准,采取联邦制IT决策方式作为笔者企业的IT管控模型。

(一)IT部门内部运作的管控

要建立制度化、流程化工作机制,精益求精,稳步推进。根据ITIL/ ITSM(IT服务管理)的标准,继续完善IT服务目录,对各子服务定义不同的SLA(服务级别协议),建立服务台,统一受理所有的流程输入,建立IT服务管理体系,体系应包含事件管理、问题管理、变更管理、配置管理、发布管理和服务级别管理。根据IT技术标准和行业具体技术规范要求,建立先进、稳定、安全的信息通讯技术基础设施(主要包括机房和信息化网络),并完善巡检、监控等基础设施管理机制。

(二)企业信息化运作的管控

首先是加强对信息化项目的管控,必须坚持统一性、系统性、规范性、安全性原则,必须坚持“事先技术把关,事中实施监督,事后运行维护”的原则。即项目涉及的IT部门的责任或义务的,IT部门必须管控到位。事先对项目立项相关技术规范进行把关,确保项目符合行业相关技术规范;事中对项目供应商(软件开发商)安装实施等服务进行严格监督,确保项目在技术上能顺利开展,保障设备(系统)能正常上线运行;事后必须将设备或系统运维维护好,确保设备(系统)安全、稳定运行。其次是加强对信息化资产的管控。加强对计算机设备调控,优化各终端计算机的配置。强化IT部门对软件资产的归口管理职能,坚决贯彻落实软件正版化相关要求,统一采购正版成品软件,规范信息系统的登记、领用、运维和报废。规范IT设备维修保养机制,延长IT设备使用寿命。第三是加强对信息系统用户的管控。建立操作上岗证机制,加强培训,提升其规范操作水平,采取检查监督等措施,促使其能正确操作,规范操作。

(三)信息安全的管控

信息安全管控体系是一项复杂的系统工程,必须采用系统工程的观点和方法,分析信息安全问题及具体措施。结合企业实际,就是要严格贯彻相关信息安全要求,做好信息化安全规划,业系统信息安全规划,建立覆盖日常维护,变更管理,安全监控的信息安全体系,将信息安全审计作为信息安全保障中的一项重要工作。建立三个长效保障机制:构建信息安全文化氛围、信息安全奖惩机制和内部信息安全审计机制,以确保信息安全管控能够有效长久运行。

2.利用合适先进工具软件强化IT管控

对信息化日常运作层的管控,必须利用合适先进的工具软件对信息化工作流程、设施和信息模型进行全面管控。引进先进的IT运维管理系统,建立IT服务管理监控平台,管理IT服务所涉及的各个流程,监控信息相关基础设施和中间件等。利用现有或将要购买的信息管理软件,如桌面管理和软件发布系统,综合网管系统,接入管理系统和数字认证(CA)等,建立信息系统综合管理系统,管理整个信息系统的设备、软件等资产,管理桌面、应用等功能单元的运行,以及管理整个设备网络和网络上接入的各种系统的正常运行。

追根溯源,建立有效的IT管控体系,最终目的是为了提升IT部门服务水平,提高用户的满意度,发展有效益的企业信息化。随着行业信息化的发展和实践的深入,新技术的不断应用,企业的信息化需求不断变化,IT部门只有建立基于企业治理上的IT管控体系,才能适应不断变化发展的信息化,为企业企业发展提供重要的信息支撑。

参考文献

[1] [荷兰]JanvanBon主编,章斌译:基于ITIL的IT服务管理基础篇[M].北京:清华大学出版社,2009.

[2] [荷兰]JanvanBon主编,刘向晖译:IT管理框架[M].北京:清华大学出版社,2009.

[3] 王仰富,刘继承:中国企业的IT治理之道[M].北京:清华大学出版社,2010.

[4] 王胜:IT治理—为企业带来革命性的变革[M].北京:经济科学出版社,2009.

主动式IT运维服务模式应用 第4篇

随着信息化建设的持续与深入, 企事业单位的信息应用系统越来越多, IT运维工作越来越繁杂。目前大多数IT运维工作仍处于被动的响应状态, 不但使IT运维人员终日忙碌, 也使IT运维质量难以提高。原因有以下3个方面[1]。

1) 运维规划与业务规划脱节。目前大多数企业的IT运维未开展相应的规划, 或IT运维规划仅考虑保障信息系统运行的稳定性, 未考虑业务发展需求的变化, 存在业务规划与运维规划脱节现象。例如某单位规划电力营销收费, 今年收费预算比去年增长30%, 用户数量比去年增长20%。IT部门却不了解营销部门的规划, 到年底发现收费系统的访问负荷突增, 存储空间不够, 系统运行缓慢, 因此紧急处理该突发情况。

2) 运维支撑工具自动化程度不高。目前运维支撑平台自动化程度不高, 未能将所有的运维对象纳入到监控范围, 对海量的告警信息未能做到自动分拣和过滤, 部分运维工作仍处于手工作业模式;同时运维支撑平台缺乏智能化, 未能实现智能化扩容、系统智能化自愈等功能。因此在没有高效的运维支撑工具支持下, 故障事件很难做到主动、快速处理。

3) 运维流程不规范、人员主动意识较弱。目前多数大中型企业IT运维流程已基本完善, 但大部分中小型企业未能梳理规范的运维流程, 导致运维工作混乱无序。同时企业缺乏相应的激励措施, 导致运维人员主动运维意识不高。

1 主动式运维

根据信息技术服务标准 (ITSS) 的定义:运维通常是指采用信息技术手段及方法, 依据需求方提出的服务级别要求, 对其所应用的信息系统、系统运行环境、业务分析等提供的综合服务[2]。

主动式运维是一种现代管理理念在IT运维管理中的具体运用, 是指对一切可能发生故障或“突发”情况提前处理的一种运维模式[3,4]。主动式IT运维可从技术和管理2方面实现。技术方面可通过建设自动化、智能化的运维平台, 处理大量重复的运维工作;管理方面通过制定合理的运维规划、有效的激励措施、完善的运维流程, 提升主动式运维管理水平。

与传统的运维模式相比, 主动式运维改变了传统运维模式的人海战术、经验运维、“救火式”运维等特征。还减少了对运维人员的依赖, 节省运维成本, 提高运维工作效率, 提升系统智能化水平, 为运维知识积累奠定基础。

2 主动式运维实施

2.1 建设运维支撑平台

通过运维支撑平台的建设, 提高系统故障的发现、处理主动性, 逐步实现运维自动化和智能化。建设自动化运维支撑平台, 其目标是要实现监控自动化、配置变更检测自动化、维护事件提醒自动化、系统健康检测自动化、维护报告生成自动化。运维支撑平台架构如图1所示。

2.1.1 数据采集层

使用基础的网络协议如简单网络管理协议 (Simple Network Management Protocol, SNMP) 、Internet控制报文协议 (Internet Control Message Protocol, ICMP) 、安全壳协议 (Secure Shell, SSH) 、HTTP等来采集主机、安全、信息系统、网络、终端、中间件、存储、动环、数据库等系统的数据信息。建立信息通信统一采集控制管理中心, 基于统一的标准实现各类采集控制适配器, 以此来支撑对信息通信基础资源的采集和控制, 需有良好的扩展性和灵活性, 满足未来环境下新增的基础资源监控需求。

2.1.2 技术平台层

提供各类接口适配服务, 如流程引擎服务、报表管理服务、数据总线服务等;提供平台配置项服务, 如事件触发流程、事件跟踪流程、事件优先级流程。还提供各类采集数据关联性支撑数据服务。

2.1.3 业务应用层

基于统一的业务框架实现面向各类角色对象的业务应用服务, 充分考虑业务功能的扩展性和灵活性, 以实现业务需求变更时的快速配置化调整[5]。

1) 监控自动化。是指对重要的IT设备实施主动式监控, 如路由器、交换机、防火墙等。

2) 配置变更检测自动化。是指IT设备配置参数一旦发生变化, 将触发变更流程转给相关技术人员进行确认, 通过自动检测协助IT运维人员发现和维护配置。

3) 维护事件提醒自动化。是指通过对IT设备和应用活动的实时监控, 当发生异常事件时系统自动启动报警和响应机制, 第一时间通知相关责任人。

4) 系统健康检测自动化。是指定期自动地对IT设备硬件和应用系统进行健康巡检, 配合IT运维团队实施对系统的健康检查和监控。

5) 维护报告生成自动化。是指定期自动地对系统做日志的收集分析, 记录系统运行状况, 并通过阶段性的监控、分析和总结, 定时提供IT运维的可用性、性能、系统资源利用状况分析报告。

2.2 匹配云服务架构

1) 基础架构即服务 (Infrastructure as a Service, Iaa S) 通过私有云提供数据中心、基础架构硬件和软件资源。Iaa S可以提供服务器、操作系统、磁盘存储、数据库和 (或) 信息资源。

2) 平台即服务 (Platform as a Service, Paa S) 提供基础架构, 软件开发者可以在这个基础架构之上建设新的应用或者扩展已有的应用。

3) 软件即服务 (Software as a Service, Saa S) 是最为成熟、也是得到最广泛应用的一种云计算。可以将它理解为一种软件分布模式, 在这种模式下, 应用软件安装在私有云里, 用户可以通过某个网络来使用这些软件。

2.3 建立主动式运维管理

1) 制定信息运维规划。企业的信息化运维规划需要根据企业发展的不同阶段, 制定相应的信息运维工作重点。在支撑业务阶段, 目标重点是保障各类业务应用、中间件、数据库、主机、存储及信息机房的稳定运行;在整合业务阶段, 目标重点是结合企业业务规划, 为业务规划提供信息化保障手段;在驱动业务阶段, 目标重点是基于新技术的出现, 帮助公司业务寻找新机会的可行性。因此, 企业的信息运维规划需要结合企业的业务规划进行, 确保信息运维规划适应企业的业务规划发展需要, 实现企业信息运维规划与企业业务规划的协同发展。

2) 提升人员主动性。提升人员主动性主要是解决运维人员工作态度问题, 分为主观和客观2个方面。主观上的问题需要沟通交流、学习培训和教育引导, 也需要构建和谐工作氛围、协作的工作关系;客观上的问题需要制度建设, 包括管理流程、岗位职责、技能等级、评价考核、激励和文化等。

3) 制定流程规范。随着IT运维管理工作的复杂化和难度的大大增加, 企业现有的制度、流程规范已不能适应IT运维工作快速发展的需要。企业可结合IT基础架构库ITIL或ISO20000标准, 梳理公司内部的制度和流程规范, 并结合主动式运维模式, 完善企业内部管理制度, 优化IT运维管理流程, 形成适合企业自身发展需要的主动式运维管理流程规范。

2.4 主动式运维演进

2.4.1 从传统手工作业到自动化运维转变

传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题, 然后再找到IT部门要求解决问题。不采用任何管理软件, 仅仅靠运维人员定期轮询, 或者执行某项命令来检查设备, 在系统规模较小时, 只要参与运维的技术人员足够负责, 人工运维方式可以满足日常运维需要。但是, 当应用系统达到一定规模后, 这种运维方式的弊端就会暴露出来。轮询一遍要花费几个小时, 轮询周期越长代表需要更长时间才能发现故障。这种被动式管理IT导致有了问题不能及时发现, 运维效率低下。

IT运维自动化是一组将静态的服务流程转化为根据IT服务需求动态来主动弹性响应的策略, 目的是提升IT运维的质量, 降低运维成本。自动化是主动式IT运维最高层面的重要属性之一。从传统手工作业到自动化运维转变需要从以下几步着手。

1) 建立自动化运维管理平台。IT运维主动化管理建设的第一步是建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控, 通过自动监控管理平台实现故障或问题综合处理和集中管理。例如, 在自定义周期内自动触发完成对IT运维系统的监控、配置变更检测、维护事件提醒、系统健康检测、维护报告生成等工作。

2) 梳理故障事件自动触发流程、跟踪流程和设立关键流程。所有IT设备在遇到问题时通过告警分拣和过滤机制, 实现自动报警。之后IT运维人员按照相关流程进行事件处理。因此, 企业需要事先建立事件触发流程, 同时要建立故障和事件处理跟踪流程, 利用表格工具等建立每种事件的规范化处理和跟踪指南。除此之外, 还需设立IT运维关键流程, 引入优先处理原则。例行事件按常规处理, 特别事件要按优先级次序处理。

3) 固化流程。通过对日常运维工作流程的梳理、优化, 形成统一、固化的流程, 把这些流程通过技术手段再固化到自动化运维管理平台中, 用于今后日常运维工作中。

2.4.2 从自动化运维到智能化运维提升

在自动化运维模式下, 运维工作能做到告警自动分拣和过滤、事件流程触发、事件流程跟踪、关键事件优先处理。但随着运维工作的不断深入, 对自动化的要求越来越高。例如, 信息系统因网络中病毒攻击而出现宕机的可能, 如何在系统宕机前做到病毒隔离、自动下发病毒查杀升级包、自动对局域网内所有服务器病毒库升级, 同时实现系统自愈是智能化运维亟待解决的问题。

其他如配置阈值智能化自适应调整、系统版本智能化发布和升级、系统智能扩容等都是今后主动式运维所面临的新课题, 需要不断的深入研究。从自动化运维到智能化运维有很长的路要走, 但从自动化到智能化是主动式运维未来发展的趋势。

3 主动式运维案例

从传统的运维方式发展为主动式运维, 是一项长期的历程。以国网某省电力公司从最初的传统式人工作业运维到如今的已基本实现主动式运维的转变为例来进行说明。

1) 管理方面。2010年起, 运维服务单位配合客户制定运维规划, 并逐年滚动修编规划。规划包括网络架构、基础环境架构 (如机房市电冗余规划等) 、资源规划 (如存储容量规划等) 、人力资源规划 (如队伍建设、岗位设置等) 等方面。2012年颁布了团队激励措施, 通过对工作规范性、人员能力、协作能力、系统稳定性指标等方面, 每季度开展评价工作, 并进行相应的奖惩。

2) 技术方面。自2011年起, 运维服务单位开展主动式运维技术支撑工具研发。最初的运维工具仅包括主机 (PC服务器) 、数据库 (Oracle) 等对象的运行状态监控, 从已有的BETA网管系统中采集部分网络运行数据, 进行集中监控。通过不断完善, 至2013年底, 运维工具的功能包括对主机、操作系统、数据库、中间件、存储等运维对象运行状态数据的采集及监控;状态告警功能;实现部分的关联分析功能 (如可初步定位故障原因等) 。自2014年开始, 运维服务单位将开展海量告警信息过滤 (告警分级机制) 、阈值自适应调整、部分场景自动化发布、部分场景系统自愈等运维工具智能化功能研究, 逐步将运维自动化向运维智能化转变。

4 结语

本文分析了在当前信息系统大建设背景下企业开展主动式IT运维服务的必要性, 给出了主动式运维定义、架构设计、应用实现以及实际案例。实际应用表明, 主动IT运维服务将繁琐的企业信息运维工作变成可控的流程业务, 有效保障运维工作操作简便、管控有序、效果明显, 有较好的应用价值。主动式IT运维目前在信息系统运维工作中尚处于实践应用阶段, 随着信息系统的多样性发展, 以及云技术、大数据等新技术应用, 必将在各种应用系统中得到应用, 实现信息系统全面的自动化运维。

参考文献

[1]左天祖.中国IT服务管理指南[M].北京:北京大学出版社, 2004.

[2]工业和信息化部软件服务业司.中国ITSS信息技术服务标准白皮书第一版[S].2010.

[3]北塔知识库.实现IT运维管理主动服务模式的方案[EB/OL].[2014–7–20].www.ciotimes.com.

[4]ZDnet.应对四大挑战:实现云环境下的主动运维[J].网络与信息, 2011, 25 (10) :49–50.

[5]百度百科.IT运维自动化[EB/OL].[2014–7–20].http://baike.baidu.com/view/8947561.htm?fr=aladdin.

卡西亚 合作共赢IT运维 第5篇

据了解,科安德将卡西亚公司的K2产品应用于很多中小企业,结合卡西亚产品的特点提供了“主动化预防”的IT系统自动化运维的方式。工程师在CANDIS公司内部架设管理服务器,然后通过远程的方式在用户的每台计算机上安装客户端程序,同时通过与最终用户沟通,在管理服务器上预制阀值与策略。

“这样做使得IT的服务效率大大提高。”David说。首先,IT运维工程师能够远程监护客户端,不用上门即可查出问题所在,简化了工作流程。在一个客户一个月的试用期终,故障数量降低了近1/2,IT系统的连续性大大提升,解决了长时间困扰用户的服务效率问题。其次,由于服务系统的革新,一个工程师同时可以监控20个客户,比过去的10个客户提高了一倍,大大节省了人工费用。

IT应用运维 第6篇

通过BSM来实现IT与业务的有机融合, 关键的一点是, 在内部建立以业务为核心的运维管理思路。将是否对业务具有支撑能力, 以及这个能力的大小作为评价IT系统的有效价值和IT部门业绩的首要指标, 形成技术部门为业务服务的理念和文化, 不断促进IT与业务的融合。从实现路径方面来说, 理论上可简单概括为以下几个步骤:

首先, 构建业务架构, 理清业务系统, 特别是关键业务的应用。通过对业务系统进行准确定位, 建立业务服务模型, 梳理清楚业务与IT运维之间的关联和IT服务的关键目标, 以便定义如何监控和管理业务服务, 进而针对不同的环节进行细致的管理。

其次, 做好业务管理和综合管控。有效的业务运维是整个运维管理中最重要的工作, 具体包括业务运行管理和业务使用管理。运行管理将业务关键参数映射到业务架构上, 实时反映业务运行情况, 帮助业务相关人员更好地理解业务运营状况和机理, 跟踪业务系统变化, 更好地推进业务部门的运营工作;而使用管理则通过对使用情况的分析, 确定业务系统健康度、饱和度以及运行质量。

最后, 提供业务关联分析, 落实服务管理。IT部门与业务部门之间通过建立SAL (服务级别协议) 有效落实服务管理, 同时, 全面保证业务管理中的问题发现及处理机制, 并通过业务关联分析取得决策依据。

IT自动化运维平台建设和应用 第7篇

随着互联网信息和云计算技术的发展,企业的服务器系统从集中计算架构全面过渡到海量的分布式计算架构,随之而来的海量服务器运维和管理成为企业运维人员面临的主要挑战。传统模式下,几十台的服务器规模,IT服务人员只需具备简单的工具开发能力,即可高效完成运维和日常管理工作。但在互联时代海量服务器、多云管理和大数据运算的应用场景下,运维人员需要具备更精细化的运维管理能力和服务能力,才能满足企业在互联网模式下快速发展的业务需求。目前,自动化运维成为企业服务器系统的主要建设方向。通过建设自动化运维平台,企业能够摆脱对密集型人力技术服务的依赖和限制,从而能够实现真正意义上的的业务快速增长。

2 平台建设背景

目前,很多传统企业的运维模式仍然是在用户使用计算机设备的过程中发现故障,然后通知运维人员采取相应的补救措施。这种传统、被动、孤立、半自动式的运维管理模式经常让运维部门疲惫不堪,主要表现在三个方面:

(1)缺乏统一的配置管理工具

配置管理工作涉及范围广,对象之间的关系错综复杂,如何准确获取配置信息、并保证信息的有效性是配置管理面临的最大问题,通过手工方式开展配置管理工作几乎不可能实现。

(2)维护人员重复性工作多,效率低下

运维人员日常大部分时间和精力耗费于处理一些简单重复的问题,系统和应用变更、日常检查、信息采集等大部分工作都是手工操作,当设备数量达至成百上千时,这些操作占用了运维人员大量的时间,工作质量无法得到保障,并且效率低下。

(3)缺乏高效运维工具

企业的生产系统日趋复杂,运维人员疲于应对各类网络设备、服务器、应用场景等,长期处于救火状态,运维服务质量很难提升[1]。

3 平台功能架构

针对日常运维中的痛点,自动化运维平台需要实现的功能如下:

(1)设备配置信息管理

通过配置管理自动化,实现配置信息采集的自动化,包括设备序列号、IP、网卡、设备型号等各类基本信息,确保配置信息的准确、实用、可用,并作为运维过程中最重要的数据源供运维人员使用。

(2)统一的作业平台

根据日常运维中常见的场景,需要统一的作业平台,主要包括以下三点:

a.日常操作的自动化

将日常例行的操作(包括系统巡检等)标准化、流程化,通过例行操作自动化,将日常容易遗漏、出错的手工操作转变为规范化、标准化、流程化的步骤执行,避免人为失误、简化操作人员的工作内容。

b.变更实施的自动化

规范基础设施、网络、应用变更的步骤,将变更的内容标准化,形成变更模版,基于模版编写变更的实际步骤,然后在自动化平台配置变更计划。通过变更实施自动化,将变更中容易出现的不合规行为彻底规避,避免变更中出现的操作风险,降低运维人员的工作量,提高变更的工作效率和质量,并能够及时发现变更中出现的问题。

c.基础环境部署自动化

实现信息系统基础运行环境的标准化,避免出现手工部署中出现的遗漏和不合规的地方,提高基础环境的交付质量,通过自动化的安装和部署平台,实现一键式的基础环境部署。

(3)设备运行状态实时监控

建设集中化的监控管理平台,实现对所有运维对象实时状态监控自动化,从而实现对运行状态全面、及时、准确的监控,能及时发现故障隐患,主动告知用户需要关注的对象,达到防患于未然。

4 自动化运维管理平台的实现

本次实施中,以某运营商BSS域系统为例,利用两台四核X86 PC搭建自动化运维平台,该平台共纳管208台设备,对设备完成了配置的自动搜集和管理、实时监控运行状态,并且提供自动化作业平台,实现一键操作。通过平台的使用,有效减少重复工作,提升运维水平。

市面上实现自动化运维功能的软件很多,我们挑选开源的easyops和ZABBIX来搭建自动化运维平台。

easyops为一款面向企业服务器系统的智能运维管理平台。主要实现两大功能:

(1)配置管理

提供服务器的资源配置和运行状态管理。简单配置后即可自动发现服务器并采集服务器上的运行信息。通过部署的Agent安全加密程序,平台能够自动上报服务器的硬件及软件信息,实现配置管理的基本功能。通过主机管理平台,运维人员可以更高效地管理企业的服务器资产,进行运行状态的跟踪和分析。

(2)作业平台

easyops提供可视化的并发任务调度管理平台。运维人员可以结合自身的特点和应用场景来满足个性化的管理需求。通过作业平台,用户可以将所定义的自动化任务,经过加密的传输通道快速分发到所需要的服务器上,并且进行任务的执行和调度。任务执行的结果将会即时回传平台。通过配置,系统实现了日常巡检、基础环境部署(支持redhat、centos一键安装功能)、以及变更操作。图1是easyops日常巡检的操作界面。

本次实施中实时监控功能通过ZABBIX来实现。ZABBIX是一种提供分布式系统监控以及网络管理服务的企业级开源解决方案。ZABBIX能监视各种网络及系统参数,保证信息系统的安全运营;提供灵活的通知机制以便系统管理员快速定位并解决存在的各种问题。开源软件ZABBIX由服务器端(ZABBIX Server)与客户代理端(ZABBIX Agent)两部分构成。ZABBIX Server可以运行的平台包括AIX、Linux、HP-UX以及Solaris等,可以实现对远程服务器与网络运行状态的准实时监视,采用的技术方式有ZABBIX Agent、简单网络管理协议(Simple Network Management Protocol,SNMP)、ping以及端口监视等。在此基础上,还能够完成监控数据的收集统计。ZABBIX Agent可以运行的平台包括AIX、Linux、HP-UX以及Solaris等,在被安装的目标端服务器上部署该软件,可以实现对服务器与网络设备上的主机信息,如内存、CPU、运行状态等信息的收集[2]。

图2是ZABBIX的监控页面展示,里边包括各类基础信息以及告警信息。

5 结语

在实际生产使用过程中,运维人员通过该平台实现了系统的统一配置管理、实时监控和一键操作。维护人员摆脱了手工记录和操作的工作模式,极大提升了效率。尤其是通过统一的作业平台,实现了一个界面管理多台设备,每日的日常巡检时间从原来的4小时缩减到10分钟。图3是利用easyops一键操作6台设备,统一显示系统磁盘空间利用率的情景。

随着技术的发展,传统运维模式正向“一体化、集中化、智能化”方向发展,本文介绍的运维管理平台可实现资源配置管理、自动化操作和监控的统一纳管,达到提高维护人员工作效率的目的。

参考文献

[1]宋义华,班孝明.IT应用运维自动化研究与应用[J].网络安全技术与应用,2014(09):224-225.

IT应用运维 第8篇

1 虚拟化技术概述

1.1 虚拟化优点

IT行业的虚拟化具有着较为广泛的含义, 较为通俗的一种定义为:虚拟化在对用户对于物理计算资源如内存、I/O设备以及处理器的直接访问在淡化的基础上时期直接对逻辑资源进行访问, 并由虚拟化技术对后台物理连接进行管理与实现。在该定义中, 较为生动的对虚拟化技术的作用进行了说明, 即在对传统方式情况下, 用户在进行部署时对需要考虑的硬件资源属性进行屏蔽, 转而注重于真正能够应于到的逻辑资源当中, 如内存大小以及处理器的主频等。虚拟化是一种分区组合, 在同一个物理平台中, 多个虚拟机能够在同一时间运行且相互间不会产生影响。具体特点方面, 虚拟化特点有以下几种:

1.1.1 封闭性

在虚拟单元中, 其所有的环境都放置在单独的文件当中, 对于应用来说展现的是具有标准化特征的虚拟硬件, 能够保证其具有良好的兼容性。而整个磁盘分区将被统一存储为一个文件, 更有利于转移、拷贝以及备份等工作的开展。

1.1.2 隔离性

虚拟化能够为用户提供一个较为理想化的物理机, 且每个虚拟机之间互相之间相互隔离, 在数据传输中不会在虚拟机间产生泄漏问题, 相关应用仅仅能够在配置完成的网络连接中实现通讯。

1.1.3 分区性

对于类型较大、且具有较强扩展能力的硬件能够作为多台具有独立特征的服务器使用, 在单独物理系统中, 能够对多个应用以及操作系统进行运行。

此外, 计算资源也能够被放置在系统资源池中, 并获得较好的控制。

1.2 虚拟化软件

在系统中, 虚拟化软件扮演着物理硬件同系统环境间的连接者角色。通过虚拟化软件的应用, 通过操作系统则能够仅仅观察到部分较为通用的硬件, 且无论这部分硬件的更新情况如何, 都不会因此产生影响。这是因为虚拟层不仅能够帮助硬件间产生隔离的作用, 也能够使系统以及应用等能够在不同的物理平台中实现转移。实际上, 虚拟化软件截止目前已经具有了较长的发展历史, 从上世纪60 年代开展, 第一代虚拟化软件通过主机架构则对服务器的分区能力进行了提供。而第二代软件则对生产力规划、虚拟化管理以及服务器到虚拟机的迁移等功能进行了实现。而随着第三代虚拟化技术的应用, 则将存储虚拟化以及标准服务器共同形成了一个整体, 在对一个具有动态特征、能够以集中方式管理资源池进行聚合的同时能够使其中的任何操作系统以及应用都能够一直保持高度的可用以及持续优化状态。目前, 基于第三代虚拟化架构技术的软件有很多, 如Virtuozzo、Xen以及Hyper-V项目等。而在市场市场占有率以及系统成熟度方面, VMware公司目前具有较大的优势。

2 虚拟化技术解决方案

2.1 降低运维成本

在系统运维管理成本方面, 主要包括有机房空间、冷气空调、硬件设备购置以及耗电量等成本。通过虚拟化软件对系统PC服务器的整合, 在对服务器资源池进行形成的同时则能够在对服务器利用率提升的基础上起到减少设备购入量以及运行量的作用, 进而对整个系统的运维成本起到了降低的效果。

2.1.1 方案实施对象

在IT系统中, 通常都按照数据库、服务器以及web这种三层架构方式对系统进行部署。在web层以及服务器层, 往往具有着较多的服务器数量, 且在日常运行效率方面相对较低, 具有较大的整合以及提升潜力。

2.1.2 方案实施说明

在该方案中, 将具有较低负载的应用服务、web服务进行了整合, 将其中具有较好性能的服务器对VMware产品套件进行了安装, 对服务器资源池进行构成之后根据整合服务之前所具有的部署环境对虚拟机单元进行建立, 在逐渐对硬盘、内存、处理器以及网卡等资源进行分配之后根据系统安装文档对服务器软件、应用软件以及系统软件进行安装, 以此对系统虚拟化进行实现。通过该种实施方案的应用, 将在对系统服务器数量大服务精简的同时对服务器的使用效率进行提升, 最终起到降低运维成本的目的。

2.2 提升运维效率

在IT运维系统中, 效率不高在很多方面都有体现。以数据备份为例, 主要是由于系统具有较多种类, 且相互间具有着独立的特征, 系统备份工作由于较为复杂且在集中管理方面存在缺乏现象, 如果在运行中产生了故障, 则会由于硬件设备具有较长的启动周期而使系统需要较长的时间进行恢复。在该种方案中, 其通过存储设备以及虚拟化软件的应用对备份资源池进行建立, 则能够对备份的集中管理进行实现, 在对备份操作进行简化的同时缩短恢复时延等优化工作时间。

2.2.1 方案实施对象

在该方案中, 其对象主要为web层、服务器层以及数据库。

2.2.2 方案实施说明

我们还是以备份的效率提升对方案进行阐述。在该方案中, 将具有独立备份特征的服务器统一对VMware套件进行安装, 对备份服务器资源池进行组成后通过VMware存储设备以及软件对备份虚拟机资源的统一管理与分配进行实现。由于虚拟机对完整的备份环境进行了封装, 且具有一次构建多次部署的特征, 则能够在对备份操作复杂度进行降低的同时对系统的备份效率进行提升。此外, 虚拟机在启动中, 也不再对硬件设备初始化, 也因此将对备份系统的恢复时延进行了大幅度的缩短。

3 结束语

在上文中, 我们对虚拟化技术在IT运维管理中的应用进行了一定的研究, 在实际应用中, 需要联系系统实际, 通过对该技术的科学应用获得更好的运行效果、效率以及成本。

摘要:在目前运维工作中, 具有着效率低以及成本高的问题。在本文中, 将就虚拟化技术在IT运维管理中的应用进行一定的研究。

关键词:虚拟化技术,IT运维管理,应用

参考文献

[1]李硕, 毛承国, 张进铎, 张卫华.基于VMware技术的虚拟化办公系统研究及应用[J].计算机时代, 2014 (10) :11-13.

[2]付贤树, 朱艳超.虚拟化数据中心的IT运维管理浅谈与实践[J].电子技术与软件工程, 2014 (08) :195-196.

IT应用运维 第9篇

六西格玛是一种基于数据制定决策的质量管理方法, 以数理统计技术和工具为基础, 通过系统地、集成地改进业务流程, 消除过程缺陷和无价值工作, 从而提高产品质量和服务水平, 降低成本, 缩短运转周期, 增强组织的竞争力。西格玛 (“σ”) 度量质量特性总体上对目标值的偏离程度, 几个西格玛是一种表示品质的统计尺度。任何一个工作程序或工艺过程都可用几个西格玛表示[1]。6个西格玛可解释为每100万个机会中有3.4个出错的机会, 即合格率是99.99966%, 而3个西格玛的合格率只有93.32%。

六西格玛管理方法由摩托罗拉公司发明, 后来又通过通用电器公司完善, 它一直被人们看作是用于运营和制造业的方法。但在这10年来, 金融机构、能源和公用事业相关行业已经认识到六西格玛是他们改进流程 (包括业务流程和IT流程) 的一种方法。

一件产品, 无论是实体产品 (衣服、家具等) 还是抽象产品 (例如服务) , 其生产均由一系列流程组成。所有的流程由一系列的步骤、事件或活动组成。六西格玛经由以下方式对流程中的每一个步骤加以测量[2]:对每一个流程中的元素进行分解;确定关键特性;定义和描绘相关流程;了解每一个流程的性能;发现薄弱环节;改进流程性能以改善质量, 提高顾客满意度, 增加组织的经营业绩并带来利润的增长。六西格玛管理方法通过DMAIC方法论来管理流程的测量, 以实现关键质量因素的优化和控制来达到甚至超越客户满意度之目的。

DMAIC方法论具体含义为:D (Define) 表示定义, M (Measure) 表示测量, A (Analyze) 表示分析, I (Improve) 表示改进, C (Control) 表示实施。

2 广州市规划局IT运维服务现状分析

广州市规划局信息化建设时间比较早, 1987年就引进城市规划地图信息系统, 到1992年率先提出了超大规模、大比例尺地形图扫描建库的技术方法, 并且开始应用专业系统实现动态信息建库[3]。从1995年到2013年, 广州市规划局围绕规划管理、规划编制工作, 建立并不断完善具有丰富技术内涵和完善功能及决策支持能力的较完整的数字规划体系, 建设的信息系统包括业务协同办公系统、地理信息系统, 廉政风险预警防控系统、异构系统平台、异种数据格式的交换管理体系, 三维数字管理平台、移动办公系统等。这些信息系统对促进规划编制水平和行政管理水平的提高发挥了重要作用。数字规划全过程运作已和信息系统息息相关, IT服务的质量已影响到整个规划运作的方方面面。

早在2007年, 广州市规划局的信息服务部门广州市城市规划自动化中心 (以下称自动化中心) 已建立一套IT服务管理机制[4], 并建立了一个集中受理各类服务需求的IT服务管理系统。

IT服务管理机制制定了一套标准化服务支持流程, 并制定了在服务支持流程中不同角色所承担的责任。IT服务人员都遵循这套服务支持流程工作, 经过多年的实践及改进, 该流程已比较成熟, IT服务支持人员自觉按流程操作, 各项服务支持工作的开展如同工厂生产线上的流水作业一样顺畅。

所建立的IT服务管理系统不仅仅是电子服务台, 还实现了配置管理 (通过识别、控制、维护和验证现存的IT环境所有信息系统、基础设施、文档、客户等来制定IT基础架构) 、问题管理 (受理用户问题, 分配问题) 、事件管理 (对IT服务运营过程中出现的故障做出事后的反应) 、版本管理 (负责软件和硬件变更后的分发、安装和记录等) 和集中控制。目前, 广州市局机关处室及下属全部分局1300多用户都使用该系统寻求IT服务支持, IT服务管理流程如图1所示。

3 六西格玛管理在提高运维服务质量管理中的应用

尽管IT服务支持流程已比较成熟, 但随着2013年市局机构改革, 原有机关处室人员调动频繁, 设备更换较快。2014年原不属于服务范围的从化市、增城市规划局也将变为必须维护的规划分局, 客户数猛增上百人, 维护地域范围变广。这些变化使得IT服务人力日渐紧张, IT服务的效率也随之下降, 用户的满意度较比以前有所降低。为了在不提升维护成本情况下提高用户满意度, 自动化中心使用六西格玛管理方法, 运用DMAIC循环对输入过程中的因素进行分析和控制, 一步步解决问题, 提高了运维服务质量。

3.1 问题定义阶段

定义问题是六西格玛管理方法的第一步。2013年11月, 我们对服务之窗2013年的IT服务数据进行统计, 得到前10个月的问题一次解决率数据, 如表1所示。

从表1数据可得:2013年前10个月问题一次解决率平均为67%, 即从服务台受理的问题直接被第一级服务支持人员解决的只占总问题数量的67%, 剩下33%问题都被转到二级服务支持人员。问题一次解决率直接影响到服务效率, 等待答复或问题最终解决时间过长会直接降低用户对服务的满意度。

因此, 我们将提高问题一次性解决率作为改进服务的目标。

3.2 测量阶段

为找到影响问题一次性解决率的原因, 对2013年前10个月服务之窗记录的全部问题进行整理, 研究了影响服务质量的潜在问题领域, 并使用了因果图实施测量, 以寻找影响服务质量的全部因素。查找到影响“问题一次性成功解决率”的因果图如图2所示, 找出的全部因素都属于潜在的问题领域。

3.3 分析阶段

从图2的因果图分析发现人员的因素对服务效率和质量有重要影响。当用户通过电话或服务之窗网站发出服务请求后, 一级服务支持人员由于个人的沟通能力、工作经验不同, 会对用户的需求产生不同的理解。

IT服务支持人员知识、经验重用度不高。经验较丰富的服务人员所掌握的知识以及解决问题的方法没有充分被经验较少的人员所掌握, 出现了同类型问题被不同人处理, 结果有差异。甚至同一个一级服务支持人员处于不同工作环境时, 也会对同种类型请求的回应不一致。这些情况都使得用户对所获得的维护结果不一定满意。

当用户提出的故障请求涉及业务办公信息系统、地理信息系统等专业软件的统计分析或与网络故障、服务器问题密切相关时, 33%的问题会被一级服务支持人员转给二级服务人员。由于二级服务人员由开发人员、网络管理员、服务器管理员、数据维护员和第三方开发商、供货商兼任, 从问题转入到解决的时间周期较长, 最终表现为用户等待答复的时间较长, 从而也降低了用户的满意度。

当某个月因为人员调动频繁, 设备更新需求猛增或推出系统新功能时, 该月的维护量会明显高于正常数值, 这时维护人员因为工作量变大, 人手不够 (等于维护环境相对变差) , 一次性解决率也会有所降低。

3.4 改进阶段

通过对六西格玛管理方法进行分析发现问题原因, 可以针对问题实施改进。

1) 丰富知识库的知识

知识库是一种允许快捷、简单检索客户请求帮助的工具。通过使用知识库, 就可以提高一级服务支持人员“重用”成功解决方案的几率, 减少因为经验水平不同而产生的同类型问题不同处理结果的现象, 让服务支持活动变得稳健。

在服务之窗建立初期已设计了知识库, 但对经验较少的一级服务支持人员来说并没有发挥很大的作用。其原因是经验丰富的服务支持人员解决完问题后, 常常在最后只是简单地记录“问题已解决”, 该答复不易被其他一级服务人员重用的经验知识。改进措施为:规定全部一级服务人员在结束一个问题时, 必须记录具体的处理步骤和过程信息, 以丰富知识库, 实现维护经验共享。

2) 提供多种形式的培训

并非所有知识都可以被记录到知识库, 比如与专业软件升级改造或网络结构、服务器、专题数据等相关的复杂问题, 大部分都需要对系统或网络有相当了解之后才能解答。因此, 在一级和二级服务人员之间开展交叉培训, 让一级服务人员深入了解各专业系统已有功能, 了解网络结构, 不但能有效提高一级服务人员处理问题的能力, 还能让服务人员从业务视角对造成事故的各种问题进行归类和分析, 并提出相应的应对措施, 拓展服务范围。

对于数据服务这类问题量不大但专业知识很强的服务, 则直接开辟服务专栏, 请从事该类工作的二级服务人员以一级服务人员身份接听来电或解答网上问题, 加快解决问题的速度, 并将解决问题的方法记录到知识库。

信息系统新功能发布前, 已事先参加培训的一级服务人员主动通过服务之窗向用户反复推送“功能预告”等信息, 加大功能操作的宣传力度, 让用户在正式使用系统新功能前就对功能操作有较清晰的了解;等功能发布后, 大部分用户已可顺利操作, 减少了问题总量, 相当于改善了服务环境, 确保一级服务人员的工作强度适中, 服务效率稳定。

3) 使用远程管理方法

借助远程管理方法, 一级服务人员可在用户的注视下, 代替用户操作用户的电脑, 实施需要特殊权限才可进行的加入域或安装专业软件等操作。这种解决问题的方式可以完全忽略客户所在的地理位置或客户计算机操作不熟等客观条件, 由一个或几个服务人员合作处理故障, 极大提高了问题一次性成功解决率。

3.5 控制阶段

将改进措施纳入日常管理活动中, 确保对改进措施实施情况持续监测, 并定期对改进前后相关数据进行分析对比, 评价改进后的结果与预期目标是否相符。建立长期的跟踪控制系统, 即时解决出现的各种问题, 使改进过程处于稳健状态。

改进措施从2013年11月开始推行, 12月份问题一次解决率即有明显提高;但最初3个月这种解决率还处于波动状态。从第4个月, 即2014年3月开始, 检测结果显示“问题一次性成功解决率”从原来的67%%稳定提高至72%左右, 具体情况如表2所示。

表2数据显示IT服务改进措施是有效的, 随着一级服务人员对规划业务越来越熟悉, 问题一次性成功解决率将会进一步提高。

4 结束语

六西格玛作为寻求最佳顾客服务质量的流程改进方法正折射出无限的魅力, 它能测量服务组织绩效能力, 检测服务管理流程是否提供了应当提供的服务。ITIL为IT服务管理提供了一个框架, 六西格玛则给出经过锤炼证实的质量和改进质量的一套统计工具, 只有六西格玛管理方法与IT服务管理密切结合, 才可能成功面对顾客日益增长的需求, 在不增加成本的前提下, 通过优化流程甚至创新流程来维持或提高用户满意度。

参考文献

[1]Jan van Bon.IT管理框架[M].刘向晖, 译.北京:清华大学出版社, 2009.

[2]Sven den Boer.六西格玛在IT管理中的应用[M].张晓娟, 王新才, 译.北京:清华大学出版社, 2009.

[3]潘安, 李时锦, 唐浩宇.全过程的数字规划支持系统 (DPSS) 研究[J].中心人, 2004, 6 (72) .

IT运维升级 用户体验至上 第10篇

现实中常见的一个现象是:面对用户抱怨体验不佳,应用系统维护人员说软件没有问题,IT基础设施维护人员说设备没有问题。明明出了问题,但到底出在哪里不知道?

“此时,如果有一个工具能明确告诉维护人员应用系统是‘卡’在服务器、存储设备还是应用软件上,无疑会帮上大忙。”CA Technologies亚太区企业IT管理解决方案部高级总监郑伟轮介绍说,CA Technologies推出的新版基础设施管理 (CA Infrastructure Management)正是这样一个解决方案。据他介绍,该新版基础设施管理解决方案通过4个“聚合”为客户提供全面的服务可视性,即聚合应用和基础设施、聚合多个功能域、聚合网络音视频,以及通过聚合分析为IT运维人员提供一个IT应用系统的全视图,帮助确保业务服务的可用性和性能,最终保证为客户提供卓越的客户体验。

郑伟轮表示,不同于传统的APM(应用性能管理)只从应用层面而缺乏结合基础设施来分析影响性能的原因,也不同于传统基础架构的管理抛开应用来管理设备,CA Technologies通过把应用和基础设施结合起来,能找出用户体验差的原因到底出在哪里?

“将应用和基础设施结合起来对于确保服务的高性能交付非常重要。这样能保证在发生用户体验不佳时迅速、准确地找出影响用户体验的根本原因,同时,还有助于优化基础设施和系统架构,进一步改进用户体验。比如,是否需要引入内容分发网络(CDN)、如何进行远程网优化等。这也是CA Technologies新版基础设施管理与APM等类似产品的关键区别之一。”郑伟轮说。

与之配套,CA Technologies还将通过提供一系列实施服务为 CA 基础设施管理解决方案提供支持,其中包括用于快速部署该解决方案以满足业务需求的基础服务,以及利用附加功能(如多租户支持)来扩展基础实施服务价值的加速服务。

IT运维管理之核心 第11篇

在运维管理中, 业务应用就好比是“1”, 而设备是“0”, 所以说没有了正常通畅的业务应用, 其他的都是空谈。只有在业务应用畅通的前提下, 基础设施管理才有意义, 才能体现IT运维管理的价值。所以说, IT运维的核心就在于业务管理和应用。IT运维工作从某种定义上属于无形的幕后工作, 那么怎样才能将其转变为有形的甚至可以量化的工作, 并将其由成本中心向利润中心转变?答案一目了然, 将IT运维与业务相关联, 与实际的业务应用挂钩, 实现主动发现问题、提前处理故障。

目前很多单位开始重视IT运维中的业务管理, 将其提到战略高度, 并建立了基于BSM解决方案的新型IT运维, 即基于BSM架构的业务管理。这个方案主要做到了以下几点:

首先, 实时掌控最终用户对IT服务的使用体验, 根据制定好的SLA (Service Level Agreement, 服务等级协议) 来管理业务服务的质量, 这样就可以根据业务影响和SLA来对IT服务进行管理。

其次, 通过端对端的应用交易时间测量, 实现业务要求端对端的可见性。从最终用户的角度来测量业务服务的响应性能, 主动帮助运维人员在第一时间发现问题, 以便在问题对用户造成不利影响之前, 得到及时隔离、诊断和修复, 把它们对业务的干扰降到最低。

再次, 提供业务服务、应用及底层IT系统构架部件之间的映射关系。通过服务依存关系映射技术, 来展现业务服务、应用和底层IT系统构架部件之间的动态关系, 这样就增进了对各种IT元素的掌控和理解。

相关文章
2024中考体育考试安全预案

2024中考体育考试安全预案

2024中考体育考试安全预案(精选13篇)2024中考体育考试安全预案 第1篇清涧分部2014年初中毕业学业理科实验操作、体育考试安全工作预案为...

1
2025-09-19
2024国培总结

2024国培总结

2024国培总结(精选9篇)2024国培总结 第1篇2017教师国培学习总结当今社会,教事业迅猛发展,各类培训数不胜数,而“国培”对于我们教育发...

1
2025-09-19
2024年单位与单位的新年联欢会主持稿及串词

2024年单位与单位的新年联欢会主持稿及串词

2024年单位与单位的新年联欢会主持稿及串词(精选5篇)2024年单位与单位的新年联欢会主持稿及串词 第1篇2018年单位与单位的新年联欢会主持...

1
2025-09-19
2024年上海市崇明县中考一模语文试题及答案

2024年上海市崇明县中考一模语文试题及答案

2024年上海市崇明县中考一模语文试题及答案(精选6篇)2024年上海市崇明县中考一模语文试题及答案 第1篇2017年崇明区初三一模语文试题(一...

1
2025-09-19
2010—2011学年度第一学期六年级语文教学计划

2010—2011学年度第一学期六年级语文教学计划

2010—2011学年度第一学期六年级语文教学计划(精选13篇)2010—2011学年度第一学期六年级语文教学计划 第1篇2010—2011学年下学期六年级...

1
2025-09-19
2011《农业农村工作知识》高频考点

2011《农业农村工作知识》高频考点

2011《农业农村工作知识》高频考点(精选12篇)2011《农业农村工作知识》高频考点 第1篇2011公考备考:《农业农村工作知识》高频考点2011-0...

1
2025-09-19
以案促改主持词

以案促改主持词

以案促改主持词(精选4篇)以案促改主持词 第1篇主持词同志们:根据市委要求,今天我们在这里召开“××局开展案件剖析做好以案促改工作动...

1
2025-09-19
2024致自己的励志说说

2024致自己的励志说说

2024致自己的励志说说(精选5篇)2024致自己的励志说说 第1篇人生,说到底,活的是心情。人活得累,是因为能左右你心情的东西太多。以下是...

1
2025-09-19
付费阅读
确认删除?
回到顶部