运维管理自动化(精选7篇)
运维管理自动化 第1篇
IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。
因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。可以说,自动化一定是IT运维最高层面的重要属性之一,但不是全部。
2 传统运维管理方式问题
目前,许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
2.1 运维人员被动且效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前,绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,导致故障发生后或报警后才会进行处理,使到IT运维人员的工作经常处于被动“救火”的状态。
2.2 缺乏高效的IT运维机制
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
2.3 资源管理不集中
在云平台中,将硬件资源组成资源池,并通过虚拟化技术为用户提供服务。在云平台中有专门提供硬件资源整合、分配硬件资源为其上运行的各虚拟机使用、协调跨硬件资源完成各种高级服务的管理平台,由管理平台对物理资源和虚拟资源进行集中管理。这与传统系统以单台物理机为管理单位,或以几台物理机为集群的技术不同,云平台的集中管理具有整体性,即所有属于平台的物理资源和虚拟资源,均需在管理平台中进行集中管理,由管理平台进行资源调配实现各种高级服务功能。
3 自动化管理建设
现在IT系统的复杂性客观上已经要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化,是指通过将日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度) 由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。
简单地说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可以帮助IT运维人员完成日常的重复性工作( 如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
3.1 IT运维自动化工具分类
对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:
(1) 监控自动化,指对重要的IT设备实施主动式监控, 如路由器、交换机、防火墙等。
(2) 配置变更检测自动化,指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认, 通过自动检测协助IT运维人员发现和维护配置。
(3) 维护事件提醒自动化,指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
(4) 系统健康检测自动化, 指定期自动地对IT设备硬件和应用系统进行健康巡检, 配合IT运维团队实施对系统的健康检查和监控。
(5) 维护报告生成自动化, 指定期自动地对系统做日志的收集分析, 记录系统运行状况, 并通过阶段性的监控、分析和总结, 定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
3.2 建立IT运维自动化
3.2.1 建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发,完成对IT运维的例行巡检形成检查报告,包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
3.2.2 建立故障事件自动触发流程
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报警的故障,应以红色标识显示在运维屏幕上,然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员,IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
3.2.3 建立规范的事件跟踪流程
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。实践证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
3.2.4 建立规范的事件跟踪流程
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时引入优先处理原则,日常事件按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
4 自动化管理工具应用
4.1 工具应用分类
一个完善的自动运维体系包括系统预备、配置管理以及监控报警三个功能模块,如图1 所示:
(1) 预备类工具
预备类工具可以使Linux操作系统及软件安装自动化。它们借助服务器上的软件包系统,比如RPM或者APT业安装软件包,甚至会做一些粗略的配工具。
(2)配置管理类工具
配置管理工具可以自动化部署常用的应用程序,设置参数或者开启一个新服务器上的服务,也可以用来把对操作系统及业务支撑系统的变更管理回滚到上一个版本。
(3) 监控报警类工具
监控工具用来收集服务器数据,从而生成可用性、性能和其他系统状态的报告,可用性监控可以第一时间向运维人员发送业务不可用报告,以便第一时间处理,减少业务中断时间。
红帽资助的Genome项目是将预备类、配置管理类以及监控报警类集成到一起的框架,如图2所示:
5 结语
IT运维管理自动化是关键 第2篇
随着企业业务的不断扩张, IT设备以及硬件也在扩张且不断增加, 随之带来的是运维工作更加复杂。在IT运维服务中, 通常包含了许多的运维项目, 比如系统镜像服务、网络运维、安全运维等, 这些运维无论是哪项出现故障, 都会影响到业务人员的正常使用。
目前, 大多数企业的IT运维逐步面临以下问题。首先, 虽然IT部门已针对性发布了运维制度与流程, 但业务部门依旧不满运维工作, 运维管理效率低下, 相似问题屡屡发生, IT运维人员疲于奔命。其次, 随着信息化硬件以及应用系统建设的完成和交付, 如何整合运维人员并建立统一服务流程也成主要问题。再次, 由于企业协同未能充分实现, 运维制度、流程更多立足于单个系统考虑, 运维缺乏统一性。最后, 随着系统使用的深入, 部分运维制度、流程未及时更新, 已经不能适应需要, 用户抱怨增加运维流程的落实不力, 流程执行始终无法实现从理想到现实的跨越。
之所以出现以上问题, 究其原因在于企业忽视了IT运维的质量, 只知制定流程, 却无法最大限度进行流程的监督、检查和修正。IT运维诚然必不可少, 但不能纯粹地为了运维而运维, 更应该充分保证IT运维的质量。
金融行业是信息化应用的最重要领域之一, 中国经济的迅猛发展对中国金融行业提出了更高要求, 众多金融机构面临的日益增长的数据吞吐量与持续的IT成本压力, 以及来自企业内外部信息安全的诸多问题, 使有效的IT运维管理在金融行业的应用势在必行。
从日常的IT养生开始
IT基础设施与业务的结合日趋紧密, IT基础架构的安全和稳定已经直接关系到企业未来的兴衰与发展。面对日益复杂的IT架构、技术能力不足和管理体系不完善等问题, 如何才能保证IT运维的健康运行?
首先要从日常的IT养生开始, 从防范一切细微祸患开始, 才能避免IT运维从量到质的变化, 不至于酿成大害。
目前大多数中国企业采用外包给IT服务公司或依靠自身的IT部门来进行维护。然而, 不管采取哪种方式, 国内普遍的IT基础运维依然是依靠传统的手动方式被动地“救火”, 只有当事件已经发生并造成业务影响时, 才被发现并着手处理, 而此时IT系统已经受损。
另外, 大部分系统的更新管理工作还是依靠IT运维管理人员手工操作来完成的。即便是一个最简单的系统变更或更新, 也得靠IT运维管理人员逐一登录每台设备去执行, 此外, 如果IT运维管理人员面对的是几套完全不同的系统, 那他在有限的时间内不仅要处理各种各样的问题, 还要去熟悉掌握这些不同的系统, 工作效率可想而知。
事实证明, IT系统与人一样, 需要进行定期系统检查与维护, 才能避免久病无医的悲剧发生。
IT服务流程管理
切实贯彻执行IT服务管理流程, 对IT运维的发展具有强大的推动作用。对此, 建立有效而合理的流程管理, 可以帮助企业建立快速响应并适应其业务环境及业务发展的IT运维模式, 实现基于ITIL的流程框架和运维自动化。
在实施过程中, 应构建一整套行之有效的面向业务和应用、以服务为导向、具有创新性的IT运维管理体系如图1所示。该体系应包括组织管理模式、制度规范体系、技术支撑体系等3个层面的内容。
组织模式层。确定和规范IT运维管理体系运行的管理方式和与之相配套的人员岗位职责安排、机构设置, 将IT服务相关的全部活动进行统一决策与规划, 形成集中统一的IT运维管理机制, 实现对客户的端到端服务。在集中统一的IT运维管理模式下, 按照IT运维管理任务科学设置或调整组织机构, 划分任务、角色、岗位, 合理配置IT运维管理资源, 达到人、工具、流程的有机融合。
制度规范层。分别从管理与操作方面建立IT运维管理过程中各个参与要素 (人、流程、工具) 的行为准则与工作程序, 从IT运维管理体系总体运行、流程执行和岗位职责3个层次建立考核评价体系, 确定运维费用的组成与计算方式, 规范运维费用的来源保障, 实现IT运维管理的量化管理。
技术支撑层。建立面向业务客户的IT服务请求响应窗口和面向技术支持人员的体系运行管理窗口, 建立负责IT运维管理流程运行的流程管理平台, 以及负责IT基础设施和业务应用系统运行监控的集中监控管理平台。根据不同类型IT基础设施和业务应用系统的管理职能, 建立技术管理子系统以及知识库、配置库、报表及日常操作等共享支持子系统和为业务管理提供服务的业务运维管理子系统。
引入优先处理原则
在设置IT服务管理流程时, 还需要引入优先处理原则, 例行的事按常规处理, 特别事件要按优先级次序处理。
首先, 建立规范的事件跟踪流程, 强化运维执行力度。需要建立故障和事件处理跟踪流程, 利用表格工具等记录故障及其处理情况, 以建立运维日志, 并定期回顾以从中辨识和发现问题的线索和根源。实践证明, 建立每种事件的规范化处理和跟踪指南, 可以减少IT运维操作的随意性和强化运维的执行力度, 在很大程度上可降低故障发生的概率。
其次, 建立故障事件自动触发流程, 提高故障处理效率。所有IT设备在遇到问题时能自动报警, 无论是系统自动报警还是使用人员上报的故障, 应以红色标志显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据, 逐步操作就可以。因此, 需要事先建立自动工单式流程管理, 当设备或软件发生异常或超出预警指标时会触发相关的事件, 同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作, 以提高IT运维响应问题的效率。
变事后管理为事前管理
核心业务和IT系统息息相关, 一旦网络出现故障, 影响和损失非常巨大。因此, 要落实主动运维, 在运维中做到“看、监、析、查”, 变事后管理为事前管理。
首先, 要看得见。无法知道IT系统中的每个关键应用承载设备在哪里, 甚至不知道这些设备连接的应用在哪个端口上, 此时的IT管理就等于盲人摸象。这会导致IT运维管理人员无法及时发现问题, 更加无法迅速定位故障, 各关键系统的运行也无法得到保障。如果看不见, 就无法获取底层物理网络的结构和瓶颈信息, 后面所有的步骤也就成了空谈。看得见是关键的第一步。
其次, 监得到。只能看到设备是无用的, 只有实现底层监控平台, 通过监控IT基础设备发现故障并预警, 才能让运维人员脱离以往“救火队员”的角色。通过采集系统负载状况、设备属性以及线路的实时流量, 通过颜色显示负载和流量的压力, 主动告诉用户关注点应在哪里, 动态告诉用户可能的故障点。此时, IT部门就可以把这些对象控制起来, 设置多级的预警阀值, 将可能出现的故障在未爆发之前就形成主动关注。
再次, 析得清。监控下一步的操作是按告警事件种类、告警事件源、密集告警时间段等分类生成报表。当然, 这并非是数据的堆砌, 而是经过整理的统计和分析。比如, 可以通过之前记录的故障排除步骤和与故障相关的值班员日志, 构造排错行动记录, 将“事件、故障、日志”三者构成逻辑上相互关联的整体, 以反映故障产生、变化、消除的整个过程。
最后, 查得勤。由于网络管理员已经实时监视网内所有设备的各个端口、CPU、内存, 既可以通过传统的设置阈值的方式来判断异常, 也可以通过对历史数据的智能分析, 及时发现网络设备的异常波动。一旦发现异常情况, 通过事件和数据的关联性及一致性, 帮助用户分析可能出现的故障。
自动化是关键
随着IT运维管理工作的复杂度和难度的大大增加, 仅靠过去几个“运维英雄”来包打天下已经行不通了, 需要运用专业化、标准化和流程化的手段, 来实现运维工作的自动化管理。例如, 全天候自动检测与及时报警能实现IT运维的“全天候无人值守”, 大大降低IT运维人员的工作负担。而且, 通过自动化诊断能最大限度地减少维修时间, 提高服务质量。因此, 对于越来越复杂的IT运维来说, 将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。
首先, IT运维流程自动化能够提高流程的可控性, 可以基于业务需求来制定个性化的流程, 使企业领导有机会看见他们的业务流程, 对企业流程有一个深入的分析和理解, 进而改造和优化流程。其次, IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现, 手工流程的不透明将会给流程定制和优化带来相当大的困难, 而自动化流程可以使用户能够一目了然地看到整个流程的各个节点运转情况, 自动化工具潜移默化地提升业务保障能力。再者, 运维系统实行了自动化监控以后, 通过工具自动监控, 对人的工作是一种减负, 也是一种降低成本的表现。
IT运维自动化是指基于流程化的框架, 将事件与IT流程相关联, 一旦被监控系统发生性能超标或宕机, 会触发相关事件以及事先定义好的流程, 可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作 (如备份、杀毒等) , 提高IT运维效率。同时, IT运维的自动化还要求能够预测故障、在故障发生前能够报警, 让IT运维人员把故障消除在发生前, 将所产生损失减到最低。
云时代的IT运维“远景”
“云”的出现, 为金融信息化提供了更加宏大的IT平台, 但随着各个金融机构的业务数据整合成为必然趋势, 这为IT运维质量提出了更高的要求。
云计算是一种把IT资源当作服务提供的手段:几乎所有的IT资源都可以作为云服务提供, 如应用程序、计算能力、存储容量、联网和编程工具, 以至于通信服务和协作工具, 也是大规模扩展、水平分布的系统资源抽象为虚拟IT服务, 并作为持续配置、合理利用的资源进行管理的一种架构。当前, 云计算作为突破性的信息技术和创新商业模式, 能够把数据、IT资源、应用作为服务通过网络提供给用户。同时, 云计算也能够把大量高度虚拟化的资源管理起来, 构建成一个庞大的资源池, 统一提供服务。
云计算技术着力解决大规模系统的资源整合、管理和调度问题, 在海量数据以及并行处理方面为企业的信息系统构建提供了新颖的解决方案。在运维方面, 云计算技术可以集成方案与策略, 梳理工作流程, 处理复杂事件, 形成资源与服务管理调度机制, 为企业提供高度智能, 高度自动化的系统运维基础。
很多人把“云的运维”抬得过高, 但如果把云落地, 我们实际面对的则是数据中心的运维。因为不论是分布式还是虚拟化, 这些链路、网络设备、服务器、存储、软件、数据库都要放在云端, 即数据中心。
经过调查发现, 很多政府行业的信息中心都在尝试利用虚拟化整合方式, 来提供更大业务系统容量和整合迁移问题。但是这些数据中心由于缺乏配套的IT运维流程管理, 以及对云中的基础设置缺乏统一监控, 不但使得数据中心的运维成本降不下来, 反而增加管理难度, 服务品质也无法得到保障。
通过实施云计算IT服务管理, 可以在压缩IT成本的同时提高效率, 创造比过去更多的IT价值。从长远的角度来说, 可以给企业整体带来了运维管理制度的改革, IT服务管理的价值就会随着企业IT规模的发展而日益体现出来。很多时候, 企业为节省成本, 会放缓建设大规模的网络基础设施的IT项目, 将更多的资金和力放在充分发挥现在IT资产潜能上, 提高现有IT投资回报率。而要实现这一目标就可以通过IT服务管理来提升管理效率, 同时减少IT运维管理人员, 因此云计算IT服务管理是实现高水平IT运维管理的重要手段。
运维管理自动化 第3篇
1 配电自动化系统运维管理现状
(1) 厂家众多, 运维人员工作量大。 在当前设备统招及物流分配方式下, 存在同一地区同一类设备多个厂家按配额分配的情况, 致使自动化设备厂家及产品类型众多, 各厂家指示面板、维护平台均不相同, 一定程度上加重了配电自动化系统运维的工作量及工作难度。
(2) 未专门设置配电自动化运维部门, 运维职责不够清晰。 目前对于配电自动化系统运行维护尚未形成规范, 相关运维人员编制及职责也无规定。 在配电自动化系统规模较小时, 可通过人员兼职和设备厂家保修期内维护实现基本运维需求, 但随着系统规模的逐步扩大, 迫切需要设立相关专职部门或人员进行运维。
目前东莞仅针对主网系统的一次、二次、通信、主站设置相应的运维部门, 人员编制只能满足主网系统的运维。 配电自动化具有点多面广、地点分散的特点, 现有人员根本无法满足配电自动化系统维护检修需求。
(3) 运维人员无法满足自动化系统运维管理要求, 设备故障不能及时修复。 配电自动化系统建设及运维涉及通信、自动化、计算机等专业, 目前运维人员的专业构成上缺乏相应配套。
(4) 主站系统功能不完善, 难以发挥配网自动化实际应用价值。 现有的主站系统OPEN3200 系统功能未能完善, 仅实现提供WEB浏览服务的历史告警功能、终端在线情况查询, 对于配网运行最重要的接线图、 挂牌、“四遥”功能均无法使用。
2 改进措施
(1) 完善配电自动化设备采购流程。 在不违反相关管理规定及流程的前提下, 以各分局为单位整合产品类型及设备厂家, 尽量实现一分局一厂家的理想状态, 既方便施工组织, 同时可减少备品备件和后期运维工作量。
(2) 明确设备运维分工, 提高设备终端在线率。 选取典型分局试点建立相关运维机构及管理规范, 初步提出以下构想。
①将配电自动化系统分为主站、通讯、终端3 部分, 主站系统由调度负责, 通信部分由通信部门负责, 终端部分由分局运维班, 生产设备管理部作为总牵头部门。 通过竞岗及组聘方式, 搭建涵盖电气工程、自动化、通信专业人员的配电自动化运维班。 通过专门的配电自动化操作及运维管理培训, 以及购置相应的通信及配电自动化方面的专业测试仪器, 实现配电自动化系统日常运维。
②采用外委模式, 将配电自动化通信、终端维护工作整体外委。 具体有以下2 种方案:方案一为外委代维公司开展日常巡视、故障查找确认及故障设备维修3 项工作。但由于配电自动化设备种类多、厂家多, 代维公司自行维修成本高, 维修费用亦无法包含在代维费用中, 因此方案较难实现。 方案二在方案一基础上扣除故障设备维修工作, 仅包括日常巡视及故障查找确认工作。 其中日常巡视主要为按规定开展定期巡视及缺陷检查, 故障查找主要为主站发现终端掉线时进行故障查找及确认, 后续维修工作转由专业部门或设备厂家处理。 此方案对代维公司要求较低, 外委费用较少。
③修订调度管理规程, 调整值班制度, 加强遥控操作应用。 按照目前的运行规程, 操作开关时需一人操作一人监护, 而分局的配网监管员为单人值班, 单人进行遥控操作视为违规。 为推广应用遥控功能, 应将配电自动化系统功能修编相关规程, 将分局配网监管员由单人值班改为2 人值班, 实现“双机双控”的模式 (即操作时操作人员在一台工作站登陆将开关编号输入, 监护人员在另一台工作站登陆确认) , 以满足相关规程要求, 实现遥控操作, 并确保配电网系统安全运行。
3 结束语
运维管理自动化 第4篇
1 电力信息系统运维管理自动化中的问题
1.1 管理模式不科学
目前, 我国在电力信息系统运维管理自动化中仍然采用多头管理的管理模式。在多头管理模式下, 电力信息系统运维管理工作中会针对电力企业的不同需求分别部署工作, 经常出现管理重复或管理疏漏的现象, 导致电力信息系统运维管理局面较为混乱。电力信息系统运维管理的相关工作人员工作难度系数不断加大, 工作任务量增多, 也在一定程度上增加了电力企业的人力成本, 不利于电力企业成本的控制管理。因此, 在实际工作中, 要最大限度地将电力信息系统运维管理系统中独立的设备按照规范化、专业化的程序集成为一个有机的自动化运维控制管理平台, 提高电力企业运维管理的工作效率。
1.2 运维服务较被动
在电力信息系统的运维服务实际工作中, 存在运维服务管理主动性相对缺乏的现象, 经常出现电力信息系统在彻底损坏之后再进行维修保养的情况。在电力信息运维管理系统中, 服务理念相对落后, 不能从根本上及时避免电力企业安全事故的发生。如果出现机械设备和信息系统的损坏, 将给电力企业带来较大的经济损失, 增加电力企业信息系统的运维管理成本。因此, 应该尽快转变电力信息运维管理的服务理念, 形成以“预防为主、治理为辅”的服务理念, 提升运维效率。利用自动化运维管理平台, 逐渐改变电力信息系统在运维管理方面的管理方法, 使其具有良好的可行性和通用性, 不断提高管理质量水平。
2 解决措施
2.1 系统运维管理团队的集中式建设
在电力企业信息系统实际运维管理工作中, 要针对运维管理效率低下、管理成本相对较高的特点进行电力信息系统运维管理团队的集中式建设管理, 实现信息系统在运维管理上的集中化。根据建设的集中化运维控制平台, 对运维管理工作进行专业化管理。将电力信息系统运维控制管理服务中所需要遵循的规范化程序和要求导入到运维自动化控制平台中, 实现信息系统中数据信息的科学化, 从而确保电力企业信息系统运维服务的合理化。
2.2 加强呼叫中心的规范化建设
呼叫中心是电力企业信息系统运维管理的开始环节, 在实际工作中, 呼叫中心需要通过与系统用户面对面沟通来受理客户的部分问题。因此, 呼叫中心的建设管理水平直接影响到客户满意度, 关系到电力企业信息系统运维管理工作的质量。要加强运维控制管理系统呼叫中心的专业化建设, 不断加大培训力度, 对运维管理的服务标准进行事前规划, 将客户反映的问题准确无误地传达给技术维修部门或二级厂商, 然后按照正常程序进行处理, 保障电力信息系统呼叫中心的实际服务质量。
2.3 完善安全监视功能
在电力信息运维管理自动化系统中, 需要完善安全监视功能, 基础性的运维管理工作需要监管平台的支持辅助。运用监管平台展示出直观的运维管理界面, 界面中将呈现出整个IT资源的运行情况。利用不同角度的视图界面, 辅助电力信息运维自动化系统中工作人员对系统运行性能进行准确评估, 尽早发现电力信息系统的故障, 最大限度地排除安全隐患。在运维管理监管平台中的数据信息展示层, 可以准确地看出相关的警告信息数据和多种多样的监控视图, 包括主机管理监控视图、网络拓补管理监控视图、应用系统管理监控视图、任务管理监控视图和故障管理监控视图等。
2.4 运维管理知识库的规范化搭建
在电力信息运维管理工作中, 运维控制管理知识库的完善搭建是其关键的工作环节。可以利用标准的运维知识库实现运维管理各功能模块的全面上线, 并在大力推广应用的基础上, 实现电力企业各个信息系统之间的资源共享, 不断强化运维管理知识库的储备管理, 增强电力信息系统运维控制管理队伍的综合素质, 提升工作人员的运维管理能力。在实际工作中, 不断积累运维管理的典型经验和管理技巧, 并对这些技巧和经验进行整理加工, 提高运维工作效率。运维管理知识库在一定程度上相当于一个信息发布的规范化平台, 电力信息运维管理的工作人员可以定期发布与运维管理有关的数据文档, 构建完整的由点到面的运维知识管理体系。
3 结束语
总而言之, 随着现代化科学技术水平的不断提高, 信息技术的迅猛发展在一定程度上带动了多个行业的进步发展。在电力行业中, 要想提高电力企业信息系统的运维控制管理水平, 就要建立一个规范化的电力信息运维管理自动化平台, 规范电力信息系统的运维管理程序, 及时发现问题, 采用科学的运维管理手段和管理方法, 排除电力信息系统故障, 确保整个电力信息系统的平稳运行。
摘要:在社会发展的新形势下, 电力企业要想在激烈的市场竞争中处于不败之地, 就要转变管理理念, 采用先进的管理手段, 建立健全智能化、科学化和自动化的电力信息运维管理系统, 提高电力企业的信息化水平。就电力信息系统运维管理的自动化展开详细论述。
关键词:电力信息系统,运维管理,运维服务,知识库
参考文献
[1]温超.电力信息系统运维管理自动化解决方案[J].山东电力技术, 2012 (01) :77-80.
运维管理自动化 第5篇
1.1 物联网结构
在物理世界中,各种实体相互融合贯通,物联网作为一个以传感器网络和RFID应用技术为基础的互联网络,进一步实现了物理世界的互通。
物联网的实体结构中,包含了各类传感网络、通信能力设备以及网络连接的其他无线电子设备等。在服务协议的相互炼铜过程中、操作流程中,web协议是一种常用的实体通信方法和协议构成方式。在此类方法的支撑下,接入到物联网实体的通信方法都能提供力所能及的服务、并且可以被蒸菜操作状态的web形式进行封装,在接下来的服务器信息注册管理中,此种协议的优势更加明显。通过查询web服务器的终端信息,在实体信息查询中依然可以完成注册储存的关键信息定位和通信查询。
1.2 物联网语义建模
物联网是一个以服务计算和测量为基准功能而架设的全新网络。因此,物联网的语义建模主要针对对象为各类服务模型的基础建模。进一步的,在物联网的服务实体信息中,大量资源的嵌入式设备被应用。传感器节点、传感器网管监测节点等等。在有限的计算机能力、有限的架构等因素制约下,SOAP的Web服务对这些实体服务进行了封装。因此,基于物联网的自动化运维管理系统服务都以构建物联网服务为基础。
2 自动化运维管理系统现状
2.1 自动化运维及软件产品现状
信息时代的进程不断加快,运维技术已经是公司信息部门中,不可或缺的组成部分,自动化运维管理的基本要求,不是保证故障的触发率及故障后的修复率,更高的要求是积极的产品应对能力。
公司业务不断扩展,业务涵盖面越来越广泛,顾客的需求层次更加多样化,对自动化运维的要求也越来越高,这对于自动化运维的运行模式提出了更高的要求,迫切需要一套完整的能力保证服务能够完善的运行,曾经依靠人力的系统已经难以满足现代系统的广泛要求,从长远的角度讲,存在着较大风险。
随着云计算、虚拟化技术的深层次发展,系统架构从初期的影像发展到数据中心乃至云架构,单靠人工工程难以满足在技术、业务、管理等方面的要求。标准化、自动化等降低IT服务成本的因素越来越被重视;其中,自动化是基本的需求和应用。
运维从诞生发展至今,自动化管理系统作为重要属性之一的意义,已经不仅仅只是代替人工操作流程的中心意思,更重要的是全局分析甚至是改变业务模式。在实现性能和服务并驾齐驱的同时,保证收益的最大化和产出平和,体现了运维投入支出效果的平衡;自动化对运维的深层次影响,不仅是人和硬件的关系,他已经影响到了客户服务驱动的深层次层面。运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。
因此,运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。总之,自动化可以被看做是运维最高层面的重要属性之一。
2.2 自动化运维常见的解决方案
Salt Stack、Cobbler、Func、Pupet等,是自动化运维常见的解决方案,这些方案主要集中在基础架构层,并且较为典型。Saltstack是一个具备puppet与func功能为一身的集中化管理平台,他是基于python实现的,以消息队列进行通信模式。这样的平台可以高效维护成千上万台服务器。在经过调整可以支持网络安装windows的Cobbler,是一个快速网络自动安装linux服务。该工具使用python开发,小巧轻便(15k行代码)是他不可或缺的特征,简单的命令即可完成PXE网络安装环境的基本配置,同时还可以管理DHCP,DNS,以及yum包镜像。
3 运维管理的技术应用分析
从目前网络的发展来看,以太网主要分为三种结构,分别为同电缆以太网、双绞线以太网、同轴电缆和双绞线合成以太网。这三种结构是以太网的主要形式。美国的BIM公司和IT公司共同创造令牌环网,他具有优先权控制机制,能够适应较高需求的网络,满足网络传输需要,提高网络传输质量。目前来看,令牌环网已经成为了局域网的主要发展形式之一,对网络系统提供的支持比较突出。
4 结语
本文对自动化运维管理系统的应用分析进行研究,结合转融通平台运维特点以及闭环反馈控制理论提出了带有反馈的着色时间的网建模方法,本文在设计和实现转融通平台自动化运维管理系统的过程中,通过认真收集、研究转融通平台运维的操作特点、注意运维人员需求等,在借鉴运维实践经验的基础上,完成了自动化运维管理系统核心工作流的建模以及系统设计,实现了转融通平台在开市前自动定时重启、结果展示、运行情况查看等功能,同时具备了系统安全访问控制、安全操作时间窗口设置等功能,以避免误操作对整个证券市场带来的灾难影响。由于时间和技术水平等条件的研制,进一步研究各项技术在系统建设的需求分析阶段的应用还需时间考究,此外,实现的转融通自动化运维平台管理系统还有一些需要完善的地方。
摘要:物联网技术在更新换代的过程中,自动化运维管理系统,作为信息技术领域重要的基础设施建设,得到了广泛的应用。特别在传感网络提供实时感知的过程中,为相当范围内的智能应用提供了充足的信息支撑和完整的决策凭证。但是,在只能应用的实时感知过程中,信息无法转变为简单的请求和传感底层的精准匹配,物联网智能决策往往无法获取到精准信息,那么,基于物联网的自动化运维管理系统的技术应用分析就显得尤为重要。
关键词:物联网,模型,自动化运维
参考文献
[1]陈相吉.未来计算机与计算机技术的发展[J].法制与社会,2007(10).
[2]蔡芝蔚.计算机技术发展研究[J].电脑与电信,2008(02).
运维管理自动化 第6篇
长期以来,河南省空气自动监测站由各地市监测部门负责,针对河南省空气自动监测站站点多、分布广、监测技术力量不足的特点[2],在参考国家和外省经验的基础上,结合自身实际情况,河南省设立省管城市空气质量监测直管站(以下简称“省直管站”),在省直管站实施第三方运维管理模式。采用这种管理模式,不仅可以通过第三方运维解决部分地市在空气站运维上人力物力的缺口,省市两级监测部门也可以集中做好空气站的质控管理和数据分析工作,充分发挥空气自动监测数据在环境管理中的作用。
本文以河南省省级空气自动监测直管站的运行管理为实例,结合河南省省空气直管站的运行情况,对第三方运维管理模式的内容、成效及存在问题等进行了探讨,以期对国内空气自动监测站的运行提供参考。
1 第三方运维管理模式的主要内容
1.1 基本情况
2015年,河南省通过公开招标,先后上收了91个空气自动站,确立了两家运维公司。第三方运维公司负责空气站日常运行维护,按照合同要求进行设备管理、子站巡检、日常维护、故障解决等;省级监测部门负责空气自动站的考核,通过制定制度、抽查监督等方式,充分调动第三方运维单位的积极性,从而保障空气站的运行效率和数据质量,主要运行管理涉及的环节见图1。
1.2 职责确定
第三方运维公司职责:负责省直管站的日常运行维护及数据初步审核,保证省直管站稳定正常运行,达到相应的技术标准;建立质量保证实验室和系统支持实验室,并按国家和省里要求开展质控工作,包括颗粒物手工比对和臭氧传递工作。
直管站所在省辖市、省直管县(市)监测站职责:负责省直管站数据审核工作。
省环境监测中心职责:负责对第三方运维公司的日常监管及技术指导,制定考核措施和细则,负责对运维公司进行考核。
2 第三方运维管理模式解决的问题
通过第三方运维的管理模式,解放了地市监测站的管理压力,解决了空气站运维过程中存在的一些问题。
2.1 维护技术力量有保障
第三方运维管理模式在机构设置、人员配置以及制度建设三个方面对运维公司提出明确要求,保障了运维力量。(1)将运维的空气站按照区域建立空气站维护中心,同时在省会城市设立质控实验室和系统支持实验室,并建立备品备件库。(2)配备8套PM10/PM2.5手工比对采样器和5套空气自动站备机。(3)配备数量充足的专业运行维护人员和车辆,每两个站不少于1人,每四个站配备一辆车,运维人员应持证上岗。(4)根据国家和省相关规定,建立空气站运行管理制度和操作规程。
2.2 仪器设备维护有保障
第三方运维管理模式明确了运维公司承担空气站仪器设备日常运行维护,同时要求运维公司根据合同约定内容开展空气站日常的仪器校准、易损件更换、耗材更换、故障维修、管路清洗、颗粒物手工比对等工作,产生的相关费用全部纳入合同约定的运维经费中。此外,每日上、下午至少四次远程实时监控数据,每周至少开展一次现场巡检,并做好各项记录备查。因此,这种管理模式不仅保障了仪器维护频次和质量,也降低了仪器的维护费用。
2.3 数据质量有保障
数据监控是判断空气站是否正常运行的重要方式[3],根据第三方运维管理模式明确的职责,运维公司设置专人通过空气平台定时查看空气站监测数据,根据数据变化趋势判断仪器是否运行正常,并填写记录,一旦发现数据异常,则马上派人前去检查处理,并于每天早上9:00之前将前一日运维情况和数据初审情况书面发送至空气站所在监测部门,由地市监测站技术人员进行数据终审,最大程度保证空气自动监测数据审核的规范性和有效性。
2.4 应急响应有保障
根据第三方运维管理模式的要求,运维公司应配备充足的机动车辆,平均每4个空气站配置不少于1辆车,区域中心到所维护空气站车程一般不超过2 h。同时,省级监测部门日常通过专用平台对空气站数据进行实时监控,一旦发现异常即通知运维公司,运维公司进行现场仪器核查或开展颗粒物手工比对工作,确认仪器状况并判定数据是否真实有效,并排除空气站周边情况,若发现空气站1 km内有污染源或其他影响空气自动监测数据的情况,则第一时间通知省市级环保部门,相关部门及时采取措施,确保空气自动监测数据的准确性。
3 第三方运维管理模式的成效
自2015年2月河南设立省直管站,实施第三方运维管理模式以来,各地监测数据和公众实际感官基本相符,对于保障仪器设备良好运行,保证监测数据真实可靠发挥了很好的作用。
3.1 推动各省辖市提高其它站点的数据质量。
对省级空气站实行第三方运维管理模式后,统计结果显示,省辖市空气自动站整体运行情况良好,设备运行率和数据有效率有所提高,2015年全省第三方运维空气站的平均设备运行率为96.9%,数据有效率为96.6%,高于2014年同期水平。
3.2 推动全省开展颗粒物手工比对和臭氧量值传递的工作
颗粒物手工比对和臭氧量值传递这两项工作在河南省开展较少,基础力量比较薄弱,也是近年来国家比较重视的工作,特别是环境空气质量新标准实施后,PM2.5和臭氧也将纳入环境质量考核体系。通过在省直管站开展这两项工作,积累了经验,引起了各省辖市的高度重视,并逐步在其它站点开展了这两项工作,对保证全省空气自动监测数据准确可靠起到了很大的推动作用。
3.3 减轻了地方环境监测站的压力。
通过设立省直管站,由省级监测部门对空气直管站直接管理,可以有效的掌握省直管站和其它站点的浓度差异,当省直管站数据和其它站点数据差异较大时,省中心及时安排飞行检查,查出原因,仅2015年上半年省中心进行飞行检查25次,对省直管站点检查33次,在客观上减少了环境质量管理中的行政干预,减轻了地方环境监测站的压力。
4 第三方运维管理模式存在的问题
虽然第三方运维管理模式能有效保证空气自动站的设备运行率和数据有效率,但是通过考核、现场巡查以及对空气站运行情况分析结果发现,目前空气站第三方运维管理中依然存在如下主要问题:
4.1 第三方运维能力有待加强
第三方运维公司多为仪器生产厂家或售后,对本品牌的仪器较为熟悉,河南省各省辖市、省直管县空气自动站涵盖多种品牌,对所有仪器故障做到准确判断、及时处理,需要一定时间的熟悉过程和经验积累,要求运维公司必须加强培训,熟练掌握不同品牌仪器的操作维护,提高空气站监测分析仪的运行效率。另外,省直管站刚交接时,运维公司存在人员不足或分配不当的情况,在多个站点出现故障时,不能及时解决。
4.2 质量保证有待加强
第三方运维公司多对仪器原理、维护维修比较熟练,但对国家标准、制度了解较少,对质控措施和量值溯源重视不够,为保障空气直管站数据准确,要求各运维公司学习国家与河南省发布的与空气自动监测相关的标准、规范、制度等,并要建立质量保证和系统支持实验室,配备质控设备、颗粒物手工比对仪器等设备,建立配套的管理制度,做好直管站仪器的标准传递、性能审核、流量传递、颗粒物手工比对和臭氧传递工作。
4.3 信息反馈不够及时
运维公司刚开始仅注重空气站的运行维护,忽略了对仪器维护、维修、校准过程的信息反馈,信息反馈的具体、真实、及时性方面达不到要求,数据审核人员难以及时了解人为造成的数据偏移,如维护过程、关机过程等,影响监测数据的准确性。
5 结语
自动监测网的运行管理只有专业、规范、系统,才能提高监测分析仪器的运行效率和质量[4]。空气自动监测第三方运维作为一种专业化的管理模式,是空气站运行管理的主流发展方向,这种运行与监督分开的管理模式,有利于提高自动监测工作的质量,降低监测成本,可充分发挥空气站的实时监控和预警监视作用,实现经济和社会效益最大化。虽然在实际运行中还存在问题,有待进一步完善,但总的来看,空气站第三方运维管理模式是一种操作性强、科学且先进的管理方法。
参考文献
[1]王海芹,苏利阳.环境空气质量监测体制改革的对策选择[J].改革,2014(10):136-142.
[2]邢梦林,张军,郑瑶,等.2006年河南省环境空气自动监测系统运行现状分析[J].环境科学与管理,2007,32(11):129-131.
[3]姚玉刚,朱燕玲,邹强.环境空气自动监测子站运维管理研究[J].环境科学与管理,2013,38(3):5-8.
运维管理自动化 第7篇
近年来,互联网上颇多病毒的爆发、肆虐及蔓延,使得整个IT行业均已认识到对于终端以及服务器管理的重要性。随着Linux系统及虚拟化技术的诞生和发展,运维自动化的生态环境也随即改变,从仅面向单纯支持Window系统的PC设备,延伸拓展到现如今的面向用户、面向业务的各类设备。
运维自动化系统通过集中管理服务器信息、提供流程化的业务操作,帮助运维管理、操作大批量的服务器,将日常繁琐、重复、价值低的工作简化为分体独立、且真实可见的流程,因而能极大地提高运维的工作效率,减少人为故障的发生[1]。特别地,当故障发生时,能够推动运维更快地解决问题,使设计服务尽快恢复正常运行[2]。
1 技术简介
1.1 Django简介
Django由Kansas州中的一个网络开发小组通过使用Python编撰开发而成,主要采用了MVC的软件设计模式。Django注重组件的重用性和“可插拔性”,敏捷开发和DRY法则(Don't Repeat Yourself)[3]。
1.2 Ext JS简介
Ext JS是一个利用Java Script进行开发而成功推出的前端框架,通常使用Ajax与后台来建立通信[4]。Ext JS是一款典型的Web富客户端框架,提供了多种控件以实现各种各样的功能。
2 系统功能设计
本运维自动化系统由9个模块组成,可分别描述为:首页、项目管理、服务器管理、脚本管理、执行账户管理、脚本执行、常用流程、新建流程和执行历史[5],如图1所示。具体地,系统组成中各模块的功能实现可给出如下设计论述。
2.1 首页模块
本模块用于展示业务的主机数、常用流程数、以及任务执行概况,帮助用户准确把握业务的整体情况。
2.2 项目管理模块
该模块仅针对管理员才有权使用,完成对业务和普通用户的管理,可实现新增业务、删除业务、新增用户、删除用户等操作。
2.3 执行账户管理模块
执行账户决定了任务执行时的权限,是任务在服务器上的执行身份。本模块用于管理执行账户,主要功能包括用户可新建和删除执行账户名。
2.4 服务器管理模块
本模块提供对服务器信息的管理功能,管理员通过该项功能控制普通用户对服务器的访问权限,以最大限度地保证服务器的运行安全。模块功能主要包括:
1)用户新增、修改、删除服务器信息;
2)管理上传服务器的机房、公网IP、内网IP、管理网IP和所有者信息;
3)管理者设置用户的服务权限;
4)拥有服务器权限的普通用户可增加、修改服务器的描述信息。
2.5 脚本管理模块
本模块用于对脚本实施管理,普通用户仅能查看、修改和删除用户自身创建的脚本,而管理员则能够管理所有的脚本。
2.6 脚本执行模块
本模块的设计是为了方便用户临时执行一个脚本,该脚本内容不会被记入保存。若脚本需要传入参数,可通过输入脚本参数而给出设计实现,指定执行账户以及选择目标服务器,执行脚本。
2.7 新建流程模块
本模块主要提供新建流程功能。在创建流程完成后,可选择直接执行流程,流程不会特别保存;或者选择保存流程,而后在常用流程模块中查看、执行该流程。
2.8 常用流程模块
本模块功能主要分为管理流程和执行流程,普通用户有权管理、执行其名下配置的流程;管理员可以管理所有已保存的流程。具体分述如下:
1)管理流程。用户可查看、修改、删除自己创建的流程,但正在执行中的流程不能获得删除;
2)执行流程。用户可指定某个流程执行。
2.9 常用流程模块
本模块主要提供查看执行详情功能,执行历史分为2类,即:脚本执行历史和流程执行历史。
3 系统数据库设计
系统的数据库总共包含12张表,如表1所示。
4 系统界面设计
系统设计的各类主要页面分别有登录界面、首页界面、账户管理界面、脚本编辑界面、流程界面和执行历史界面等,下面则以首页界面和管理界面为例对界面设计展开阐释说明。
4.1 首页界面设计
系统首页界面如图2所示,该系统界面采用了border布局。
1)north方向是一个工具栏,显示了本系统的名称和当前登录用户,同时还有一个当前业务的下拉选择框,用于确定当前操作的执行业务;
2)west方向是一个树形菜单,除了首页,其他菜单都至少还设计有一个子菜单;
3)center方向是首页展示的内容。对于其他界面来说,center方向是其他的内容,但是north和west方向界面则是固定的。
4.2 管理界面设计
管理模块的界面设计如图3所示。由图3可知,搜索框处于上部,而下部是内容的展示框,展示全部的或者查找到的内容,中部将根据不同管理模块的输入要求而各显不同内容。
5 系统测试
5.1 测试环境
服务器端:操作系统Cent OS7,软件Python2.7、Django1.9、My SQL5.6、Nginx1.8、u WSGI2.0、Memcached1.4、Celery3.1、Redis3.0。
客户端:操作系统Window7、Chrome浏览器。
5.2 测试用例
本节以服务器管理测试和脚本管理测试为例,简要介绍了本系统主要应用的部分测试用例,测试结果如表2和表3所示。
5.3 测试结论
通过5.2的测试可知,本系统可提供有效的权限隔离,而针对不同类型的用户,则将提供相应的业务内容权限,进而保证证了了信信息息管管理理和和任任务务执执行行的的安安全全。。
6 结束语
基于Django的运维自动化系统选用了B/S模式,对用户的输入进行了严格的过滤,同时在权限上实现了业务和服务器权限的划分,由此保证了用户创建的服务器、脚本、流程信息和任务执行的安全性。系统设计的脚本和流程,能够帮助运维完成大多数的日常工作,达到了系统的设计目标,并将在日后使用过程中予以不断地拓展完善,研究下一步还将为本系统增加初始化服务器功能和故障报警功能[5]。
参考文献
[1]毛承国,张卫华,张进铎,等.大规模集群运维自动化的探索与实践[J].信息安全与技术,2014(2):60-62,73.
[2]宋义华,班孝明.IT应用运维自动化研究与应用[J].网络安全技术与应用,2014(9):224-225.
[3]刘班.基于Django快速开发Web应用[J].电脑知识与技术:学术交流,2009,5(7):1616-1618.
[4]陈道鑫,宋绍云,袁中旺,等.Ext JS框架在Web软件开发中的应用[J].电脑知识与技术,2011,7(9):2044-2047.
[5]王大东,刘竞遥,侯锟,等.基于Web的计算机考试系统设计与实现[J].吉林师范大学学报(自然科学版),2013(3):45-47.







