应用系统运维管理采用的战略

 

                                                          
    面对种种挑战,简单部署一些监控软件不能满足用户的需求。那么,在新的 IT 环

境下,应用运维管理应该采用什么样的战略呢?尽管各行业的应用架构和业务内容不尽相同,

但是根据业界通行的管理经验、实际的应用情况和方案的可操作性上看,应该至少关注以下

三个方面:

1.  运维广度

    既然应用系统主要由应用底层的基础架构和应用系统本身构成,他们的运维管理,就必

须要覆盖这两个层面的不同技术组件,这就是我们所说的运维广度。运维管理就像弹钢琴,

也要统筹兼顾,重点突出。

    打个比方,应用系统就像一座金字塔,我们通常关注的,是最上层的应用,底层的支持

系统,包括网络、主机、操作系统、数据库、中间件、防火墙等等,隐藏在应用的背后,以

不同方式,时刻影响着应用的运行。全面的运维管理方案,需要能够充分地支持,或者涵盖

应用系统背后的不同技术组件,减少管理死角。 同时,能够对新型大规模应用中的异构平台

进行统筹兼顾的管理和分析,是当前应用管理的一个重要需求。

    当然,再全面的管理方案,也不能包揽所有技术平台和来自不同厂家的技术组件。每个
客户的每种应用,也都或多或少地存在一些不同的地方;随着应用生命周期的变化,也会存

在升级换代后的新需求。成熟的应用管理方案,要具备足够的定制扩展能力,既满足了用户

的客户化需求,又要拥有充分的扩展空间,随着用户业务和应用收放自如。

2.  运维深度

    运维管理的成果,体现为管理工作所实现的服务等级协议(Service   Level   Agreement,简

称“SLA”),这是考核企业应用管理的一个重要的量化指标。实际管理工作中,面向整个

应用进行管理的 SLA 指标,会被层层细化,映射成针对不同技术组件的管理目标,分别加以

管理。这个过程包括以下几个方面:

   2.1 运行状况的全面把握:这是应用运维管理的基础。只有实时把握应用的运行状况,才
      能更加积极、主动地利用和协调资源、提前制定和采取应对措施。马车跑的快,既要
      马好,车好,还要有个好车夫,谁也不能拖后腿。应用性能有问题,要先看在哪个环
      节卡的壳。网络、主机、数据库、中间件,包括 SQL 语句,都可能是问题的起因。
  2.2 问题的快速定位和深入分析:厘清责任,只是第一步,接下来还要落实问题的类型、
     根源、严重程度和解决办法,再通过相应的技术手段,加以解决。对关键应用而言,
                                                              Internal Partner Win Story
     快速定位问题,及时找到应对措施,是非常重要的。正是由于这样的原因,管理人工
     作中的快速分析、深入挖掘和及时的解决问题机制,就非常重要。不仅要求配置适当
     技能的管理人员,还必须有适用的管理工具和管理机制加以配合,才能实现有效的运
     维管理。

    需要注意的是,管理工具的选择,要在功能覆盖和挖掘能力之间达到均衡。只有这样,

才能在满足日常定期检查需求的同时,又提供足够的问题诊断和问题解决能力。

3.  运维高度

    运维高度是指在意识上对运维管理要有足够的重视,并且在系统建设和实际管理工作中,

通过运维管理规范和运维管理流程、运维管理机制的建立和执行,将其落到实处。运维规范

和管理机制的建立及完善具有一定的难度,也需要一定的周期。只有在建设阶段,就充分估

计到未来的运维管理挑战,才能及早规划,提前协调,确保关键应用在整个生命周期之内都

得到良好的管理。

    运维管理规范的建立,应该考虑以下因素:

   3.1 应用复杂性及其多样化的运维管理需求。不同的应用系统,在管理过程中的需求是不
     一样的,管理工作的复杂性也大不相同。电子商务类应用对系统的宕机时间非常敏感。
     计费和分析类应用则非常重视应用的处理性能。同样,在线银行和支付系统集中了安
     全性、运行性能、同步处理能力和应用升级变化速度较快等多种管理挑战。运维管理
     规范的制订,以及管理工具的选择,要恰如其分地反映机构身的应用特点,同时又具
     有一定程度的前瞻性。

   3.2 运维人员的职责和分工。随着企业和机构的信息化建设不断深入,运维管理工作也更
     加规范,需要更多的专业化人员,参与到系统、完善的管理工作中来。根据不同职责
     和管理内容,对运维人员进行分工,有助于提高管理工作的效率和专业化程度,改进
     知识积累和知识共享,使问题解决的过程更具有针对性。

   3.3 故障处理流程的建立。故障处理流程是专业化运维管理的一个重要内容,是快速消除
     系统故障、降低资源浪费、提高管理工作规范化和改善知识积累的有效途径。故障处
     理流程往往包括问题的发现、告警和提交过程;问题处理及问题解决过程;问题解决
     后的反馈处理、知识积累和共享机制等。通常情况下,故障处理流程是系统维护人员
     与系统用户的接口,通过人工、电话、Web  或电子邮件渠道授受用户的请求,又通过
     后台的问题处理系统,将管理任务分发给系统管理员、DBA  或其它开发维护小组加以
     解决。

   3.4 应用巡检及健康检查制度。应用管理中要建立定期的巡检和健康检查制度,防患于未
     然,有效保障系统的稳定运行。巡检包括对系统配置、版本和可用资源等的例行检查,
      以及系统关键运行指标的考查,巡检过程有利于发现应用系统中潜在的各种问题,提
      出相关的解决和优化建议。多数企业或 IT 机构虽然对系统巡检或健康检查有一定的要
     求,但只是作为系统管理员、DBA  甚至应用开发小组兼顾的职能,也没有专门的管理
                                                            
     机制和管理工具进行配合,人为因素和偶然性很强,管理工作的强度和业绩也很难考
     核。 只有明确要求,落实到位,才能真正实现粗放经营到精细管理的转变。

   3.5 部署有效的管理工具。欲行其事,必先利其器。管理工具在运维管理中起到事半功倍
     的作用,是实现运维管理自动化、专业化过程中的必要技术保障。工具的使用不仅可
     以有效解放高水平的管理人员,也提供了更强大的数据采集、诊断分析、问题解决和
     系统优化等功能。例如,全天时的应用监控和管理,对管理工具而言,很容易实现;
     但如果采用人工方式,则很容易顾此失彼。

   3.6 优化应用系统。应用系统是一个复杂变化的体系,运维管理工作也不能抱残守缺。随
     着应用的上线使用,用户和数据量不断上升,越来越多的问题会暴露出来。运维管理
     工作的一个重要内容,就是通过不断的优化工作,使系统达到最佳的运行状态,直到
     新应用上线,旧应用被淘汰。
 

Taxonomy upgrade extras: