2009-07-14 08:43:32 来源:IT专家网
因为工作原因笔者经常和企业IT人员打交道,所见所闻中对他们的日常工作应该说非常了解。信息化程度的提高使得IT部门在企业中不可或缺,但因为运维管理跟不上,IT人员成了企业中最忙碌的人,繁重的运维负担让他们疲于奔命,不堪重负。本文和大家分享一下自己在IT运维管理方面的思考和经验,希望能够帮助到你。
1、一个真实的案例
作为某知名物流企业的CIO.刘总负责整个公司的IT服务管理工作。笔者经常看到他每天忙得刘总团团转,甚至连杯水都来不及喝,但还总是被种种问题困扰,节假日还得加班。就这样,老总经常会接到业务部门的投诉:我们的业务员明明将远程配送业务系统问题报障给了网络部。但他们就是推托说网络一切正常不是他们的问题,让我们找系统部。而系统又说是应用的问题,让我们找应用部,应用部说需要设备部先更换硬件才能升级应用程序。我们只好找到了设备部,设备部又说需要网络和系统的配合才能更换配件。就这样我们的问题转了半天没得到解决,耽误了送货时间,用户要求赔偿。
2、IT运维管理势在必行
上面的案例应该说非常普遍,也非常值得我们思考。在业务应用日趋细分化、复杂化的今天。IT建设的迅猛发展,政府机关、企事业单位、学校等,几乎都全部依托于IT环境进行日常办公管理和业务管理。人员和业务流程对于网络及IT设备的依赖度也提高到不可或缺的地步。网络的运维与单位的持续发展紧密相关,稍有不慎就可能会令单位蒙受巨大的损失。因此,IT系统运行的稳定性和健壮性对单位来说,将显得特别重要。特别是对于一些大中型单位,IT设备和信息系统多而复杂,单靠人工管理它们的运行和维护情况己不可能。这样就需要一套切合实际的IT运维管理系统来辅助单位信息中心或信息服务部门进行自动化管理。
3、IT运维中的不良习惯
下面笔者结合自己的见闻和经历,就我们的IT人员在运维中的不良习惯进行一些有益的总结,以供大家杜绝。
(1).治标不治本。IT设施故障往往是突发的、随机的、不可预测、不可控制的。也很难自动提醒和警告。运维和管理人员成天处于高度紧张状况,节假日也提心吊胆。一旦发生故障,往往手忙脚乱来不及仔细多方面观察、分析原因,也无法很快准确定位。为了尽快恢复业务,只能采取重启、清除等不可回朔操作。这种治标不治本的维护措施,不能根本解决问题,类似现象仍然可能再发生。
(2).没有排错记录。我们的很多IT人员没有排错记录的习惯,这样当事后查找原因缺乏当时记录,就算找到点痕迹也缺乏进一步分析数据。因为故障不能再现,很难有准备地捕捉有效信息。而要在生产环境模拟故障业务几乎不允许。开发环境又很难模拟和再现。少量片面的系统日志很难看出问题症结,缺乏自动实时捕捉问题关键点并忠实记录工具。造成问题发生后无法回朔,问题解决无法找到头绪。
(3).缺乏统一的规范要求。出现同题时解决办法因人而异,缺乏方法和工具,无法制定统一的规范要求。在专家解决问题的经验缺乏记录、整理、积累和继承。从保障稳定看,必须高价保持足够专业运维人员。工作安排松了不利于人员发展和稳定,但安排太紧又无法保证及时响应和解决问题。
(4).应对危机太被动。对反映的问题和解决状况缺乏统一管理和跟踪,全靠个人素质和责任感。无法衡量、统计员工的业绩贡献,也无法发现哪些问题最影响系统稳定。造成问题的因素是在积累还是在减弱,更缺少预警提醒机制。只能被动无序地等问题发生甚至很严重了才意识到。
4、IT运维管理的内容
笔者理解,IT运维管理是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。如果进行细分的话,应该包括以下几个方面:
(1).设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;
(2).应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理。如邮件系统、DNS、Web等的监控与管理;
(3).数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
(4).业务管理:包含对企业自身核心业务系统运行情况的监控与管理和对于业务的管理;
(5).目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理:
(6).资源资产管理:管理企业中各IT系统的资源资产情况;
(7).信息安全管理:企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
(8).日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
5、IT运维管理方案
在以上内容的基础上,笔者提供一套IT运维管理的解决方案,以供大家借鉴。
(1).建立IT运维管理服务平台
IT运维管理服务平台帮助IT部门内部各专业部门以单点联系窗口的形式对外服务,业务部门不必了解IT部门内部的运作流程。只需将故障报告给 IT部门服务窗口的一线服务台人员即可。由一线支持人员对故障进行分类以电子工单方式派发到相关的专业部门或相关人员处进行及时处理和响应,并向用户及时进行反馈。用户对不同专业部分的咨询、问题和投诉都通过该窗口进行,以避免用户与各级支持人员直接联系带来的种种弊病。如出现不同问题找不同支持人员、找不到人、问题得不到及时反馈和解决等等现象。
(2).实现IT监控和统一展现
面向业务监控和统一展现能够评估各种IT基础设施和服务在设定的某个时段是否发挥其应有的功能,同时实现对网络、系统及应用服务等全方位监控的统一呈现。统一告警平台汇总、压缩和关联各种设备或服务的告警信息,实现统一监控和展现。这样,各专业部门可以协同作战发挥更大的作用。
(3).构建科学、规范的服务流程管理
根据企业的实际组织架构,把故障支持划分不同的类型和等级,形成梯队化的故障处理流程,避免出现资源浪费。并且在每个级别的故障事件处理中,通过自动跟踪机制实现故障的自
动跳转和升级,从而确保不同紧急程度的故障得到及时的响应和处理,帮助企业建立起一套科学规范的1T服务管理流程。企业环境下首次或者突发出现的事件、告警或故障通过事件工单进行处理;而对于多次出现、深层次、临时恢复的告警事件,可通过问题管理进行解决,以便于协调优势资源攻关和彻底解决。通过层次化、标准化、科学化的管理,量化的评估每个技术人员的工作能力,减少了故障对业务的影响,避免出现责任不明晰,响应不及时的问题,提高客户和用资源的使用更加合理。
(4).实施严谨、高效的变更审批流程
为基础设施的变更提供快速的电子通道,减少变更过程中出现管理失控的风险和不必要的人为干扰,缩短审批时间,提高变更实施的效率。严谨的变更管理确保在变更实施过程中使用标准化的方法和流程,尽快和有效地实施变更,从而把由于变更所导致的事件对IT服务的影响减小到最低,同时改善了公司的日常运作。它包括一套完整的变更管理功能,包括变更的发起、审批、影响评估、派发实施等功能。以工单的形式在各部门和责任人之间流转。
(5).IT资产配置完善管理
为企业建立完善的配置基线,为企业建立一套详实的配置管理数据库, 小到主机内存、设备端口,大到网络结构、部门或公司的建制,从有形的资产到无形的应用系统、人力资源等都能以电子方式准确记录并长期保存。同时,资产配置管理与服务的事件、问题和变更流程相关联。如变更流程审批完成之后增减的资产配置信息,将自动在资产配置管理数据库中实现同步更新。
对IT运维实施有效管理,不仅能够解放IT人员提高其工作效率,而且也是对企业业务部门的有力支持。最后,希望笔者的经验和案例对朋友们加强IT运维管理有所帮助。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。