数据中心安全:防范胜于补救
来源:金融电子化杂志
金融数据中心作为承载金融业务的重要基础设施,承担着金融机构稳定运行和技术创新的重任。数据中心需要更高效地支持前中后台金融业务和信息共享需求,同时要24 小时不间断地提供服务,这对金融后台数据中心的资源整合、全面安全、高效管理和业务连续性提出更高的要求。
伴随着数据大集中在金融信息化的成功布局,金融数据中心的地位越来越重要。金融数据中心作为承载金融业务的重要基础设施,承担着金融机构稳定运行和技术创新的重任。在金融机构新型客户服务模式下,数据中心需要更高效地支持前中后台金融业务和信息共享需求,同时要24 小时不间断地提供服务,支持如网上银行、电话银行、自助银行、手机银行等多种服务手段,这对金融后台数据中心的资源整合、全面安全、高效管理和业务连续性提出更高的要求。
基础设施动力系统安全不容乐观
当前,我国数据中心发展存在诸多安全风险,尤其是数据中心基础设施。
据ICT research 2014 年2 月提供的数据显示,国内数据中心运行5 ~10 年的已达41% ;从IDC 动力系统检测CNAS 实验室研究的数据来看,关键基础设施的寿命大约为10 ~15 年;据《Standish Group Research》提供的数据显示,数据中心发生事故的原因,动力电源占72.2%,数据中心风险故障,大部分归咎于动力系统问题;IBM 的研究结果表明,48.5% 的数据丢失、宕机故障是由糟糕的电能质量问题引起的,数据中心供电系统安全是普遍面临的问题。设备的老化使得多数数据中心基础设施已到生命周期的末端,但相关业务的快速发展迫使其面临风、水、电等基础设施改造的压力。数据中心安全尤其是动力用电安全,没有得到足够重视,安全控制不能贯穿于数据中心生命周期全过程,只注重于发生风险后的应急控制措施,安全隐患难以得到彻底解决。安全保障缺乏动态循环,不能通过检测、预警、反应、保护、恢复的闭环反馈措施,主动发现和及时消除安全隐患。
在数据中心整体安全冗余考量中,目前最薄弱的就是动力安全,甚至发生动力故障时,都找不到问题的原因。我们长期关注IT 技术实施的先进性和安全性,而忽略了动力安全性(虽然也在做,但考虑得不如IT 设备那么细致)。多数动力部门技术人员甚至都不知道电是有质量的,电的质量会影响数据中心的安全或者设备的寿命等。大数据时代的到来,使我们不得不考虑,越来越庞大的超级数据中心,它的动力安全是否可靠,它的动力运维是否能跟上“超级”。因为规模的庞大一定会需要管理上的变革,原来的运维能力显然是达不到要求的。
灾难事故推进变革
全球业务连续性管理(BCM)的发展依赖于灾害事件的驱动,灾难事件频繁发生促使各国提高防灾意识和推进BCM 管理的主动性。国外发达国家在此领域已有10 多年的发展历史。我国金融数据中心基础设施业务连续性与灾难恢复建设刚刚起步,基础设施运维管理缺乏专业的监测技术,基本依靠人工值班及巡检和环控系统,简单集成各类数据中心设备通讯信息等方式,导致数据中心动力系统数据采集参数不全、精度不高,处于被动性管理状态,通常不能全面及时了解数据中心现场设备的动力状况。以致一旦发生风险事故,分析故障根源和补救措施将缺乏动力系统数据支撑,不利于数据中心动力系统风险的及时响应、处置、化解。
2013 年6 月24 日某金融机构总部数据中心出现故障,导致业务中断50 多分钟。2011 年9 月21 日某银行总行数据中心因动力用电故障导致全国分支机构业务系统瘫痪,由于处置得当,未造成群体性事件。2009 年2 月9 日某国税数据机房电容器起火,造成辖区内国税系业务无法办理。美国等发达国家对数据中心基础设施运维管理,尤其是动力安全和定期检测都有明确的标准和专业要求。在全国金融标准化技术委员会的推动下,我国《金融业数据中心动力系统规范》、《金融业数据中心动力系统测评规范》也在紧锣密鼓地推进中。
风险预知利器
近些年来,人民银行和银监会要求金融机构加强基础设施尤其是供电系统风险排查,确保生产动力用电的高可用性。在监管机构的指导下,各金融机构不断加大运维管理的工作力度,强化风险防范意识,建立起“以人为本、以管理为核心、以技术为依托”的安全防范体系,并引入国外先进的运维管理理念。但多数金融机构存在无岗位、无技术、不专业等问题,或一个人负责多项不同技术领域的运维管理工作,致使数据机房安全风险防范不到位,面临诸多潜在的风险因素。
金融数据中心机房安全缺乏系统制度性保障,往往是出了问题才去弥补,采取就事论事、静态、被动的方式,而不是采取主动防御、持续改进的方式。各项预防性检查工作不同程度地存在“说起来重要,忙起来次要,干起来不要”的错误做法。
全面保障金融数据中心安全,关系着银行业务连续性和社会稳定。应消除“技术万能”的盲目乐观思想,采取各种可能的举措来预先发现问题,不能拘泥和局限于目前已采用的技术和手段。
动力是运行之源,安全是动力之本,检测是安全之基。为了满足数据中心科技部门对于电子信息系统机房(数据中心)检测、评估服务日益增长的需求,在国家认可委、国家工业和信息化部的指导下,我们组建了IDC 动力检测CNAS 实验室,研发了自主可控的数据中心动力管控系统,并筹建了由电子信息机房各领域专家组成的国内唯一提供数据中心动力检测的第三方检测机构,在全国范围内从事数据中心动力设施及机房项目检测、评估业务。
实验室自2009 年开始为用户提供检测服务,并于2011 年12 月导入CNAS 实验室相关程序文件及质量要求,先后为国家数十个重大机房建设项目的动力设施规划、设计、施工、验收和运维等方面提供了完善的技术咨询和管理指导工作。实验室成立以来已经完成100 多个数据中心机房的检测、评估服务项目。
实验室目前主要工作包括:机房项目的规划、验收、评估、故障分析等。我们希望通过专业的咨询、检测、评估,为机构把好两道关,一是解决在机房前期设计过程中可能存在的错、漏、碰、缺等问题;二是验证机房的运行环境指标是否达到了最初的设计指标并满足国家有关标准的要求、能否满足用户目前的业务发展需求。
风险防范利器
数据中心的动力管控方面存在诸多问题。频发的数据中心事故,使得数据中心急需统一的动力管控系统来提升动力系统的运维管理水平,从而对数据中心基础设施实现监测、评估、治理、管理四位一体的运维管理,打造一个安全的数据中心。
数据中心动力管控系统是面向基础设施风险管控设备、为数据中心提供良好的用电环境、保障用电安全的生产管理系统。它能够实时、全项、精细地监测供电系统参数,并以这些数据为依据,分析、评估数据中心供电系统中存在的安全隐患,从而将事故消灭在萌芽之中,实现对数据中心动力系统全面、动态、系统、人机合一的管控。
数据中心动力管控系统是基于IT 运维理念对数据中心动力系统进行实时综合管理,通过监测、治理、分析评估、管理四大模块全面管理数据中心的用电环境,评估数据中心的运营风险,真正做到数据中心动力系统的智能管理,改变了数据中心供电环境深层数据不可视的现状。只有全方位、多层次地保护数据中心的动力安全,并进行深层次的数据挖掘及分析预警、治理和管理功能、多角度和多层次的人机互动管理,才能更有效地实现智能化动力管理的目标。