数据中心最佳实践介绍
数据中心存在的唯一最重要的原因是保持托管在其中的服务以及从中分发的服务的可用性。这些基于建筑物内的IT设备,它需要四个关键资源,包括安全性,网络弹性以及电源和散热的连续性。
数据中心运营商必须尽可能以最节能和最具成本效益的方式保持此服务的可用性。以下系列文章介绍了旨在实现此目标的经过实践检验的实践。目的是强调行业领先的最佳实践,最著名的方法和行为,应在任何数据中心站点上一致地应用该软件,以实现此目标。
数据中心运营和管理
如上所述,数据中心是建筑物或建筑物的隔离区域,其唯一目的是提供安全,高可用性和可靠的IT服务。为了获得高可用性的服务,站点的基础架构和操作需要紧密同步,并与政策,程序,人员和培训密切相关,并加以记录,以识别和减轻可能导致服务中断或威胁服务连续性的任何风险。为了实现长期可靠性,必须以高标准操作和维护数据中心设施,并且必须识别,记录所有潜在风险并制定适当的缓解计划。
操作风险很难建模和量化,因为它直接关系到操作人员的能力,他们所接受培训的充分性以及有效的措施或适当的流程。为了最大程度地降低操作风险,操作和维护人员必须具有操作设施中所包含设备的适当资格。
维护质量对于任何数据中心的可靠运行都至关重要。所有维护活动均应完整记录,并应保留平均故障间隔时间(MTBF)和平均维修时间(MTBR)记录,以进行生命周期分析。应要求供应商保留此类信息的记录,并应要求提供这些记录。这将提高风险分析和绩效趋势研究的准确性。
人员配置
数据中心运营团队通常由来自多个组织或部门的个人组成,每个人都有自己的范围和职责。
明确定义和记录这些角色和职责对于成功的数据中心运营至关重要。责任分立或不确定会增加风险,尤其是在复杂的运营环境中。因此,一开始就应非常清楚地记录所有责任领域,报告路线和升级机制,并向所有各方明确。
与特定建筑区域(办公室/厂房等)有关的所有责任也应非常明确地定义和详细说明。这些应扩展到所有IT,安全和设施人员和主要供应商。明确确定责任和组织仍然是“最佳运营最佳实践”总体制度的组成部分,因此,对现场运营感兴趣的各个个人,团体,部门和组织的明确责任界定对于运营绩效至关重要。
所有现场操作人员都应受过良好的训练和良好的实践,有信心并有能力操作现场基础架构,包括在任何时候甚至在压力很大的事件(例如可能导致服务中断的设备故障)期间。具体来说,应由现场安装的设备的供应商对人员进行培训,以确保最高程度的培训和理解。重要的是在新设备的招标中要考虑到这一点。一个运行良好的数据中心将始终考虑与站点运营和管理相关的人为因素。
数据中心运营的可用性和可靠性
可用性和可靠性对于任何数据中心的运营都是至关重要的,但是如何定义和衡量它们呢?以下部分提供了该领域的一些基本知识。
可靠性
在给定的环境中,出于特定目的,在指定时间内无故障系统运行的可能性
可用性
系统在某个时间点将能够运行并能够提供所请求的服务的概率始终以正常运行时间与停机时间的百分比来衡量;越接近100%越好。
可用性,以其最简单的形式:A =正常运行时间/(正常运行时间+停机时间)可用性是系统运行时的时间百分比。组件的可用性可通过以下公式获得。与可用性和可靠性有关,但与众不同,可用性考虑了系统停止服务的时间,如果重新启动时间短,则不可靠的系统可能具有较高的可用性(在数据中心中无用,尤其是在电源方面)可用性提供有关时间使用的信息。可靠性提供有关无故障间隔的信息。