
我们将从“关键设施管理”的角度重点介绍与运营数据中心相关的基本最佳实践。这涉及对建筑基础架构的监视,管理和维护,最终支持安装IT负载及其提供的服务。这方面的基本要素是确保由数据中心托管的服务的连续性,并确保这些服务所依赖的基础结构的正常运行。
应采用这些做法,以达到设计站点所期望的可用性或弹性水平。但是,应该注意的是,如果未将站点设计,构建或事先维护为维持企业所需的可用性水平所需的水平,则任何数量的监视,管理或维护都无法达到可用性或弹性水平。
数据中心设施运营管理和现场管理
现场关键设施/机电工程团队应至少在现场运行前六周安装在现场,以确保所有文档都是完整和准确的,现场流程和程序是经过严格测试的,并且团队具有有机会重新配置和操作站点基础结构,而没有附加实时负载。
如果可能的话,请车记以上几点,提供机会让现场团队参与设计过程,以确保潜在的可靠现场操作和维护。另外,让现场团队参与调试过程,以验证已安装的基础结构的正确运行,还使现场工程团队有机会参与到现场屏蔽列表的开发中,并最终签署以正确完成工作。一旦承包商移交了《操作和维护》手册,所有内部人员,承包商和供应商都必须使这些文件保持最新和准确。此外,“竣工时间”记录图也应不断更新,以反映安装的最新状态,以反映对该站点所做的任何更改或添加。
在进行所有维护或项目活动之前,应编制方法声明并与包括服务客户在内的所有各方达成协议。就其自身的通知要求而言,使客户了解任何站点维护或项目活动非常重要。这包括用于维护服务协议或告知可能导致的任何潜在服务中断或风险的预防措施。
数据中心关键站点预算
关键站点预算应严格控制,并与非关键站点预算分开,以减少在不了解不可避免后果的情况下侵蚀资金的机会。
除了要对他们负责操作或维护的任何系统进行详细培训外,所有新的现场工作人员或访客都应接受与现场相关的特定规则和安全方面的培训。为确保这一点到位,应为所有现场工作人员提供完整的记录并定期更新的培训计划。
应该可以使用显示命令链和职责的组织结构图,详细说明设施管理,IT和安全组之间的所有接口。这应该包括一个角色和责任矩阵,该矩阵涵盖数据中心的所有活动以及关键设施的工作描述。
全面的文档库应随时可供站点工作人员参考,并不断进行更新。其中应包括最新的竣工”图纸,调试记录,维护记录,培训记录和证明,准确的运维手册,现场政策和程序等。
应维护完整,准确且定期更新的关键备件清单,包括关键供应商详细信息和重新供应订单点通知。现场操作员应与供应商商定最有可能失败的关键备件库存,因此应避免这种情况发生。
这样的做法可以大大减少平均修复时间(或恢复时间,MTTR),即可靠性和可用性计算中使用的数字。此外,维护合同应包含保证的最大呼出时间。确保采用和维护准确且不断更新的风险登记册。这应该包括风险通知和风险缓解以及潜在风险本身的全面记录。应该对所有基础设施组件进行清晰,准确和全面的标记,以便于识别和跟踪分发路径。这还应包括阀门,开关,断路器,指示器等的正常位置指示器(磁性按钮或廉价的彩色贴纸以指示正常操作状态。旨在突出显示预期位置以提供事件发生时可能发生变化的即时视图)。对于所有站点人员,应在可见的位置显示突出显示当前站点警报状态的可视指示器。例如在维护,客户实地访问,恐怖威胁,在发电机上运行等过程中面临增加的风险。
数据中心维护和检查计划
应制定严格的计划维护和检查计划,其中应包括基于预测和状况的维护元素。这可能包括;热/红外扫描,振动分析,润滑液,水,燃料,冷却液,空气质量等的定期分析,以及维护记录和设备性能及状况的趋势分析。定期维护和检查计划的一个例子是定期清洁和/或更换空气过滤器维护的目的是将数据中心站点保持在“新状态”。这既可以减少由于设备故障引起的操作风险,又可以确保设备的操作效率保持较高水平,从而减少了电能消耗并因此降低了能源成本。
确保在所有关键设备工厂的房间中都可以看到,易于访问的紧急操作程序,以及适当的联系电话和上报地点。为了帮助这个地方,在所有工厂房间中都安装了壁挂式单线图和原理图。
已定义的程序应存在于所有交换操作和维护活动中,应始终遵循并遵循这些程序。此外,应该有一个治理流程,该流程可以在签字之前验证任何维护活动的质量和正确完成的工作。预防性维护任务的完成率应大于95%。
应记录数据,以便对设备性能进行长期趋势分析,包括(但不限于),能源效率,可靠性和维护开销。
维护成本增加或预期寿命终止来安排设备更换并为其提供资金
应保存所有保存,未命中,事件,关键事件以及任何影响停机的服务的记录,包括日期,时间,人员,所涉及的设备,根本原因分析的结果以及任何经验教训。这应具有预测,识别和减轻风险或采取纠正措施以防止再次发生的能力。
在公用电源故障后启动发电机可能是数据中心站点持续运行中的薄弱环节。因此,至关重要的是,发电机必须得到良好的维护和测试。应检查发电机的电池,并按照制造商的建议按预定的预定时间表启动发电机。
发电机应定期(至少每年一次)在整个建筑物中运行,以模拟总的公用事业电源故障。这通常被称为“黑色建筑测试”。许多运营商由于感知到的风险而避开了该测试,但是事实证明,对于许多数据中心而言,不执行此测试并保证这些系统的正确运行将带来更大的风险。没有执行此测试的直接结果是,发生了几起广为人知的停机。