什么是数据中心验证

很多时候数据中心验证往往跟数据中心的验收概念是混淆在一块儿的。寇海鹰先生声明,从时间的节点上,验证是在数据中心验收之前的时间段,只有说经过了数据中心的验证,相关的指标合格才能进行下一步数据中心的验收的工作。传统的数据中心的验收往往只是侧重于工程安装质量、机房内部环境,以及单个设备、单个系统的测试工作,并不涉及到整体的通过模拟带载的耐压测试以及基于运维流程的整体的故障和灾难预演的步骤。所以说验证跟传统验收的差异化就在于,验证提供了模拟化的真实的平台,来测试和验证数据中心所有的功能以及相关的指标,并实战检验了运维流程。

很多时候用户谈到了数据中心的工程质量保证的时候通常都会认为这是总包的职责,但对于国内外的用户来说工程承包商的职责往往只是按照图纸、按照工程预算来完成设备的安装以及相关设备的启动工作。如果说从数据中心整体的可用性、可靠性的角度,需要他来进行保证的话,这就已经超出了他的职责所在。很多时候大家往往认为性能故障的处理工作应该是由用户后期的运维团队来负责的。所以这也就是目前国内很多的用户的机电建设部门和运营部门存在矛盾的根本所在。而验证可以起到的是中间糅合的作用,把建设部门和运维部门通过验证这个工作协调在一块儿,完成数据中心最终的高质量的共同交付。

对于一个全程的数据中心的验证,往往在设计阶段就必须要介入,需要对设计的意图和设计中所采用的新的技术理念进行充分的沟通理解,从而针对性的定制验证方案。所以,对于验证来说,验证团队是需要设计单位、用户的运维团队以及工程承包商、供应商及验证服务商全程参与。通过所有相关单位的参与,最终惠普制定出来的相关的验证方案需要大家共同确认和认可。

而验证其核心目标是检验设计的预期能否完全实现。设计预期实际上从技术角度来说往往会划分为两块。第一块是性能的验证,性能的验证往往侧重于单个设备、单个系统。惠普通过专业机架式假负载的进行满负荷的带载模拟,同时会模拟不同容量的状态变化,来确保所有的设备能够支撑原来设计的预期。经过性能测试验证,确保了单个设备、单个系统的可靠性以后,第二块是功能验证,核心是把数据中心作为一个整体来看,包括了风火水电,包括数据中心运维。惠普按照运维的流程,通过故障模拟和灾难的预演检验运维的可操作性,将数据中心日后运行风险降至最低。同时通过整改验证过程中发现的相关缺陷,来保证数据中心的高质量的交付。

为何要做验证?对于大家很熟悉的日常场景,每天在高层的写字楼大家的出入是依靠电梯,电梯把我们送到任何想去的楼层,但如果某一天电梯有故障停在半空中,不知道大家的心头会不会有一些焦虑,会担心这个电梯的安全性和相关的指标有没有达到设计的要求。如果说眼前这部电梯是没有通过安全检测的话,你敢跨进去吗?

回到数据中心验证,它的核心一点是确保数据中心的可用性。数据中心的可用性实际上是基于用户的业务部门的需求。业务部门如果说对业务的可用性提出了非常高的要求,比如说T4或者是T3的要求,用户将会投入大量资金去建设相关高标准的数据中心,验证通过科学的流程、手段,测试数据中心相关功能和性能,规避建设风险,可以大程度上保护用户的投资。

在工程验证实施的众多案例中,验证往往变成了工程实施质量检测的最终关卡。验证通过新的技术和理念,在满载的情况下可以发现很多问题,而这些问题在以往不带载的情况下是无法发现的。如开关端接不牢靠,在大负荷负载情况下就有过热,发生火灾的隐患。

惠普的验证需要用户的运维团队来全程参与处理的。验证过程中,会通过的故障和灾难预演来检验运维流程是否合理可行。如果用户运维团队全程参与了验证工作,在这样一个实战平台上进行了培训和操演,当在今后的数据中心不断扩展遇到类似的故障灾难时可以从容地面对和处理。

一个全面的数据中心的验证包括的内容

对用户来说验证首先需要要选择一家合格以及专业的验证服务商。对此惠普推出了五步法。

第一步是定制的测试验证计划。

第二步是目前国内用户忽视工厂验收测试。

第三步是运行前的检查,也就是开机测试。

第四步是带载环境下的功能测试。像UPS、柴油发电机、机房散热系统等等,都是通过带载的模拟环境进行的。

最后一个环节是让用户的数据中心建设团队最有成就感的部分,就是数据中心的集成系统验证。通过使用专业的机架式假负载搭建测试平台,模拟不同的故障和灾难来验证数据中心整体的运营流程和设计能否满足要求。

具体来讲。测试计划实际上是需要在设计中后期就必须要介入的。惠普关键设施服务部门会对用户的设计从验证和高效运维的角度提一些建议,对设计进行优化。同时在前期跟用户的测试团队、配合团队以及各个实施单位清晰界定配合的工作界面,以及现场的资源准备,比如说风火水电是否齐备。最后一个环节惠普会制定专业的测试计划,所有的测试计划是需要所有的参与单位最终进行确认的。

第二个步骤是厂验,设备在现场安装前最终的质量检测的环节,其核心一点是希望大限度地减少设备安装完以后发现的故障,导致对整个项目工期的延误,这是其中的核心一点。

第三步是开机检查,确保在进行功能和系统联调之前设备是可用的。

第四步是功能测试,惠普方面会对柴油发电机、UPS系统模块,机房内部的空调,各个散热系统进行带载的测试。其目的并不仅仅是测试单个系统的功能,同时会对冗余功能进行测试。测试的过程中验证专家会利用专业仪器对数据中心现场的采集设备进行现场的数据校正,来保证采集数据的准确性。

在完成了第三和第四步骤之后,在工程实践中往往会发现问题,因此根据验证计划往往会在第四步和系统集成测试中间预留一个时间段,帮助用户进行相关的整改工作,确保进入最终、最有成就感的集成系统测试之前所有的设备都是可用的。

最后一个是集成系统验证,第一点是把数据中心作为一个整体,来测试所有配合的系统,包括从最前端的高压系统,到柴油发电机,到UPS,一直到制冷系统,以确保通过联合测试来确认整体系统的可行性和可靠性。整体系统测试完毕以后,接下来是与运维息息相关的故障和灾难的预演。针对运营流程惠普方面会针对不同的灾难进行实战的演练。在全程中,所有的操作是由用户的运维团队来操作的。验证目标是希望在这个环节为用户运维团队提供一个实战的平台,在这个平台上对今后所要使用的数据中心进行各种操作。这样可以保证数据中心真正投入运营之后,运维团队能够进行高效率的运维。同时惠普会对监控系统平台进行响应测试。

对于验证来说,会涉及到众多的电气、机械、控制系统,所有的专业系统测试都需要使用一些高精度的测试仪器和软件分析工具。为更好的搭建一个接近实际使用环境的测试平台,需要使用专业的机架式假负载来模拟IT设备。为了避免根据经验判断,保证测试报告的科学性、完整性和公正性,需要专业的测试仪器和分析软件支撑。

同样惠普的验证是需要在不同的阶段介入,包括在设计阶段、方案准备阶段、测试实施阶段等等。惠普验证团队通过跟用户团队的整体的配合,最终交付一个数据中心基础设施运维操作手册。

成功的验证对用户的价值所在,首先是确保用户在投入了几千万、上亿甚至是十几亿的数据中心最终交付的可用性,保护用户的投资。可以识别风险、鉴别风险、解决风险,从而降低数据中心投入运行后的整体故障率。另外是通过验证过程中的实战演练来改善用户员工培训的效率。同时通过优化用户运维手册,提高运维的水平。核心的一点,验证的投入将会远远小于用户今后数据中心运行当中出现故障导致设备宕机而遭受的损失。

寇海鹰先生提供给广大的用户的几点建议

第一,验证必须要确保安全,包括个人安全和设备的安全。

第二,数据中心的功能复杂程度相比于传统的商业建筑复杂数十倍,所以验证计划必须在设计阶段进行完善。相关的验证计划必须详细地体现设计的意图。

第三,在时间预算上,在前期给用户在时间和整体项目进度上预留一些时间进行整改的工作。

第四,全程参与的并不仅仅是验证服务商,包括了用户建设团队、运营团队、设计团队、施工方以及设备供货商等。

在沟通会的最后,寇海鹰还分享了几个成功的数据中心验证案例。不管从设备本身还是从安装质量和运维流程方面,惠普帮助用户发现了很多的问题,所有的问题发现了以后,用户对所有的设备以及流程进行整改和优化,保证设备投入运行以后稳定可靠地支撑用户的业务和发展。

数据中心验证,惠普方面认为,核心的一点就是确保数据中心整体的可用性,并使用户业务走向成功。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-16 11:52:17
国际资讯 IDC:2022年中国数据中心服务市场仍处于缓慢修复阶段
预计未来五年,中国数据中心服务市场将以18.9%的复合增速持续增长。 <详情>
2023-08-04 16:08:52
新闻动态 中国移动与青海省政府签署战略合作协议
中国移动将青海作为5G建设的重点区域,加快建设全国领先的5G和“双千兆”网络,加大数据中心和算力网络建设。 <详情>
2023-07-28 17:42:52
国内资讯 秦淮数据“加码”布局张家口 与张家口建投集团签署10年战略合作协议
本次合作协议为期10年,双方将在用地及水资源开发、能源开发、数据中心合作运营、源网荷储一体化项目开展深度合作。 <详情>