每一家互联网公司的本质就是一个软件公司,所以每一家互联网企业最重要的就是数据中心。可以说数据中心承载着互联网企业的产品、业务、理念和梦想。而在数据中心建设过程中,除了开源软件系统的集群、定制、利用、优化,更多面临的是资源、网络、运维管理等方面的问题。下面我们来一一探讨。

一、机房的类型

互联网所有业务应用都承载在数据中心中,因此互联网数据中心不仅需要快速安全的网络,还有对服务器监管、流量监控等网络管理方面的需求,而且要有高度可靠的、安全的机房网络环境。

租用机房

这个方式是最为普遍。形式上来说,运营商如联通、电信建设完机房后,大型客户会自己直接洽谈业务,自己亲自运维。特点是柜子多、运营商链路单一、链路带宽大。但对于中小型客户,资源租用(机柜、带宽、ip地址)比较零散,运维管理压力大,所以运营商就会将一部分机柜租给第三方运营商,由第三方负责资源划分、管理、运维及销售。由于第三方运营商身份的特殊性,往往会找一些传输机房,将其他运营商的链路拉通。所以第三方有个天然优势就是多运营商链路,服务好,价格虽高了一点,但链路种类多,质量好,所以很多互联网公司初期均会选择第三方运营商的租用服务。

合建及自建机房

建设机房流程上很麻烦,投入较大。部分第三方运营商会和运营商合作合建机房,也有和企业合作合建机房,也有实力比较强的企业选择自建机房。对于租用机房来说,电不是大问题。因为运营商会限制一个机柜的供电量。一般为10a~13a.但对于合建或自建机房来说,决定一个机房能使用多大规模的因素除了柜子更重要的就是电。例如某银行建设完大型机房园区后,发现机房电量不够,导致1/3的机柜空置;某企业预期20万台server机房,也因为供电问题降为8万台。所以整个行业都开始重视数据中心的功耗问题。一方面考虑设备的绿色节能问题,设备用电越少,可使用的设备数量就越多。另一方面也要考虑数据中心冷热风道的散热问题,所以现在数据中心级别的交换机产品推荐为前后通风设备。从设备级别的可靠性来说,也要考虑设备的风扇模块、电源模块是否冗余,是否支持热插拔(因为除模块外,设备硬件故障率高的地方就在风扇和电源模块)。

而对于网络建设来说,除了租用公有云服务,无论是租用、合建、还是自建机房,均需要互联网企业自己搭建网络基础架构。每一个互联网企业,无论大小,都会经历以下四个模式数据中心的一种或多种。

二、数据中心的四种建设模式

1.早期的数据中心

在互联网企业中,笔者见到过最"精简"的网络架构如图1所示:一台核心网管/出口设备,上行连接防火墙(若没有防火墙则直接连接至运营商)、下行单链路连接百兆二层接入交换机;百兆接入二层交换机单链路连接至服务器。服务器网关则部署在核心交换机上,整网二层网络环境,核心至运营商之间静态路由即可。防火墙若不启用nat功能则为二层模式部署,若启用nat功能则三层模式部署。

这种单设备单链路的架构唯一的优点就是便宜。缺点却非常明显:单点故障、设备可用性低、资源规划不清。

如图2所示,优化后的数据中心为考虑设备、链路的冗余性,采用了双链路上行、核心设备冗余备份,协议方面使用stp/mst+vrrp/hsrp.至于内外网是否分离问题,从性价比考虑,很多互联网企业都会选择内外网物理合一、逻辑分离。但对于从内网流量数据、外网安全隔离的角度看,游戏型的互联网企业一般会选择内外网物理分离的架构。

以我们现在的技术和思路来看,图2的架构实际已经是大二层网络环境,但无法满足现在云计算大二层网络环境中的链路利用率、故障收敛及运维管理等方面的需求。而这种架构由于网络硬件发展问题,会有设备硬件表项、端口速率、网络收敛比等诸多限制。

2.模块化、区域化数据中心

模块化、区域化数据中心具有高可用、高可靠、高可控、分布式安全部署、易扩展、易管理等好处。从设计角度看很简单,就是业务功能区域划分pod.区域核心设备实际在整张网络架构中属于汇聚层设备(如图3所示)。

这种模型从设计出发,无论是设备表项问题、安全区域防护、还是运维排障(因为三层物理架构下的大二层网络排障是一件极其痛苦的事,很多时候的业务故障只能通过mac逐步排查实现),所以综合考虑各区域网关好的是部署在汇聚层。核心设备与汇聚设备之间为ip互通,架构上简单的或者是安全防护较高(各区域部署ha防火墙)的情况下,可采用vrrp/hsrp+静态路由的方式,如果不存在上述条件,还是建议采用ospf协议部署。当然,像腾讯、百度的服务器网关均部署在接入交换机,整网均为ospf协议部署。好处是ip层网络通过ecmp的方式,可消除早期stp/mst的链路耗损问题,但带来的问题是会过多的消耗ip地址,也会很难过渡到云就绪网络数据中心,不过这点在现在可通过sdn+overlay数据中心模型解决。

3.云计算数据中心

说起云计算,就要先说说虚拟主机(下文简称"虚机")。虚机大的优点就是提高物理服务器资源和带宽资源的利用率。中国最早大规模部署虚机的互联网企业就是淘宝,淘宝之所以虚机用的规模大,实际上也是因为其电商的业务性质导致,毕竟都是网页、文字和图片,服务器利用率很低。不过像百度这种搜索业务的数据中心,服务器利用率很高,且业务应用层面而言早已分布式部署,所以对虚机需求还不高。

从网络建设角度看,实际上由于云计算的产生,传统的设备硬件也好,还是传统的交换路由协议也好,并不能很好的支撑池化后的服务器资源。所以为了支撑云计算,支撑服务器资源池化,作为基础设施的网络设备,从早期园区网设备级别发展到数据中心专业级网络设备,从硬件的clos架构、大缓存、虚拟化、绿色节能、散热风道、高密40ge/100ge、可变长信源流量调度,到软件级别的irf、mdc、vepa、trill、vepa、fcoe、vxlan、nvgre、openflow,再到操作系统的分布式/高可用架构、scm、lipc、dbm、issu、进程级gr等等,从硬件架构、操作系统、交换协议、软件特性均做了重大升级。而网络架构也会根据网络和软件的不同理念发展为云就绪网络数据中心和sdn+overlay数据中心两种。

云就绪网络数据中心的核心发展理念是:虚机的mac封装传递由网络设备负责。所以为了保证虚机之间或与网关通信的mac传递,整张网络为大二层网络环境(如图4所示)。

云就绪网络数据中心从网络层面是一套完整的云计算网络解决方案。但是,随着硬件技术的不断升级、云计算的网络规模不断扩大,对核心网关设备要求越来越高,包括各种表项的要求,刷新率的要求,以及很多生产数据中心需要面对从三层ip网络到大二层网络的过渡瓶颈,所以综上考虑,云就绪网络更适合中小型,较为传统的云计算数据中心。

为了解决云就绪网络数据中心的问题,sdn+overlay数据中心的核心理念是:虚机的mac封装由虚机自行完成,网络作为通道只要ip可达即可。简单来说,就是虚机自行将mac已标签形式封装进ip报文内进行传递,可以理解为虚机之间自行实现tunnel的技术,网络则作为ip通道的大三层,网关在接入交换机上即可。

vxlan是目前主流的overlay技术,但它也只是封装技术,而控制则是通过网关设备——sdn的contrller(控制器)解决,从而在未来云就绪数据中心条件不满足的情况下,支撑云计算网络的搭建。但目前由于vxlan需要面对来自数据中心中应用stp和vlan带来的限制问题(stp对与端口和网络链路的浪费和vlan的数量限制)以及对于多用户组环境的需要和tor交换机上的流表数量不足的问题,而openflow也需要面对版本不兼容和不稳定的问题,所以"sdn+overlay"数据中心还未正式规模商用。

三、解决互联网访问瓶颈的三种方法

1.多运营商链路机房

如果说跨运营商流量的丢包和延迟是在穿透骨干网时发生的,那么就让流量不穿过骨干网的互联通道就好了。最普遍的做法就是做多线机房。在主营idc架设多运营商链路,拥有支撑多运营商用户的访问能力,避免单线idc中的骨干网穿行流量。这种方式可以提高单个idc多运营商用户的访问能力。但上文中也讲过,对于中国地大物博的现状,如果北京到广州的某个链路质量不稳定的话,也会对该运营商用户的业务访问造成影响。所以对于小型互联网公司,当只有一个机房的情况下,基本上推荐多运营商链路机房。

而对于中大型互联网公司的多机房业务而言,主站业务为保证客户的动态流量及cdn回源流量的访问质量,都会采用多运营商链路机房,某些重要业务机房,也会采用双线机房。

2.cdn

cdn的全称是content delivery network(内容分发网络)。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的,在现有的互联网基础之上的一层智能虚拟网络。cdn系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,提高用户访问网站的响应速度。通俗理解就是网站加速,cpu均衡负载,可以解决跨运营商,跨地区,服务器负载能力过低,带宽过少等带来的网站打开速度慢等问题。

总体来说,cdn服务优缺点都很明显。优点是cdn服务用于确保快速可靠地分发静态内容。静态内容包括html页面文件、视频文件、js文件、css文件、exe文件、图片文件(jpeg、gif、png)等。虽然现在有ssl卸载及tcp加速等四至七层网络加速技术,但对于动态流量比如实时的聊天、交易数据等等需要访问主站数据库的业务是无能为力的,所以动态内容必须是通过互联网的ip网络来传输。因此要想提供快速的网络体验,满足当今用户的要求,只能通过对互联网流量的独特视角来达到。比如上文中的多运营商链路机房,比如未来的sdn广域网技术。目的是了解通过互联网的最佳路由,充分利用这些最佳路由,加速通过互联网协议的数据通讯。

3.分布式idc

如前文所讲,cdn可以完美解决互联网用户的静态流量访问,且现在已经实现ssl卸载及tcp加速(握手)等技术,但对于动态流量来说,cdn依然存在缺陷,这时就有了第三种方法——分布式idc.

在城域网建设中,基础链路可选择运营商专线,也可选择裸纤,通过千兆、万兆、40ge长距模块或波分设备实现链路扩容,在建设过程中也可考虑通过二层传输交换机使用vlan、trunk划分逻辑通道,而ip层面城域网的路由协议一般选用ospf协议,如果考虑未来建设广域骨干网启用bgp协议的话,城域网也可考虑选用isis协议。

而骨干网建设中,除了考虑物理专线、波分,在ip层面一般底层路由协议选用isis协议,当然ospf协议也可以,但如果底层选用ospf,则需考虑area0的部署范围。未来如果考虑企业自身的多业务专线,则会在bgp基础上使用mpls vpn或vpls.如果骨干网规模很大,下一步将考虑mpls te.但目前互联网公司中自建广域骨干网的企业很少,使用mpls te的更少。在光纤资源稀缺的现状下,全网的分布式idc使用裸纤连接从成本考虑是不现实的。所以很多互联网企业早期也会使用gre vpn、ipsec vpn实现基于广域网链路的三层互通。而在云计算如火如荼的今天,现在也有evi、otv等各厂商私有协议实现基于广域网链路的二层互通。本文只是描述分布式数据中心建设的思路,而具体的城域网、骨干网详细的网络架构设计思路在此不再展开。

四、非互联网企业的借鉴思路

本文阐述了互联网企业其数据中心发展过程中内部、外部面临的问题,并提出了解决的思路与建议。对于需要互联网化转型的其它行业企业而言,由于前期自身已建设好办公网及数据中心,在转型的时候需要考虑以下两个方面:

一、大多数企业的数据中心初期建设时,主要为办公和自有业务而建。互联网化转型时需要优化、改造其原有数据中心。而一步跨度到云计算数据中心比较有难度。所以从功能性考虑出发,在转型过程中建议过渡到到模块化、区域化数据中心(各层面的网络设备均采用irf虚拟化技术),如图6所示,将原有业务及办公业务通过汇聚层设备隔离,从安全性考虑在各个模块中部署相应安全设备。数据中心模块化、区域化后,互联网业务模块为保证业务访问质量、网络访问安全性等方面,建议采用独立出口区域。

二、如文章开篇时所讲,互联网企业的本质是软件开发公司,所以软件开发、自研能力很强。某些大型互联网企业也会自研防ddos攻击的黑洞设备。而这样的软件开发、自研能力并不是一蹴而就的,需要长时间的摸索和累积。所以传统企业面临互联网化转型时,结合其自身软件开发人员的综合素质考虑,像负载均衡、防火墙、ips和cdn等方面,在商用设备达到性能和性价比瓶颈之前,在数据中心建设时推荐使用成熟稳定的商用产品。

五、结束语

本文的数据中心建设演进之路仅供参考,不能一概而论。无论是互联网企业还是互联网化的其它行业企业,在数据中心建设、升级、优化、改造过程中,需结合自身业务需求特点,按阶段建设出最适合的数据中心,才是我们不断追求的方向。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56