当前对于一个数据中心网络好坏的评价主要有两类参数:网络故障恢复时间和网络平均故障时间。一个庞大的数据中心网络不可避免会出现这样或那样的故障,那么一旦出了故障,故障恢复时间的长短尤为重要,这将在一定程度上决定了故障带来损失的大小。当然数据中心承载着很多重要业务,也不能频繁地发生故障,因此就有了网络平均故障时间,即在运行一年的时间当中,网络中断的时长和频率。目前的数据中心普遍采用的是二三层混合的网络架构,虽然现在很多人提出建设大二层的数据中心,但实际上依然是在二三层的物理网络上再虚拟出一个二层网络来,实质上还是没有改变当前的二三层组网结构。这种组网要求网络接入层和汇聚层采用二层转发,核心层采用三层路由转发。二层的网络通过STP、RRPP、TRILL等协议保证网络故障时业务的及时切换,三层的网络则是通过VRRP、OSPF、BGP、ISIS等路由的切换来保证业务的连续性。然而由于路由是软件学习,当在一个网络规模比较大的数据中心里,路由切换和学习的效率都是比较低的,所以很多专家与学者提出了不少提高路由切换性能的技术,而这些技术就是路由容错技术。路由容错是指数据中心网络在一个网络设备发生故障不能工作时,另一个网络设备自动接管失效的网络设备,从而保证网络正常进行。

一个数据中心网络在发生故障时,路由恢复的快慢和服务器度、直径、服务器数量、网线数量、交换机数量等都有一定关系,拓扑规模越大,三层网络的路由规模相应就会大些,路由规模较小时,故障切换的速度就快,反之,故障切换的速度就慢。当然在一些拓扑规模不大的网络中可能路由规模也会变得比较大,这时就要检查网络是否引入了很多无用的路由。有时网络拓扑规模也不大,但是网络节点的不相交路径数,边不相交路径数和冗余层都比较多,也会造成路由数量的剧增,因此要尽可能简化网络。网络拓扑结构越清晰,产生的无用路由就越少,适当地采用路由策略、路由过滤等机制来精简路由。减少路由的确可以提升容错能力,不过有些数据中心网络规模就是比较大,数据中心需要处理的业务越来越多,未来的数据中心网络规模也必然越来越大。在百度内蒙古数据中心里,要建2000多的OSPF邻居,互相引入路由都达到100K级别以上,这样规模的网络,任何地方动一动都可能会引起连锁反应,再强网络设备的CPU也要一条一条地计算路由,在震荡过程中可能路由长时间无法收敛,给业务带来的影响可想而知,所以在高可靠性的数据中心网络里,路由容错技术必不可少,下面就介绍几种为数据中心网络保驾护航的路由容错新技术。

快速重新路由容错技术

快速重新路由容错技术(Fast Rerouting)解决的基本问题是在网络设备或设备链路失效下如何建立一个新的路径替换被破坏的路径,简称FRR.这种技术的基本思想是让每个网络设备都拥有两个端口:基本端口和备份端口,当发生节点或链路失效时,基本端口无法使用时,采用备份端口来路由转发报文。FRR要求每个节点设备都能感知到整个网络拓扑的状态,以便每个节点都可以实时获取到整个网络的路由信息。网络设备的两个端口各学习一份整网路由,当基本端口故障时,备份端口不需要重新学习路由,设备自动保存的备份路由直接可以转发报文。FRR技术被广泛应用于OSPF、BGP、MPLS、ISIS等路由协议中,可以有效减少网络故障时故障恢复的时间。当然FRR也有缺点,就是要增加备用的物理链路,并且备用链路路由要可达,在网络正常情况下,备用链路带宽是空闲的,造成了网络资源的极大浪费。还有在规模比较大的数据中心部署FRR将变得几乎无法完成,因为FFR需要任何链路和端口都要有备份,这样才能保证有备份路由,原本就很复杂的网络将因为部署FRR技术而变得更加复杂,非常不利于后期的维护。

基于失效非敏感路由容错技术

基于失效非敏感路由容错技术(Failure Insensitive Routing),简称FIR,相比FRR,FIR不需要感知整个网络拓扑的状态信息和具体的设备、链路,而是通过报文的入口接口来推测潜在的失效设备和链路,通过一个预计算的特殊接口转发表绕过失效组件。FIR和FRR一样,在设备上也要同时维护两张转发路由表:一张转发表,一张备用转发表。

基于Not-Via路由容错技术

Not-Via通过对报文封装一个Not-Via地址,并配合最短路径算法绕过失效设备或链路,对单节点和单链路的失效可以达到100%的路由恢复。这种技术是对原始报文进行了重新封装,封装后的报文包含了Not-Via地址,增加了报文的载荷,还要维护一个特殊的Not-Via地址,下游设备还要对原有报文进行封包和拆包,计算和管理的代价都比较高,不过Not-Via路由容错技术的好处是不需要设备提前备份路由。

基于隧道的路由容错技术

基于隧道的路由容错技术(Fast Reroute Using Tunnels),简称FRUT,其通过一个预配置的隧道端点绕过被保护的链路,而达到最终的目标设备,这样整个路由转发路径被分为两个部分:一个是从上一跳设备到隧道终端端点的最短路径,另一个是从隧道端点到最终的目标设备。既然是隧道就涉及进出隧道的处理,不过相比Not-Via,计算和管理的代价都要小得多,是目前比较主流的路由容错技术。

在如今对数据中心网络可靠性要求非常的环境背景下,路由容错技术是一种必不可少的冗余技术,对数据中心网络的稳定运行提供保障。无论是FRR、FIR还是FRUT等都是希望让设备付出最小的代价,完成网络路由的重计算,虽然这些技术都各有优缺点,但是却可以为数据中心提供多种选择,数据中心可以根据自己网络的实际情况来部署路由容错技术,从而大幅缩短数据中心网络的故障恢复时间。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56