光互连调研学习笔记
云计算的发展对数据中心网络架构提出了严格的要求,传统电互连网络架构难以在带宽、开销、能耗、管理复杂度等方面同时满足云应用的要求。为了应对这种网络负载,大型数据中心需要成千上万的服务器通过高带宽交换机互连。当前的数据中心网络,基于电子分组交换机,消耗了过多的电力来处理日益增长通信带宽的新兴应用。与目前基于商品交换机的网络相比,光互连作为一种具有高吞吐量、低延迟和低能耗的有前途的解决方案受到了人们的关注。
Fat-Tree
传统数据中心采用多层级的树形结构,这种结构针对客户端/服务器(C/S)模式能有较好的效果。树形结构包括单根树和多根树。多根数的根节点往往作为备份节点存在(以方格代表交换机)。
传统单根/多根拓扑结构有以下缺点:成本高,根部交换机必须要有足够大的带宽来满足下层服务器之间的通信;性能瓶颈,无法满足数据中心内部大规模的 Map Reduce 和数据拷贝。 Fat-Tree是以交换机为中心的拓扑,支持在横向拓展的同时拓展路径数目,且所有交换机均为相同端口数量的普通设备,降低了网络建设成本。
Fat-Tree结构共分为三层:核心层、汇聚层、接入层。一个k元的Fat-Tree可以归纳为5个特征:
-
每台交换机都有k个端口; -
核心层为顶层,一共有(k/2)^2个交换机; -
一共有k个pod,每个pod有k台交换机组成。其中汇聚层和接入层各占k/2台交换机; -
接入层每个交换机可以容纳k/2台服务器,因此,k元Fat-Tree一共有k个pod,每个pod容纳k* k/4个服务器,所有pod共能容纳k* k* k/4台服务器; -
任意两个pod之间存在k条路径。
Optical Technology
AWG: 阵列波导光栅。一组具有相等长度差的阵列波导形成的光栅,使用具有分波的能力。基本功能是波长的合波/分离,可以实现波长复用/解复用、插/分复用、波长路由等。通过与光开关结合,可进行波长选择。
AWGR: 一定数量的AWG按一定的排列规则构成阵列博导光栅路由器—AWGR,优点:
- 不需要驱动,能耗低;
- 时间上不需开光时间;
- 具有灵活的路由结构,可以实现从任意输入端到任意输出段的无阻塞交换;
- AWGR具有很大的交换容量,单个AWGR节点就能完成M*N个波长的交换,其中M、N分别为他的端口数和波长数。
SOA: 半导体光放大器,和半导体激光器的工作原理相同,利用半导体能级间的受激跃迁而出现粒子数反转的现象进行光放大。除了作为放大器之外还可以作为光开关和波长选择器。本文将半导体放大器用作波长选择器,通过相应的控制单元来控制半导体光放大器,使得某些波长的广播能够通过并且放大,而其他波长的光被屏蔽掉。
优点:转换时间为ns级,并且能够将通过光束放大,而且能量转换效率高。
TWC: 可调谐波长转换器可以解决多节点复杂的高速网络中波长阻塞和波长竞争问题,是全光通信系统及未来宽带网络中必不可少的关键器件。功能是为传入光信号生成可配置的波长。可调谐波长转换器包括可调谐激光器、SOA和马赫-曾德尔干涉仪(MZI)。转换由SOA执行,SOA接收可调谐激光波长和数据作为输入,并输出选定波长的数据。SOA之后是MZI,它作为滤波器产生调谐波长的整形和清洁脉冲。
MEMS: 物理地旋转棱镜阵列,改变激光束的方向,从而在输入和输出之间建立连接。
因为它们是基于机械系统,所以其重构时间在几毫秒量级。
WSS: 波长选择开关在可重构光分插复用器(ROADM)中有重要的应用,它的基本应用类型可分为1xN和Nx1两种。1xN型WSS可以将输入的多波长信号中的任意波长和任意数目的波长组合输出到任意输出端口上。也就是说,WSS可以看作是可重构的AWG,重构时间为几毫秒。
ARCHITECTURES
A. c-Through
内容:
在该架构中,每个TOR交换机同时连接至一个电分组交换网络和一个光电路交换网络。电分组交换网络由多个传统以太网交换机互连成树形拓扑,光电路交换网络使用单一微机电系统(MEMS)交换机构建。
特点:
在主机上安装流量监控系统,光交换机接受测量数据,根据流量需求决定光交换机的配置。Edmonds的算法被用于解决完美匹配算法。使用了两个不同的vlan,一个用于基于分组的网络,另一个用于基于光电路的网络。虽然此方案能够在提供高通信带宽的同时保持网络的低复杂度,但实际部署比较困难。
B. Helios: A hybrid optical electrical switch
内容:
电子分组交换机用于吊舱交换机的全对全通信,而光电路交换机用于吊舱交换机之间的高带宽慢变化通信。
每个pod交换机都有无色光模块和WDM光模块:
- 无色光模块(如10G SFP+模块)用于连接pod交换机和核心电分组交换机。
- WDM光收发器通过无源光多路复用器(形成超链路)进行多路复用,并连接到光电路交换机。
拓扑管理器(TM)
拓扑管理器用于监控数据中心的流量,根据流量需求(如活动连接数、流量需求等)为光电路交换机找到最佳配置。
电交换机管理器(CSM)
电路开关管理器用于接收连接图和配置Glimmerglass MEMS开关。
Pod交换机管理器(PSM)
Pod交换机管理器托管在Pod交换机中,并与TM接口。
根据TM上的配置决策,pod管理器用于将包通过无色收发器路由到包交换机或通过WDM收发器路由到光电路交换机。
特点:
Helios控制方案由三个模块组成:拓扑管理器?、电路开关管理器(CSM)和Pod交换机管理器(PSM)。
优势: 它基于在光通信网络中广泛使用的现成的光模块和光收发器,使用商用全光交换机和WDM收发器实现网络成本和能耗的缩减。
缺点: 是它是基于MEMS开关的,因此电路开关的任何重构都需要几毫秒的时间(微光开关的重构时间为25毫秒)。
C. DOS: A scalable optical switch
内容:
DOS使用核心光交换架构直接互连所有服务器节点.该核心光交换架构具体包括TWC、AWGR和共享式环回缓存。源节点发送的分组通过光通道适配器进行电光转换,随后部署在输入端口的光标签提取器将提取分组头域信息,并将该信息送入控制层进行路由计算和仲裁。控制层将根据仲裁结果配置输入端口的TWC,光分组经过TWC时被转换到特定波长并路由到对应的输出端口。根据AWGR的波长路由特性,同一输入端口的信号通过不同的波长到达不同输出端口。
Control Plane: 控制TWC和LEs,用于解决争用和TWC调优。
SDRAM Buffer: 面临竞争的波长通过一个光电(O/E)转换器路由到SDRAM。然后这些包被存储在SDRAM中,一个共享缓冲控制器被用来处理这些包,该控制器将缓冲包的请求发送到Control Plane,并等待授权。当接收到授权后,从SDRAM中取回数据包,然后通过电光转换器将其转换回光信号,然后通过TWC转发到交换机。
特点:
DOS方案的可扩展性取决于AWGR的可扩展性和TWC的可调范围。包必须通过光开关,避免了电气开关缓冲区的延迟。
优势: DOS架构可以很容易地在胖树拓扑中进行扩展(例如,光交换机可以用于聚合层)。延迟几乎与输入端口的数量无关,即使在高输入负载时也保持低延迟。
缺点: 它是基于电缓冲器的拥塞管理,使用耗电的电光和光电转换器,因此增加了总功耗和包延迟。可调谐波长收发器,与当前交换机中使用的商用光收发器相比,这种收发器相当昂贵。
D. Proteus data center network
内容:
Proteus是基于WSS交换模块和基于MEMS的光交换矩阵的全光架构,每个ToR交换机有多个工作在不同波长的光模块。使用多路复用器组合光波长并路由到WSS。WSS复用每个波长到不同的组,每组连接到MEMS光开关的一个端口。
每个TOR交换机配置有数个工作在不同波长的光收发器,从这些收发器发送的多波长信号经过复用后输入1×K波长选择交换机,波长选择交换机根据配置将波长重分为K组,并通过K个端口将信号送入MEMS光交换机.通过配置MEMS交换机的交叉开关矩阵,每个TOR交换机可以与其他K个TOR交换机直接连接。
特点:
动态配置光交换机改变网络拓扑的连通性,通过波分复用技术和WSS实现链路带宽的灵活配置。在该架构中拓扑管理器(TM)负责完成 MEMS、WSS和TOR交换机的优化配置工作。
优点: 它基于广泛应用于光通信网络的现成光模块,降低了总体成本。
缺点: MEMS开关重新配置时间在几毫秒量级,会严重影响交换粒度和网络的性能。
E. Petabit Optical Switch
内容:
该网络由IM模块、CM(CenterModule)模块和OM(OutputModule) 模块互连成Clos拓扑。每个模块使用 AWGR作为 核心交换单元。CM模块和OM模块的输入端口位置配置有TWC以进行路由的控制,由于线卡的发射器已经包含可调激光器,因此连接线卡的IM模块不需要在输入端口配置TWC单元。相对基于单一AWGR的交换架构,Petabit需采用更加复杂的 配置过程来建立输入端口到输出端口的光路径。具体包括:输入模块( IMs )、中心模块( CMs )和输出模块( OMs )的三级光Clos网络,其中每个模块采用阵列波导光栅路由器( AWGR )作为核心。
特点:
数据包只在行卡处缓冲,而IMs、CMs和OMs不需要缓冲和光纤延迟线。
优点: 与基于商品交换机的数据中心网络相比,平均延迟低。
F . The OSMOSIS project
内容
这是一个基于波长和空间分割多路复用的低延迟光学广播和选择(B&S)架构。广播和选择架构分为两个阶段:
- 多个波长在一个共同的波分复用线复用,并通过耦合器广播到第二阶段的所有模块。
- 使用soa作为光纤选择门来选择将被转发到输出的波长。
特点
优点: 通过在两级(三级)胖树拓扑结构中部署多个交换机,可以有效地扩展交换机。
缺点: 它基于耗电的SOA设备,这会显著增加总体功耗。
G. Space-W avelength architecture
内容
一种基于空间波长交换的数据中心互联方案,在波长交换架构中,交换是通过在基于目的端口的不同波长(使用阵列固定激光器或快速可调谐激光器)传输数据包来实现的。每个端口需要一个固定的激光器,并使用一个基于SOA的无阻塞光开关来建立每个时隙的连接,方案有效地结合了波长和空间开关。
特点
可以通过增加更多的平面(波长)来扩展,从而增加聚合带宽并减少通信延迟。
卡间调度器:
- 每个卡都有一个卡间调度程序,用于数据包的调度和光模块的控制。
- 每个节点端口依靠卡间调度器连接阵列固定激光器,激光器连接到电光收发器,收发器在连接到1xM的空间开关。
H. E-RAPID
内容
可重构控制器用于控制交叉开关,并将节点分配给特定的VCSEL激光器。在任何给定的时间,每个波长上只有一个VCSEL激光器是活跃的。每个波长的耦合器用于选择将包转发到(SRS)的VCSEL。在接收器路径中,AWG用于将路由到接收器阵列的波长解复用。然后用交叉开关将每个接收方的数据包转发到板上相应的节点。
E-RAPID是一种节能可重构光学互连,该方案可用于高性能计算,同时也可部署在数据中心网络。E-RAPID可以动态地重新配置,即发射机端口可以重新配置为不同的波长,以便到达不同的板。
特点
其电源电流可根据流量负载进行调整,提出了一种基于网络流量需求的锁步(LS)算法,该算法可以控制比特率(和节电)。
优点: 功耗可以根据流量负载进行调整,比基于普通交换机的网络更低的延迟。
I. The IRIS project
内容
IRIS“光域数据网络”的研究项目,还基于波分复用技术和基于全光波长转换器的阵列波导光栅路由器(AWGR)的特性。IRIS架构基于三级开关。三级结构是动态无阻塞的,即使两个空间开关是部分阻塞的。
- 第一阶段由波长开关阵列(WS)组成,每个波长开关基于用于波长路由的全光soa波长转换器阵列。
- 第二阶段是由一组光学时间缓冲器组成的时间开关。时间开关由WC和两个AWG组成,其中WC和AWG由若干条光纤连接,每条光纤具有不同的延迟。WC根据需要增加的时延,将光信号转换成特定的波长,并按照需要的时延转发给AWG。
- 第三阶段延迟信号通过第二个AGW复用,并路由到第三级(第二个空间交换机)。根据最终的目的端口,将信号转换为AWG路由所需的波长。
特点
IRIS项目使用了4个10gbps的XFP收发器,并已在FPGA板中实现。波长转换所需时间小于1ns。
J. Bidirectional photonic network
内容
基于双向的基于soa的2x2交换机,可以在基于树的拓扑中有效伸缩,每个交换节点都是一个由6个soa组成的基于soabbased的2x2交换机。每个端口可以在纳秒内与其他端口建立任何连接。交换节点被连接成一个支持处理节点的榕树网络。
特点
与广播选择体系结构等其他基于soa的体系结构相比,使用双向交换机可以在组件成本、功耗和占用空间方面提供显著优势。
优点: 可以有效地扩展到大量节点,减少光模块的数量,从而降低功耗。节点的总数只受拥塞管理和所需的总延迟的限制。
K. Data vortex
内容
Data vortex是分布式互连网络,主要针对高性能计算系统(HPC),但也可应用于数据中心互连。
网络由节点组成,这些节点可以以基于半导体光放大器(SOA)的可配置方式同时路由分组和电路交换业务。soa组织在门阵列配置中,作为光子开关元件。
拓扑完全由2x2交换单元组成,这些交换单元排列在一个完全连通的、具有终端对称的有向图中。
特点
对于基于2x2交换机的数据漩涡,中间节点数M与端口数N成对数关系:M≈log2N。
缺点: 是榕树多阶段方案使其在扩展到大型网络时变得极其复杂。
L. Commercial optical interconnects
1).Polatis:
商业可用的数据中心光学互连,是基于压电光电路开关和光束控制技术。
本方案基于集中式光交换机,可根据网络流量需求进行重新配置。
低功耗,数据速率快。
基于光学MEMS交换的,因此增加了重构时间(根据数据表,最大切换时间小于20ms)。
2).Intune Networks:
Intune OPST技术主要用于传输网络,但它也可以用来替代数据中心的核心网络。
Intune网络开发了基于其快速可调谐光发射器[59]的光分组交换和传输(OPST)技术,每个节点通过快速可调谐激光(FTL)和突发模式接收器(BMR)连接到OPST织物(环)上。
优点: 大大低于基于商品交换机的等效网络所需功耗。
分类比较
与普通交换机相比,光纤互连为未来的数据中心网络提供了一个有前途和可行的解决方案。新兴的web应用(如社交网络、流媒体视频等)和云计算使低延迟高带宽的数据中心需求量更大。
A. Technology
大多数光学互连是全光学的,只有c-Through和Helios方案是混合的。但是只有流量需求由持续时间足够长、足以弥补重构开销的庞大流量组成,才可以提升网络总体带宽。因此全光方案才可以提供一个以低延迟和低功耗来维持增加的带宽的方案。
c-Through供了使用商品交换机对正在运行的数据中心进行增量升级的优势,降低了升级的成本。
Helios的ToR交换机可以通过增加光模块进行扩展,增加带宽,降低时延,同时使用现有的以太网进行全对全通信。
B. Connectivity
电路交换通常基于光学MEMS开关,增加了重构时间(几毫秒量级)。因此,这些方案主要针对需要长期大量数据传输的数据中心网络,如企业网络。
基于电路的光网络是针对数据中心的,在这些数据中心中,服务器中的并发流量的平均数量可以被光交换机中的电路连接数量所覆盖。
基于分组的光交换机与目前数据中心使用的网络类似。基于分组的交换要么采用阵列固定激光器,要么采用快速可调谐发射器,通过选择适当的波长来选择目标端口。基于分组的光交换更适合数据中心网络,在这种网络中,两个节点之间的流量持续时间非常小,通常需要所有节点之间的连接。
例外
Proteus架构,尽管它是基于电路交换的,但当两个节点不直接连接时,它会使用多个跳点,从而提供全对全的通信。
Petabit架构似乎有效地结合了电子和光学的最佳特性。电子缓冲器用于节点的拥塞管理,使用高效的调度程序,而全光帧交换用于数据平面。
C. Scalability
可扩展性对数据中心十分重要,光网路需要易于扩展到大量节点。
低:基于电路交换机的混合方案由于受到交换机光端口数量的限制而具有有限的可扩展性(例如,在Helios中使用的Glimmerglass光电路交换机最多支持64个端口)。
商业方案Polatis,OPST具有较低的可伸缩性,因为它们是基于端口数量有限的模块、
中:OSMOSIS、Proteus或DOS,都是通过一个中央交换机实现的,该交换机可以容纳有限数量的节点(通常受到波长通道数量的限制)
高:分布式系统,data-vortex也是一个高度可伸缩的系统,但是两个节点之间可能需要大量的跳数,这可能会影响通信延迟。
? 有的方案可以按照与当前网络相同的方式进行扩展,E-RAPID方案可以通过将集群中的模块连接起来,然后将集群连接到一个高数据速率的光环中来有效地进行扩展。
? Petabit和IRIS架构虽然基于中央交换机,但可以有效地扩展到采用Clos网络的大量节点。
D. Capacity
除了节点数量上的可扩展性外,提出的方案还必须易于升级到每个节点更高的容量。
基于MEMS开关(c-Through, Helios和Proteus)的电路开关架构可以很容易地升级到40 Gbps, 100 Gbps或更高的比特率,因为MEMS开关可以支持任何数据速率。
这些架构的每个节点容量由他的收发器决定,DOS、Petabit和IRIS架构都是基于可调谐波长转换器进行交换的。因此,每个节点的最大容量受TWC支持的最大数据速率(目前为160gbps)的限制。
OSMOSIS, Space-WL, Bidirectional和Data V ortex都是基于SOA设备的光交换,因此每个节点的最大支持容量是由SOA技术的数据速率定义的。
E. Routing
为了充分利用网络的容量,数据中心网络中数据包的路由与Internet路由(例如OSPF)有很大的不同。
在混合方案(c-Through和Helios)中,电力网络是基于树形拓扑结构,而光网络是基于节点之间的直接连接。因此,在这种情况下,路由由一个集中式调度程序执行二部图分配,并将高带宽请求分配给光链路。
在DOS架构下,报文直接发送到AWGR交换机,通过控制可调波长转换器,由控制平面进行路由。这种方案的主要缺点是控制平面中的调度器必须足够快,以维持数据包的调度。
在所有其他方案中,路由是在节点级执行的,其中每个包被转发到基于目的地址的特定波长的不同端口。
F . Prototypes
光学元件的高成本(例如一个WSS可能要几百美元)阻碍了完全可操作原型的实现。然而,在某些情况下,已经实现的原型要么是概念证明,要么是一个完整的系统。
Helios架构已经完全实现了,因为它是基于商业可用的光学集成电路、集成电路和集成电路的电信网络。数据V漩涡也已在小规模中实现,显示了对少量节点的概念证明。
在c-through方案中,虽然由于缺少光元件而没有实现,但已经评估了一个仿真系统,该系统通过将商品交换机修改为虚拟专用局域网来建立光链路。
成本及功耗
C-Through、Helios和Proteus方案基于现成的光模块,因此成本明显低于其他方案,这些方案需要专门为这些网络设计的特殊光组件。
Data vortex或DOS,是基于soa模块的,易于以低成本实现。
在当前和未来的数据中心,运营成本(OPEX)可能会超过设备成本(CAPEX)。这是由于相当一部分的费用分配给了电费。根据IDC的一项研究,IT设备的总成本多年来保持不变,而数据中心的电力和冷却成本显著增加。
总结
对于数据中心网络来说,光互连是一种很有前途的解决方案,它可以提供高带宽、低延迟和降低能耗。有些方案是混合的,提出通过增加光电路来升级现有网络,而另一些方案则提出针对未来的数据中心网络完全替换现有交换机。一些方案是基于现成的光学元件,而其他方案是基于先进的光学技术,在不久的将来将具有成本效益。大多数方案基于SOA技术进行交换,因为SOA提供比MEMS交换机和全对全通信更快的重新配置时间,而大多数基于SOA的网络拓扑也提供了高可伸缩性。一些新的方案如Proteus,表明即使有现成的光元件也可以实现高性能的光网络,支持全对全通信,低延迟和降低功耗。现成的元件会显著影响数据中心中光学方案的采用。然而,基于TWC和SOA的方案可以提供更高的容量和更好的可伸缩性。因此,它们可以以更有效的方式维持未来数据中心网络的需求。 总结*
对于数据中心网络来说,光互连是一种很有前途的解决方案,它可以提供高带宽、低延迟和降低能耗。有些方案是混合的,提出通过增加光电路来升级现有网络,而另一些方案则提出针对未来的数据中心网络完全替换现有交换机。一些方案是基于现成的光学元件,而其他方案是基于先进的光学技术,在不久的将来将具有成本效益。大多数方案基于SOA技术进行交换,因为SOA提供比MEMS交换机和全对全通信更快的重新配置时间,而大多数基于SOA的网络拓扑也提供了高可伸缩性。一些新的方案如Proteus,表明即使有现成的光元件也可以实现高性能的光网络,支持全对全通信,低延迟和降低功耗。现成的元件会显著影响数据中心中光学方案的采用。然而,基于TWC和SOA的方案可以提供更高的容量和更好的可伸缩性。因此,它们可以以更有效的方式维持未来数据中心网络的需求。
|