英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
采用基于波长不经意路由的高能效全光片上互连
Nevin Kırman Jose F. Martinez
Computer Systems Laboratory
Cornell University
Ithaca, NY 14850 USA
http://m3.csl.cornell.edu/
抽象
我们提出了一个全光的方法来构建数据网络上的芯片,结合以下主要特点:(1)Wavelengthbased路由,该路由随后的分组完全取决于它的载波信号的波长,而不是在信息或者包含在分组或与它一起移动。 (2)通过不经意路由波长(以及由此产生的路线)来连接一个源 – 目标对是不变的。并且不依赖于正在进行的传输的其它节点,从而简化设计和操作。和(3)无源光波路由器,其路由选择模式被设定在设计的时候,一般允许不提供给使用动态路由解决方案面积和功率优化。相比于之前的建议,我们的评价表明,在性能相近的水平上我们的解决方案是显著更省电。
分类和主题描述C.1.2 [处理器架构]:多数据流架构(多处理器); B.4.3 [输入/输出和数据通信]:互连(子系统)
一般条款设计,性能
关键词:片上网络,光网络,基于波长路由不经意,纳米光子学
1.引言
未来的大规模片上多处理器(CMPS)将面临喂养数据片上内核在足够高的速度的挑战,无论是从片外和片上的来源。电片上数据网络有可能受到严重的限制片上功率预算,以及长时间的多跳延迟约束。CMOS兼容的硅光子是一种颠覆性的技术,可以潜在地提供高带宽,低时延和低功耗的互连解决方案。最近,在CMOS兼容,大小,集成,效率显著进步,基本的纳米光子器件的高速运转已经达到[4–6,20,34,35,39 ]。集成光学链路最近已证实[7]。热灵敏度问题也在研究之中[18]。被这种迅速发展的纳米光子学的驱使下,ITRS认为,芯片上的光学互连作为未来工艺技术替代全球电线[14]。
高带宽,低延迟的片上光网络可以显著有助于应用以及操作系统:
它可以减少并行线程之间的数据共享的开销,提高并行效率和可伸缩性。通过减少全球通信的成本,并提供更均匀的访问内核和存储器,它也可以简化存储器管理,线程调度和资源共享。其结果是,纳米光子学最近引起在计算机体系结构领域的极大兴趣,在大规模的CMPS的背景下。我们简要回顾一下在这里受到的最新的贡献:
Kırman等人。 [15]使用在一个完整的基于广播的数据通信的光学交叉开关。它是一种高带宽,低延迟的组织,它不要求全球性的仲裁。然而, O(N 2)检测器/接收机的要求对于高的节点计数(N)很可能是一个问题,在纯粹的元件数量和处理所有的信息的复杂性上,一个节点可以被同时接收。作者还表明,他们的设计的完全光学实现由于过度功耗而不能存在。在他们的最终解决方案中,作者诉诸群集电光组织,在光学交叉开关减少节点的数目上遏制这种问题。一个集群电光学方法的缺点是其潜在可能受到电气方面的延迟和功耗的限制。他们的研究结果表明适度的加速为一些SPLASH-2应用程序相对于完全的电气解决方案。相对于一个完全的电气解决方案,他们的研究结果表明适度的加速为一些SPLASH-2应用程序。同样,Pan等人。 [25]采用以分层电光学拓扑的光学交叉开关。群集内通信经由电分组交换网络提供便利,和簇间的通信进行对多个的光学交叉开关,每个连接所述路由器在每个群集的相同的位置。该组织保留了所有的路由器和很多路由器到路由器布线的传统电网,限制了光子具有offer.ster潜在的收益。Shacham等, [26]提出了一种电路交换的片上光子网络以可重构宽带光开关。发送数据分组,需要设置的光路的破裂,并且这些被进行了电分组交换网络,其中,每个电路由器配置的光学开关。这使得有必要将光网络(远远超出了典型的高速缓存块的大小)上发送数百字节的数据分组摊销安装/击穿成本。流量控制是基于丢弃数据包阻塞和自适应路由的组合,虽然论文不完全证实如何向前进展的保证。
Cianchetti等。 [8]提出了另一种基于交换机的的片上网络的光子。它采用基于源的路由和可重构光学开关路由数据。开关安装是通过将沿数据到电形式行进的光控制信号,并相应地设置开关进行。光学数据信号必须在整个控制设置保持稳定(即传输的速率取决于控制网络),这可能会限制有效带宽。在竞争输出端口仲裁,如果有足够的缓冲存在,或干脆丢弃,“损失”的数据包是存在电缓存的。面对网络密集型工作负载,在每个交换机上网络可能需要大缓存,以减少数据包丢失率以及任何相关的性能损失。即使这样,本文并未指出如何进展以保证数据包的丢失情况的存在。
不同于以上的工作,antrease等。[29]提出了一种完全光纤解决方案。它是一种高带宽,低等待时间的光学交叉开关,它使用基于标记的的光学仲裁的数据传输序列化到每个节点。他们报告显著的加速了SPLASH-2应用在CMP配置相对于电分组交换网络上运行。
每个节点有一个单独的端口作为所有其他节点的数据信道,需要O(N2)调制器/发射器,即使在同一时间只有O(N)是活动的。基于令牌的仲裁可以限制有效吞吐量,特别是根据通道拥挤条件。大量组件,特别是高节点计数,使得这个架构的可行性高度依赖其以控制功率消耗和信号的光学部件的损失的能力,这将严重依赖于成熟和采用的光学技术的效率。我们的评估重温这一做法,并评估所采用的技术的影响。
我们相信,一个精心的设计可以提供一个根本上的功率效率的全光的解决方案,是合理的技术方面的考虑。在这项工作中,我们对于这样的做法争议。具体而言,我们提出的解决方案结合了以下主要特点:
基于波长的路由。每个光学路由器中,经由分组的路线完全取决于它的载波信号的波长,不包含信息或者包含分组或与它一起移动。这使我们能够采用一种数据传输的解决方案,在答复/光电转换支持在每个路由器路线是不必要的。同样的,Wavelength-based路由在光学局域网/广域网技术是一种受欢迎的方法[41]。
(Oblivious routing)不经意的路由。用来连接一个源 - 目的地的波长(以及因此的路线)是不变, 并且不依赖于正在进行的传输由其他节点, 从而简化设计和操作。
(Passive optical routers.) 无源光纤路由器。它们的路由模式在设计时已经被设置,这导致一般不提供使用动态路由解决方案的面积和功耗的优化。这也意味着没有时间在路由/仲裁决定时丢失。在我们的设计,我们构建全光网络层,其中每个节点物理连接到通过静态路径的所有其他节点。然后,我们复制这种网络层,以增加带宽。为了建立联系,我们采取基于连接的方法:源节点首先建立与目的节点发送数据之前的逻辑连接。在两个相同的和不同的网络层,一个节点可以同时连接到多个节点。这样以连接为基础的方法可以使应用受益,通过形成在网络层逻辑连接用来匹配应用的通信模式,从而减少全球的仲裁和简化数据传输。它还提供了专门的通信节点组之间良好的隔离。我们建议用隐藏和/或摊销连接的技术来设置开销。
(The flow of the paper is as follows:)本文的流程如下:首先,我们构造了一个波长路由,全光纤网络的CMP和描述它的基于连接的操作。然后,我们评估了等待时间,成本,功耗和所提出的网络中的一个64芯的背景下的性能,256线程共享内存CMP设计,和比较反对其他最近的片上光学互连的建议。
2.体系结构
2.1.CMP架构
我们研究的CMP架构包括64 2的问题,按顺序,4路多线程内核与他们的私人L1 I和D-缓存。每个核心增加有4路SIMD支持,向1 TFLOP/ s的总峰值性能的CMP,提供16 GFLOP/ s的峰值性能为4 GHz的核心频率。核心组织集群四个,每个集群内核心共享一个二级缓存。该系统还采用了八个内存控制器,每个内存控制器为8个高速缓存块交错的L3高速缓存 内存仓库各一个提供访问。每个控制器可以高达256 GB/秒进行传送。使用MESI基于探听协议,以及一个流水线分离事务光电命令/探听总线,在跨越L2缓存和较低级别的L3高速缓存和内存时,其共享内存系统保持一致性。这种方式沿用Kırman 等人运行在处理器频率的做法。 [15],高速缓存块的实际传输发生在数据网络中,这是我们研究的重点。在以下章节中,我们描述了一个连接十六个二级缓存节点和八个内存控制器节点的不经意波长路由、全光纤数据网络的设计和操作。4.1节提供了CMP架构的更多细节。
2.2.网络底层
在基于波长的路由,某个分组在网络中的每个点的路线完全取决于它的载波信号的波长。这是有利的,因为它使我们能够提供端到端的光数据传输,而不必承担OE / EO转化率和缓冲以便路线是根据它的内容的数据包。此外,不经意路由决定了一个给定的源 - 目的地对总是经由预定波长连通,它不依赖于其它源 - 目的地对之间的正在进行的传输。它使我们使用无源光路由器在网络上提供连接,根据预先设定的微环谐振器,它会自动路由正确的道路到目的地的每个波长。理想的情况下,人们可以进行多维设计空间探索(拓扑,路由等),以制定一个同时优化了成本,复杂性和性能的网络。为简单起见,在本文中,我们选择一个合理的正规的物理拓扑结构,然后制定出一个可行的路由方案,有效地提供这三个特点。一些初步试验后,我们选择一个24节点,二维圆环。二维圆环是因为有吸引力的,我们将在后面看到,它产生的比较简单的路由器和波导的布局。
2.2.1.波长分配的不经意路由
在不经意路由,每个源 - 目的地对,必须有一个指定的波长并通过它李来通信。一个不重要的方式来做到这一点,是采用尽可能多的波长为不同的源 - 目的地对的数目。然而,这不仅是少有(O(N)的波长,其中,N是节点的数量),但也没有必要。的确,AGGARWAL等[1]。证明显著波长复用是可能的。具体地,为了支持不经意路由在网络中有N个节点所需要的波长的数目是,假定通信是一对一的。
图1波长复用,其中Wk必须不同于无线网络,以确保无干扰接收,举个例子,为简单起见,对B→X波长分配未示出。
图2最佳波长分配被使用在不经意路由在一个12节点的波长路由的光纤网络,Aggarwal等人发现。矩阵中的(I,J)元素给出波长在当节点i需要将数据发送到节点j必须使用。波长(标记为0到7)是必需的。例子I, II和 III显示波长复用的例子。
图3.在本研究采用的6times;4二维环面。
节点的交换标签2-3和14-15做的目的是帮助遗传算法找到一个可行的路由解决方案。
显示从实际解决方案几个路由路径。
波长复用需要仔细分配。图1显示了一些简单的重用方案。在3个例子中,我们要支持的通信模式是A→X,B→Y。在案例一,发送到节点X或节点Y时,点A被配置为使用波长的无线。因此,B与通信时一定要用WK6=无线网络; 否则,当A发送给X和B时同时也会发送至Y,A和B的信号会干扰Y。在案例二,A和B都设置为使用相同的波长无线网络,这时他们与Y连通。在这种情况下,如果A使用WK 6=Wi与x连通,A→X,B→Y的只能是成功的。最后,案例三表示每当发送到X和Y时,A和B在哪里设置为使用波长Wi。在这种情况下,A的波长对于Y来说必须是WK6=Wi,否则Y将从A收到的信息作为发射的对于X来说副产品,这会干扰B的。
在我们的工作,我们使用AGGARWAL等[1]提出的算法,得到为24节点系统分配的波长。图2是一个例子,显示了使用八个波长的12个节点的网络(标记为0到7)的一个解决方案。在矩阵中的元素(I,J)包含i节点需要通信节点j时必须使用的波长。还有值得注意的是波长复用:源节点可以使用相同的波长与其它若干节点进行通信(情况I); 多个源节点可能使用相同的波长与其它相似的节点进行通信,以(情况II); 不相交的源 - 目的对
还可以使用相同的波长(情况III)。尽管如此,波长分配是这样的,不同的源 - 目的地对之间一对一通信在任何一个接收器上可以同时举行而没有冲突。在我们的工作,我们预先使用基于连接的协议成立了通信对。
2.2.2.波长通路布局
一旦我们得到的所有源 - 目的地对的波长分配,我们必须确定圆环网络上的确切路径的波长,这涉及到确定波长路由器的静态路由配置。从源节点的波长应只能达到由分配指定的目的地。网络上的波导段的有限数量使得它满足该路由约束具有挑战性。在最坏的情况下,
它可能无法对波长分配映射。我们必须寻找配置空间和找到一个从所有节点都能成功路线的波长,在不相交源 - 目的地对的路径之间的物理介质内一定无波长冲突。请注意,因为我们使用完全光传输,非最小的路由不一定是关注,而事实上,他们对可以使一个成功的路由的范围是有吸引力的。手动搜索是望而却步费时又容易出错。出于这个原因,我们实现一种基因算法(GA)的自动找到一个可行的配置。我们解决在同一时间只能有一种波长的问题,观察到对于不同波长的解决方案是彼此独立的。我们的GA始于一组随机生成的配置。在每个初始配置,
对于每个通过波长连通的源 - 目的地对,有一个用的路由器输出端口的列表从源头始发和表示的随机路由。我们提出对路由的跳数的上限。对GA的工作方式相对的一个解决方案,即通过将多目标适应度函数(越低越好),由公式1给出。式中,布尔运算符在C编程语言评估。
第一种组分Phi;1提供所研究的使用波长的全局视图。C和T代表当前和目标连接矩阵的结构,分别为:Cij(TIJ)设置当且仅当波长被优化的光学连接(应连接)i to j, i → j。
C和T之间的分歧意味着,无论是连接或无干扰可能会受到影响,而且在这种情况下进行评估。该公式还评估了代价,如果两条路由源自我和去不同的目的地重新收敛(即,它们是不相交的在某一点,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28883],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。