联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

HASH GAME - Online Skill Game ET 300彻底解决网络哈希冲突百度百舸的高性能网络HPN落地实践

发布时间:2025-01-28 15:34:55  点击量:

  HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300彻底解决网络哈希冲突百度百舸的高性能网络HPN落地实践

  下图是百度百舸的高性能网络 HPN — AIPod 的架构示意图。AIPod 使用 8 导轨网络架构,以 GPU A800 服务器为例,它配有 8 张网卡,然后每张网卡分别连到一个 TOR 汇聚组的 8 个 TOR 上。在 TOR 和 LEAF 层面,我们是通过 Full Mesh 的方式进行互联。如果是三层 RDMA 网络,我们在 LEAF 和 SPINE 层面也是采用 Full Mesh 的互联方式。

  与此同时,机器 B 它如果也需要向其他机器进行通信,它也会把相关的流量发送给 TOR 1。此时,TOR 1 也会根据哈希结果来选择把流量转发给 LEAF 1 或者 LEAF 2。在这种情况下,在 TOR 1 的上行方向就会产生概率性的哈希冲突。比如双方都哈希到了 TOR 1 到 LEAF 1 这条链路,TOR 1 到 LEAF 2 这条链路相对空闲。此时机器 A 和机器 B 就会因为出口流量哈希不均的原因,导致各自只有 50 Gbps 的网络带宽,这样就会对通信的性能乃至端到端的性能产生很大的影响。

  用 Trainer 1 来举例,网卡在发送报文的时候,对发送的报了特殊的 AR bit 标记。当 TOR 识别到了该标记之后,就会对该报文走 DLB 转发逻辑,在转发给 LEAF 的时候会根据链路的实际负载来进行转发,将报文送到相对空闲的物理链路上,从而保证两条链路上的流量相对均衡。在这种情况下,由于同一条流的不同报文走了不同的转发路径,自然会发生乱序,因此当 Trainer 3 收到后,需要收到的乱序的报文进行重组。

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: