OCS,谷歌TPU爆发的最大增量!

科技
2025年 11-26 18:48:22
分享
近期连续发文强调了后英伟达时代算力内部的重构:一是计算架构的多元化,特别是以谷歌TPU为代表的专用集成电路ASIC的崛起;二是数据中心内部网络互联技术的根本性变革,其代表便是光路交换OCS。


今天再重点聊一下OCS。

......

OCS是数据中心内部的一座超高性能、可软件定义的“光纤立交桥”。


传统网络交换机,如以太网或InfiniBand交换机,每个数据包都需要进行路由判断和存储转发,在处理海量、持续的数据流时,会引入不可避免的延迟和拥塞。


光学电路交换机OCS通过微机电系统MEMS反射镜阵列等技术,在物理层面改变光束的传播路径,从而实现任意输入端口与任意输出端口之间的直接光连接,这种连接是“电路交换”的,数据流就可以像火车一样,以光速、近乎零延迟、无冲突地通过,直到任务完成。


而随着AI大模型的持续迭代升级,运算量越来越大。一个千亿乃至万亿参数的大模型,其训练任务会被拆分到数千个TPU或GPU上同时进行,这些芯片需要在每个训练步骤结束后,立刻相互同步梯度数据,每个节点都需要与所有其他节点通信,这个通信量巨大且持久,对网络带宽和延迟的要求达到了极致,所以OCS的优势愈发凸显。


简单来说,后AI算力时代大规模并行训练,是当前OCS需求爆发的本质。


全球云服务厂商和大型企业都在疯狂建设AI数据中心,每个这样的数据中心,都可能包含数十个乃至上百个由数千颗加速芯片组成的集群,而每一个这样的集群,都需要一个或多个OCS作为其网络核心。


预计到2028-2030年,其市场规模将从2023年的数亿美元增长至数十亿甚至百亿美元级别,年复合增长率超过30%。


......


目前,OCS已经俨然成为谷歌TPU的黄金搭档,成为谷歌TPU爆发的最大增量。


OCS有两种主要技术路径,一种是基于MEMS(微机电系统)的OCS,这是目前最成熟、应用最广泛的商用方案,其核心是一个由微小镜面组成的阵列,通过精确控制每个镜面的角度,可以将入射的光束反射到任意指定的输出端口。技术成熟、功耗低,端口数可以做得很大,但有一定延迟。


另一种是基于硅光的OCS,是一种更前沿的技术,它利用硅波导和热光/电光效应,通过芯片上的干涉仪结构来改变光路,实现开关功能,切换速度更快,但是目前技术难度和制造成本较高。


谷歌是MEMS-OCS路径最坚定、最成功的实践者,从其公布的专利和研究论文来看,谷歌自TPU v23时代就开始研发并部署基于MEMS的OCS,并将其深度整合到其TPU v45 Pod的Jupiter数据中心网络架构中。


有数据显示,引入OCS定制化网络后,谷歌网络的吞吐量提升了30%,功耗降低了40%,网络宕机时间减少了50倍,最关键的是,它让资本开支减少了30%。成功实现了性能的大度提升,验证了其在超大规模AI计算场景中的实用价值。


在最新的谷歌TPU(Ironwood)集群中,48台OCS交换机连接了9216个TPU芯片,构建了一个低延迟、高带宽的动态光子网络。


如果按照目前每年400万颗TPU组网测算,仅谷歌一家就将带动约2-4万台OCS交换机出货。





The End
欢迎来到嘉昌财经!我们致力于为广大用户提供专业、及时、全面的财经资讯。在这里,您将获取到准确的市场数据,助您把握投资机会提升财经知识与投资技能。我们以服务投资者为宗旨,努力成为您在财经领域值得信赖的信息伙伴。