预填充即服务跨数据中心

清华联手Moonshot AI推出PrfaaS:革新跨数据中心技术

随着大型语言模型(LLM)推理对计算资源需求的增长,传统服务架构面临瓶颈。Moonshot AI 与清华大学推出预填充即服务(PrfaaS)架构,通过将预填充任务卸载到专用高计算集群,并利用以太网传输KVCache到本地解码集群,实现跨数据中心高效服务。该架构将计算、网络和存储子系统分开管理,采用精确路由和双时间尺度调度机制,有效避免资源拥堵,显著提升