FASER 提出面向动态 LLM serving 的细粒度投机解码阶段管理,解耦 draft/verify 并按请求调整 spec 长度,低负载减尾延迟、高负载减浪费。
2026-04-23 Thursday · 回溯 36h · 共 19 条
FASER 提出面向动态 LLM serving 的细粒度投机解码阶段管理,解耦 draft/verify 并按请求调整 spec 长度,低负载减尾延迟、高负载减浪费。
PayPal 在 2×H100 上用 EAGLE3+vLLM 对比 NVIDIA NIM,gamma=3 时吞吐涨 22-49%、延迟降 18-33%,给工业界投机解码选参提供基准。
Super Apriel:15B supernet 每层提供 FA/SWA/KDA/GDN 四种 mixer,单 checkpoint 通过切换 placement 在请求级动态换档,decode 吞吐覆盖 2.9×-10.7×。
EnergAIzer:GPU 功耗估算框架,用轻量模型预测 kernel 利用率输入,把预估从小时级压到秒级,为数据中心功耗管理提供实用工具。
LEO 跨 NVIDIA/AMD/Intel GPU 做 stall 根因分析,通过 backward slicing 把停顿指令归因到源代码,给多厂商 GPU 性能调优提供统一工具链。
Expert Upcycling:在继续预训练阶段把已训 E-expert MoE 扩展到 mE-expert,降低 MoE 扩容的通信与显存开销,属于 MoE 训练可用的工程方法。
vLLM v0.20.0 正式版:默认 CUDA 切到 13.0 并更新 CUDA 架构列表,部署端需同步升级构建工具链与镜像。
Megatron-LM 26.04-alpha:新增高优先级 all-to-all 通信流选项和 HybridEP 预处理 SM 配置,面向 MoE 大规模训练的 EP 通信优化。
PyTorch Inductor 新增 _FastCudaLauncher:基于 vectorcall 的 C 扩展,为预绑定 CUDA kernel 降低 Python 侧启动开销。
PyTorch DeviceMesh 强制 2 级 Layouts:顶层分离 mesh 逻辑维度、内层走 canonical 扁平形式,消除递归 IntTuple 的歧义,提升分布式代码鲁棒性。
PyTorch Inductor 引入 CacheabilityValidator:统一 FX 图缓存可用性判定,把 FxGraphCache、AOTAutograd、pickler 全路由到同一校验器。
DeepGEMM nv_dev 分支新快照:DeepSeek 自研 FP8 GEMM kernel 库持续迭代,是 DeepSeek 推理栈核心算子组件。
OpenAI Agents Python v0.14.5:新增 Modal sandbox idle timeout 选项,修复 HITL 恢复时 tool output 的 serve 问题,以及流式终端输出回填。
LangGraph CLI 0.4.24:小版本发布,主要是 CLI 格式化和 pip 依赖组升级,面向本地 graph 开发与部署流程稳定性。
NVIDIA 在 Megatron 里集成 Shampoo 等高阶优化器用于加速 LLM 训练,讨论工程落地与收敛质量权衡,是 MoE/超大模型训练优化器选型参考。
DeepSeek 发布 DeepEP V2 与 TileKernels:MoE EP 通信与 tile 级 kernel 两个核心组件同步迭代,是 DeepSeek 推理/训练栈的关键工程产出。
llama.cpp 上用 Qwen3.6-27B 开投机解码,decode 速度从 13.6 t/s 翻到 25.5 t/s,本地部署开 spec 基本是白嫖收益的真实案例。
工程讨论:FP16+ONNX+剪枝瓶颈后接下来的路线,涉及 GPTQ/AWQ/SmoothQuant INT8-INT4 量化、低秩分解、蒸馏、TensorRT/FlashAttention 等推理优化栈选型。
band.ai 观点文:DAG 不是多 agent 系统的正确抽象,讨论 agent 运行时需要动态拓扑、事件驱动和环状反馈,属于 agent runtime 设计层面的讨论。