AI Infra 每日动态 - 2026-04-23 Thursday

📄 重点论文 6/6

FASER: Fine-Grained Phase Management for Speculative Decoding in Dynamic LLM Serving

推理 arXiv cs.DC · 04-23 12:00 CST · arxiv.org kw 18.0

FASER 提出面向动态 LLM serving 的细粒度投机解码阶段管理，解耦 draft/verify 并按请求调整 spec 长度，低负载减尾延迟、高负载减浪费。

LLM inferenceLLM servingvLLMspeculative decodingveRLdecoding

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

推理 arXiv cs.LG · 04-23 12:00 CST · arxiv.org kw 9.0

PayPal 在 2×H100 上用 EAGLE3+vLLM 对比 NVIDIA NIM，gamma=3 时吞吐涨 22-49%、延迟降 18-33%，给工业界投机解码选参提供基准。

vLLMspeculative decodingNeModecodingGPUH100

Super Apriel: One Checkpoint, Many Speeds

推理 arXiv cs.LG · 04-23 12:00 CST · arxiv.org kw 7.8

Super Apriel：15B supernet 每层提供 FA/SWA/KDA/GDN 四种 mixer，单 checkpoint 通过切换 placement 在请求级动态换档，decode 吞吐覆盖 2.9×-10.7×。

LLM servingvLLMspeculative decodingattentiondecodingserving

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

推理 arXiv cs.AR · 04-23 12:00 CST · arxiv.org kw 3.0

EnergAIzer：GPU 功耗估算框架，用轻量模型预测 kernel 利用率输入，把预估从小时级压到秒级，为数据中心功耗管理提供实用工具。

kernelGPUH100

LEO: Tracing GPU Stall Root Causes via Cross-Vendor Backward Slicing

推理 arXiv cs.DC · 04-23 12:00 CST · arxiv.org kw 2.0

LEO 跨 NVIDIA/AMD/Intel GPU 做 stall 根因分析，通过 backward slicing 把停顿指令归因到源代码，给多厂商 GPU 性能调优提供统一工具链。

kernelGPU

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

训练 arXiv cs.LG · 04-23 12:00 CST · arxiv.org kw 1.2

Expert Upcycling：在继续预训练阶段把已训 E-expert MoE 扩展到 mE-expert，降低 MoE 扩容的通信与显存开销，属于 MoE 训练可用的工程方法。

servingGPU

🚀 代码更新 8/8

v0.20.0

推理 vLLM · 04-23 15:52 CST · github.com kw 1.0

vLLM v0.20.0 正式版：默认 CUDA 切到 13.0 并更新 CUDA 架构列表，部署端需同步升级构建工具链与镜像。

CUDA

26.04-alpha.rc1

训练 Megatron-LM · 04-23 16:22 CST · github.com kw 1.0

Megatron-LM 26.04-alpha：新增高优先级 all-to-all 通信流选项和 HybridEP 预处理 SM 配置，面向 MoE 大规模训练的 EP 通信优化。

A2A

trunk/4918ae2275816ece67672c0dc4891889cda297f0

推理 PyTorch · 04-23 13:26 CST · github.com kw 1.0

PyTorch Inductor 新增 _FastCudaLauncher：基于 vectorcall 的 C 扩展，为预绑定 CUDA kernel 降低 Python 侧启动开销。

CUDA

trunk/54995bf85913f90777eace2ced0d2c7854d083a6: [DeviceMesh] Enforce 2-level Layouts (#181223)

训练 PyTorch · 04-23 20:40 CST · github.com kw 0.0

PyTorch DeviceMesh 强制 2 级 Layouts：顶层分离 mesh 逻辑维度、内层走 canonical 扁平形式，消除递归 IntTuple 的歧义，提升分布式代码鲁棒性。

trunk/3646a5df996c7ed344fbaba6b35ecd6164181e48: Centralize FX graph cacheability validation (#180795)

推理 PyTorch · 04-23 16:52 CST · github.com kw 2.0

PyTorch Inductor 引入 CacheabilityValidator：统一 FX 图缓存可用性判定，把 FxGraphCache、AOTAutograd、pickler 全路由到同一校验器。

compilerPyTorch

nv_dev_c491439

推理 DeepGEMM · 04-22 16:26 CST · github.com kw 0.0

DeepGEMM nv_dev 分支新快照：DeepSeek 自研 FP8 GEMM kernel 库持续迭代，是 DeepSeek 推理栈核心算子组件。

v0.14.5

Agent OpenAI Agents · 04-23 10:20 CST · github.com kw 1.0

OpenAI Agents Python v0.14.5：新增 Modal sandbox idle timeout 选项，修复 HITL 恢复时 tool output 的 serve 问题，以及流式终端输出回填。

TPU

langgraph-cli==0.4.24

Agent LangGraph · 04-23 02:49 CST · github.com kw 1.0

LangGraph CLI 0.4.24：小版本发布，主要是 CLI 格式化和 pip 依赖组升级，面向本地 graph 开发与部署流程稳定性。

LangGraph

📝 技术博客 1/1

Advancing Emerging Optimizers for Accelerated LLM Training with NVIDIA Megatron

训练 NVIDIA Developer Blog · 04-23 04:01 CST · developer.nvidia.com kw 0.0

NVIDIA 在 Megatron 里集成 Shampoo 等高阶优化器用于加速 LLM 训练，讨论工程落地与收敛质量权衡，是 MoE/超大模型训练优化器选型参考。

💬 社区热议 4/4

Deepseek has released DeepEP V2 and TileKernels.

推理 r/LocalLLaMA · 04-23 17:57 CST · www.reddit.com kw 5.0

DeepSeek 发布 DeepEP V2 与 TileKernels：MoE EP 通信与 tile 级 kernel 两个核心组件同步迭代，是 DeepSeek 推理/训练栈的关键工程产出。

DeepEPkernelDeepSeek

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

推理 r/LocalLLaMA · 04-23 16:05 CST · www.reddit.com kw 9.0

llama.cpp 上用 Qwen3.6-27B 开投机解码，decode 速度从 13.6 t/s 翻到 25.5 t/s，本地部署开 spec 基本是白嫖收益的真实案例。

llama.cppspeculative decodingdecodingQwenLLaMA

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

推理 r/MachineLearning · 04-23 19:06 CST · www.reddit.com kw 18.0

工程讨论：FP16+ONNX+剪枝瓶颈后接下来的路线，涉及 GPTQ/AWQ/SmoothQuant INT8-INT4 量化、低秩分解、蒸馏、TensorRT/FlashAttention 等推理优化栈选型。

FlashAttentionINT4GPTQAWQSmoothQuanttransformer

Dags are the wrong abstraction for multi-agent systems

Agent HN Agent infra · 04-23 21:28 CST · www.band.ai kw 1.0

band.ai 观点文：DAG 不是多 agent 系统的正确抽象，讨论 agent 运行时需要动态拓扑、事件驱动和环状反馈，属于 agent runtime 设计层面的讨论。

agent system