🧠 AI Infra 每日动态

2026-04-23 Thursday · 回溯 36h · 共 19 条

LLM 摘要 ✓ Data: 2026-04-23 22:05:39 CST Rendered: 2026-04-23 22:05:51 CST Source: today_curated.json

📄 重点论文 6/6

Super Apriel: One Checkpoint, Many Speeds
推理 arXiv cs.LG · 04-23 12:00 CST · arxiv.org kw 7.8

Super Apriel:15B supernet 每层提供 FA/SWA/KDA/GDN 四种 mixer,单 checkpoint 通过切换 placement 在请求级动态换档,decode 吞吐覆盖 2.9×-10.7×。

LLM servingvLLMspeculative decodingattentiondecodingserving

🚀 代码更新 8/8

v0.20.0
推理 vLLM · 04-23 15:52 CST · github.com kw 1.0

vLLM v0.20.0 正式版:默认 CUDA 切到 13.0 并更新 CUDA 架构列表,部署端需同步升级构建工具链与镜像。

CUDA
26.04-alpha.rc1
训练 Megatron-LM · 04-23 16:22 CST · github.com kw 1.0

Megatron-LM 26.04-alpha:新增高优先级 all-to-all 通信流选项和 HybridEP 预处理 SM 配置,面向 MoE 大规模训练的 EP 通信优化。

A2A
trunk/4918ae2275816ece67672c0dc4891889cda297f0
推理 PyTorch · 04-23 13:26 CST · github.com kw 1.0

PyTorch Inductor 新增 _FastCudaLauncher:基于 vectorcall 的 C 扩展,为预绑定 CUDA kernel 降低 Python 侧启动开销。

CUDA
nv_dev_c491439
推理 DeepGEMM · 04-22 16:26 CST · github.com kw 0.0

DeepGEMM nv_dev 分支新快照:DeepSeek 自研 FP8 GEMM kernel 库持续迭代,是 DeepSeek 推理栈核心算子组件。

v0.14.5
Agent OpenAI Agents · 04-23 10:20 CST · github.com kw 1.0

OpenAI Agents Python v0.14.5:新增 Modal sandbox idle timeout 选项,修复 HITL 恢复时 tool output 的 serve 问题,以及流式终端输出回填。

TPU
langgraph-cli==0.4.24
Agent LangGraph · 04-23 02:49 CST · github.com kw 1.0

LangGraph CLI 0.4.24:小版本发布,主要是 CLI 格式化和 pip 依赖组升级,面向本地 graph 开发与部署流程稳定性。

LangGraph

📝 技术博客 1/1

💬 社区热议 4/4

Deepseek has released DeepEP V2 and TileKernels.
推理 r/LocalLLaMA · 04-23 17:57 CST · www.reddit.com kw 5.0

DeepSeek 发布 DeepEP V2 与 TileKernels:MoE EP 通信与 tile 级 kernel 两个核心组件同步迭代,是 DeepSeek 推理/训练栈的关键工程产出。

DeepEPkernelDeepSeek
Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post
推理 r/LocalLLaMA · 04-23 16:05 CST · www.reddit.com kw 9.0

llama.cpp 上用 Qwen3.6-27B 开投机解码,decode 速度从 13.6 t/s 翻到 25.5 t/s,本地部署开 spec 基本是白嫖收益的真实案例。

llama.cppspeculative decodingdecodingQwenLLaMA
Dags are the wrong abstraction for multi-agent systems
Agent HN Agent infra · 04-23 21:28 CST · www.band.ai kw 1.0

band.ai 观点文:DAG 不是多 agent 系统的正确抽象,讨论 agent 运行时需要动态拓扑、事件驱动和环状反馈,属于 agent runtime 设计层面的讨论。

agent system