AI Infra 每日动态 - 2026-04-25 Saturday

🚀 代码更新 8/9

推理 FlashInfer · 04-24 22:20 CST · github.com kw 17.0

FlashInfer v0.6.9 发布：为 SM120 Blackwell 新增 b12x 后端的 mm_fp4 与 CuTe DSL fused MoE、FP4 GEMM heuristic；MoE kernel 加 routing_replay_out、SM89 预过滤零占用 tactic，推理端 FP4 落地加速。

FlashInferMLAFP8FP4attentionkernel

langgraph-prebuilt==1.0.11

Agent LangGraph · 04-25 02:18 CST · github.com kw 1.0

LangGraph prebuilt 1.0.11：ToolNode 现在允许工具直接返回 list[Command|ToolMessage]，ToolRuntime 暴露当前可用工具清单，agent runtime 的工具调用协议更贴近 tool use 底层语义。

LangGraph

v0.14.6

Agent OpenAI Agents · 04-25 10:31 CST · github.com kw 0.0

OpenAI Agents Python v0.14.6：默认模型升级到 GPT-5.5、放宽 websockets 上限到 <17、收紧 uv 依赖解析、新增 MongoDB 作为 agent session 后端的文档，agent SDK 持久化选项扩展。

trunk/3e4bb17451a6e7fd45147e3b5f4fca2bd03103f9

训练 PyTorch · 04-25 17:50 CST · github.com kw 1.0

PyTorch 主干回滚 Inductor 按 metadata 指纹更新 group combo 子 kernel 的改动，说明该策略在 combo kernel 场景下引入了回归，combo 调度仍在快速迭代。

kernel

trunk/57e7ded57bc36ffe709c2fdf5704b558b23b44c2

训练 PyTorch · 04-25 17:21 CST · github.com kw 1.0

PyTorch Inductor：combo 内 per-subkernel blocks 模式下跳过 max_persistent_rblock 约束，避免 combo kernel 在持久化 reduction 上被误裁剪，提升融合 kernel 的可调度性。

kernel

trunk/45e9db74900da0ac0549ab69533cfadc74db0c40

推理 PyTorch · 04-25 16:52 CST · github.com kw 1.0

PyTorch Inductor 为 ROCm 的 FlexAttention 引入 target-dependent 默认 forward config，AMD GPU 上的 attention 编译路径不再沿用 NV 的调度参数，跨后端性能收敛。

attention

trunk/7de21d5cf22abd13bfa388da3811a1afcaf8f4e3: Auto-generate fake kernels for Tag.out custom operators (#180987)

训练 PyTorch · 04-25 09:11 CST · github.com kw 1.0

PyTorch：为打了 Tag.out 的 custom operator 自动生成 fake/meta kernel（out= 参数按序返回），用户不再需要手写平凡的 meta 实现，export/编译路径的自定义算子接入成本下降。

kernel

trunk/68535d0c7ffbfb8e2094315241b9b84f364734ad

推理 PyTorch · 04-25 20:52 CST · github.com kw 0.0

PyTorch 主干回滚 cuBLAS/cuBLASLt 线程局部 workspace map 改动，多线程推理/训练里 cuBLAS workspace 的共享策略仍在权衡 OOM 与正确性。

... 还有 1 条未显示（见 cache/today_raw.json）

📝 技术博客 1/1

Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints

推理 NVIDIA Developer Blog · 04-25 07:29 CST · developer.nvidia.com kw 2.0

NVIDIA 在 Blackwell 和 GPU 加速 endpoint 上适配 DeepSeek-V4-Pro / V4-Flash：聚焦 Blackwell 上 MoE 推理的 kernel/调度栈与 NIM endpoint 部署路径，是推理部署侧的一手工程参考。

GPUDeepSeek

💬 社区热议 2/2

Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19

推理 r/LocalLLaMA · 04-25 18:21 CST · www.reddit.com kw 8.0

Qwen3.6-27B NVFP4+MTP 在单张 RTX 5090 上用 vLLM 0.19.1rc1 跑出 ~80 tps、218k 上下文：NVFP4 量化 + MTP 投机解码 + vLLM 长上下文 paged attention 的组合在消费级 Blackwell 上的实测配方。

vLLMFP4QwenLLaMA

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

训练 r/MachineLearning · 04-24 19:05 CST · www.reddit.com kw 3.0

Rose 优化器开源：声称无状态、显存低于 8bit AdamW、接近裸 SGD，PyTorch 接口 Apache 2.0。对大模型训练而言是 optimizer state 显存压缩的又一路线候选（需独立验证收敛质量）。

attentionTPUPyTorch

🧠 AI Infra 每日动态

📄 重点论文 0/0

🚀 代码更新 8/9

📝 技术博客 1/1

💬 社区热议 2/2