FlashInfer v0.6.9 发布:为 SM120 Blackwell 新增 b12x 后端的 mm_fp4 与 CuTe DSL fused MoE、FP4 GEMM heuristic;MoE kernel 加 routing_replay_out、SM89 预过滤零占用 tactic,推理端 FP4 落地加速。
2026-04-25 Saturday · 回溯 36h · 共 12 条
今日无新条目。
FlashInfer v0.6.9 发布:为 SM120 Blackwell 新增 b12x 后端的 mm_fp4 与 CuTe DSL fused MoE、FP4 GEMM heuristic;MoE kernel 加 routing_replay_out、SM89 预过滤零占用 tactic,推理端 FP4 落地加速。
LangGraph prebuilt 1.0.11:ToolNode 现在允许工具直接返回 list[Command|ToolMessage],ToolRuntime 暴露当前可用工具清单,agent runtime 的工具调用协议更贴近 tool use 底层语义。
OpenAI Agents Python v0.14.6:默认模型升级到 GPT-5.5、放宽 websockets 上限到 <17、收紧 uv 依赖解析、新增 MongoDB 作为 agent session 后端的文档,agent SDK 持久化选项扩展。
PyTorch 主干回滚 Inductor 按 metadata 指纹更新 group combo 子 kernel 的改动,说明该策略在 combo kernel 场景下引入了回归,combo 调度仍在快速迭代。
PyTorch Inductor:combo 内 per-subkernel blocks 模式下跳过 max_persistent_rblock 约束,避免 combo kernel 在持久化 reduction 上被误裁剪,提升融合 kernel 的可调度性。
PyTorch Inductor 为 ROCm 的 FlexAttention 引入 target-dependent 默认 forward config,AMD GPU 上的 attention 编译路径不再沿用 NV 的调度参数,跨后端性能收敛。
PyTorch:为打了 Tag.out 的 custom operator 自动生成 fake/meta kernel(out= 参数按序返回),用户不再需要手写平凡的 meta 实现,export/编译路径的自定义算子接入成本下降。
PyTorch 主干回滚 cuBLAS/cuBLASLt 线程局部 workspace map 改动,多线程推理/训练里 cuBLAS workspace 的共享策略仍在权衡 OOM 与正确性。
... 还有 1 条未显示(见 cache/today_raw.json)
NVIDIA 在 Blackwell 和 GPU 加速 endpoint 上适配 DeepSeek-V4-Pro / V4-Flash:聚焦 Blackwell 上 MoE 推理的 kernel/调度栈与 NIM endpoint 部署路径,是推理部署侧的一手工程参考。
Qwen3.6-27B NVFP4+MTP 在单张 RTX 5090 上用 vLLM 0.19.1rc1 跑出 ~80 tps、218k 上下文:NVFP4 量化 + MTP 投机解码 + vLLM 长上下文 paged attention 的组合在消费级 Blackwell 上的实测配方。
Rose 优化器开源:声称无状态、显存低于 8bit AdamW、接近裸 SGD,PyTorch 接口 Apache 2.0。对大模型训练而言是 optimizer state 显存压缩的又一路线候选(需独立验证收敛质量)。