🧠 AI Infra 每日动态

2026-04-25 Saturday · 回溯 36h · 共 12 条

LLM 摘要 ✓ Data: 2026-04-25 22:02:25 CST Rendered: 2026-04-25 22:02:31 CST Source: today_curated.json

📄 重点论文 0/0

今日无新条目。

🚀 代码更新 8/9

Release v0.6.9
推理 FlashInfer · 04-24 22:20 CST · github.com kw 17.0

FlashInfer v0.6.9 发布:为 SM120 Blackwell 新增 b12x 后端的 mm_fp4 与 CuTe DSL fused MoE、FP4 GEMM heuristic;MoE kernel 加 routing_replay_out、SM89 预过滤零占用 tactic,推理端 FP4 落地加速。

FlashInferMLAFP8FP4attentionkernel
langgraph-prebuilt==1.0.11
Agent LangGraph · 04-25 02:18 CST · github.com kw 1.0

LangGraph prebuilt 1.0.11:ToolNode 现在允许工具直接返回 list[Command|ToolMessage],ToolRuntime 暴露当前可用工具清单,agent runtime 的工具调用协议更贴近 tool use 底层语义。

LangGraph
v0.14.6
Agent OpenAI Agents · 04-25 10:31 CST · github.com kw 0.0

OpenAI Agents Python v0.14.6:默认模型升级到 GPT-5.5、放宽 websockets 上限到 <17、收紧 uv 依赖解析、新增 MongoDB 作为 agent session 后端的文档,agent SDK 持久化选项扩展。

trunk/3e4bb17451a6e7fd45147e3b5f4fca2bd03103f9
训练 PyTorch · 04-25 17:50 CST · github.com kw 1.0

PyTorch 主干回滚 Inductor 按 metadata 指纹更新 group combo 子 kernel 的改动,说明该策略在 combo kernel 场景下引入了回归,combo 调度仍在快速迭代。

kernel
trunk/57e7ded57bc36ffe709c2fdf5704b558b23b44c2
训练 PyTorch · 04-25 17:21 CST · github.com kw 1.0

PyTorch Inductor:combo 内 per-subkernel blocks 模式下跳过 max_persistent_rblock 约束,避免 combo kernel 在持久化 reduction 上被误裁剪,提升融合 kernel 的可调度性。

kernel
trunk/45e9db74900da0ac0549ab69533cfadc74db0c40
推理 PyTorch · 04-25 16:52 CST · github.com kw 1.0

PyTorch Inductor 为 ROCm 的 FlexAttention 引入 target-dependent 默认 forward config,AMD GPU 上的 attention 编译路径不再沿用 NV 的调度参数,跨后端性能收敛。

attention
trunk/68535d0c7ffbfb8e2094315241b9b84f364734ad
推理 PyTorch · 04-25 20:52 CST · github.com kw 0.0

PyTorch 主干回滚 cuBLAS/cuBLASLt 线程局部 workspace map 改动,多线程推理/训练里 cuBLAS workspace 的共享策略仍在权衡 OOM 与正确性。

... 还有 1 条未显示(见 cache/today_raw.json)

📝 技术博客 1/1

Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints
推理 NVIDIA Developer Blog · 04-25 07:29 CST · developer.nvidia.com kw 2.0

NVIDIA 在 Blackwell 和 GPU 加速 endpoint 上适配 DeepSeek-V4-Pro / V4-Flash:聚焦 Blackwell 上 MoE 推理的 kernel/调度栈与 NIM endpoint 部署路径,是推理部署侧的一手工程参考。

GPUDeepSeek

💬 社区热议 2/2

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]
训练 r/MachineLearning · 04-24 19:05 CST · www.reddit.com kw 3.0

Rose 优化器开源:声称无状态、显存低于 8bit AdamW、接近裸 SGD,PyTorch 接口 Apache 2.0。对大模型训练而言是 optimizer state 显存压缩的又一路线候选(需独立验证收敛质量)。

attentionTPUPyTorch