🧠 AI Infra 每日动态

2026-04-22 Wednesday · 回溯 36h · 共 19 条

LLM 摘要 ✓ Data: 2026-04-22 22:02:59 CST Rendered: 2026-04-22 22:03:11 CST Source: today_curated.json

📄 重点论文 7/7

ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants
Agent arXiv cs.DC · 04-22 12:00 CST · arxiv.org kw 13.0

ARGUS 用 data-flow invariants 作为编译期规范,让 coding agent 协同优化 tiling/shared-mem/流水线,弥补 GPU kernel 生成的稀疏 pass/fail 反馈;给 MoE/attention 等关键算子提供结构化诊断信号。

LLM inferenceGPU kernelattentionkernelcompilerGPU
UniEP: Unified Expert-Parallel MoE MegaKernel for LLM Training
训练 arXiv cs.DC · 04-22 12:00 CST · arxiv.org kw 11.0

UniEP 把 MoE expert parallel 拆散的通信压缩、计算通信 overlap 统一到一个 megakernel 里,兼顾数值稳定性,目标是让 Megatron-LM 能产品级接入,而不是堆 ad-hoc kernel。

expert parallelMegatron-LMveRLkernelGPU
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark
推理 arXiv cs.AR · 04-22 12:00 CST · arxiv.org kw 4.0

CASS 放出 6 万对 CUDA↔HIP、SASS↔RDNA3 验证过的 host-device 代码对,训出跨架构转译模型,CUDA→HIP 88.2% 正确率,显著优于 GPT-5.1 / Claude-4.5 / Hipify。

servingcompilerGPUCUDA

🚀 代码更新 8/8

trunk/89ed986a77847a4cec520920f6d27baa72102995
推理 PyTorch · 04-22 19:00 CST · github.com kw 4.0

PyTorch Inductor combo kernel 的 jit_line 改用 triton_meta_common() 统一生成 disabled 元信息,减少 combo/standalone kernel 之间 Triton meta 生成路径的分叉。

tritonkernel
langgraph==1.1.9
Agent LangGraph · 04-21 21:43 CST · github.com kw 1.0

LangGraph 1.1.9 修了一个 bug:plain resume 场景下 ReplayState 不该传播到 subgraph,否则会串状态。属于 agent runtime 里 checkpoint/resume 语义边界的清理。

LangGraph
v0.14.4
Agent OpenAI Agents · 04-22 05:37 CST · github.com kw 0.0

OpenAI Agents SDK 0.14.4 加 BoxMount 支持,重构 sandbox 临时 mount 生命周期 / tar exclude 参数 / session helper;对 computer-use agent 的沙箱 runtime 细节有直接影响。

LLVM 22.1.4
推理 LLVM/MLIR · 04-21 21:55 CST · github.com kw 0.0

LLVM 22.1.4 发布:下游 Triton/MLIR/CUDA-Clang 依赖的编译器底座补丁更新,做 GPU kernel DSL 的同学升级前按惯例看下 release note。

Nightly Release v0.6.8-20260421
推理 FlashInfer · 04-21 14:54 CST · github.com kw 0.0

FlashInfer v0.6.8 nightly:vLLM/SGLang 主用的注意力 kernel 库持续迭代,关注最新 paged-KV / MLA / FP8 路径的性能回归基线。

📝 技术博客 1/1

ReasoningBank: Enabling agents to learn from experience
Agent Google Research · 04-22 00:42 CST · research.google kw 0.0

Google 提出 ReasoningBank,让 agent 把成功/失败轨迹沉淀成可检索的推理记忆,下次遇到同类任务直接召回策略;属于 agent memory 的工程化方案。

💬 社区热议 3/3

INT3 compression+fused metal kernels [R]
推理 r/MachineLearning · 04-22 14:54 CST · www.reddit.com kw 9.0

独立作者放出 INT3 权重压缩 + INT2 KV cache + 自写 Metal fused kernel,Mac M 系列端侧跑 Qwen 7B;做 Apple Silicon 端侧推理可关注其 Triton GPU 版本跟进。

KV cachetritonkernelGPUQwen