🧠 AI Infra 每日动态

2026-04-26 Sunday · 回溯 36h · 共 13 条

LLM 摘要 ✓ Data: 2026-04-26 22:02:32 CST Rendered: 2026-04-26 22:02:38 CST Source: today_curated.json

📄 重点论文 0/0

今日无新条目。

🚀 代码更新 6/6

trunk/8f248fd2c0ad6ddc5d16e6ea17f3739bcc75d88f: FakeTensor C++ Migration: Modifying TensorImpl (#181387)

训练 PyTorch · 04-26 20:45 CST · github.com kw 0.0

PyTorch 把 FakeTensorMode 下沉到 C++ TensorImpl：新增 fake_device_/fake_tensor_mode_ 与 is_fake() 接口，meta tensor 可原地变成 fake tensor，Dynamo/Inductor 追踪路径将摆脱 Python 层开销。

trunk/911dcb37b9ceb1e0e39572328784e7a3199d38a3: Add nn.LinearCrossEntropyLoss (#172446)

训练 PyTorch · 04-26 17:38 CST · github.com kw 0.0

PyTorch 合入 nn.LinearCrossEntropyLoss 融合算子：线性投影+交叉熵一步算完，避免显式物化 [B,T,V] logits，LLM 训练末端 head 显存与带宽压力显著下降。

viable/strict/1777189969: [CI] Migrate 12.8 CI jobs to 13.0 (#180052)

推理 PyTorch · 04-26 10:45 CST · github.com kw 0.0

PyTorch 把 CI 从 CUDA 12.8 全量切到 13.0，作为 2.11 稳定版的 1/2 步；意味着下一版 wheel 将默认 CUDA 13，下游 vLLM/SGLang 镜像需要同步升级。

viable/strict/1777192959: Reenable XPU workflows (#181437)

推理 PyTorch · 04-26 11:45 CST · github.com kw 0.0

PyTorch 恢复 XPU（Intel GPU）workflows，意味着 oneAPI/SYCL 后端重新进入主干 CI 保护，多硬件后端竞争格局继续维持。

Nightly Release v0.6.9-20260425

推理 FlashInfer · 04-25 14:45 CST · github.com kw 0.0

FlashInfer v0.6.9 nightly 滚动发布：持续跟进 Blackwell SM120 融合 MoE、FP4 GEMM 与 routing_replay 等昨日已合入的大特性，供 vLLM/SGLang 拉取验证。

v0.14.6

Agent OpenAI Agents · 04-25 10:31 CST · github.com kw 0.0

OpenAI Agents Python SDK v0.14.6：放宽 websockets 版本上限至 <17、示例默认模型切到 GPT-5.5、新增 MongoDB session 文档，agent runtime 持续小步迭代。

📝 技术博客 0/0

今日无新条目。

💬 社区热议 7/7

Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19

推理 r/LocalLLaMA · 04-26 16:37 CST · www.reddit.com kw 19.0

Qwen3.6-27B INT4 (AutoRound) 在单卡 5090 上通过 vLLM 0.19 跑出 100+ tps 的 TG 吞吐，并能吃下原生 256k 上下文；MTP 推测解码 + 小权重，是当前单卡推理性价比新标杆。

vLLMFlashInferFP8FP4INT4attention

The exact KV cache usage of DeepSeek V4

推理 r/LocalLLaMA · 04-26 14:19 CST · www.reddit.com kw 18.0

社区根据 vLLM 官方 blog 推算 DSV4 在 1M 上下文下 KV cache 仅 6.72 GiB（Flash）/9.62 GiB（Pro），较 V3.2 省约 7.9×；KV 占比降到 0.3%，几乎抹平 Transformer-SSM 混合架构的显存优势。

vLLMllama.cppMLAKV cachetransformerattention

DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with SGLang and Miles

推理 HN LLM infra · 04-26 07:44 CST · www.lmsys.org kw 4.0

lmsys 放出 SGLang+Miles 对 DSV4 的 Day0 支持：推理侧接入新 MLA/稀疏 MoE 路由，并打通 Verified RL 训练回路；开源栈首个端到端跑通 DSV4 inference+post-training 的方案。

SGLangDeepSeek

Introducing AutoMuon, a one line drop in for AdamW [P]

训练 r/MachineLearning · 04-26 11:23 CST · www.reddit.com kw 3.0

AutoMuon 封装 Muon 优化器为 AdamW 的一行替换：自动识别 2D 权重矩阵用 Muon、embedding/norm/bias 仍走 AdamW，降低 Muon 在任意 PyTorch pipeline 的落地门槛。

transformerattentionPyTorch

Show HN: Routiium – self-hosted LLM gateway with a tool-result guard

Agent HN LLM infra · 04-26 04:30 CST · github.com kw 2.0

Routiium 是自托管 OpenAI 兼容 LLM 网关，核心亮点是 tool_result_guard：把 MCP/web-fetch/shell 返回内容独立扫一遍，防止 prompt injection 从工具返回通道污染模型上下文——补上 agent runtime 的经典缺口。

TPUMCP

MCP Spine – Middleware proxy for LLM tool calls with security and token control

Agent HN LLM infra · 04-26 05:38 CST · github.com kw 1.0

MCP Spine 是 LLM tool call 的中间件代理，面向 agent 场景做安全校验与 token 额度控制；当 MCP server 直接暴露给模型不安全时，这种网关式拦截层正在成为工程刚需。

MCP

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

训练 r/MachineLearning · 04-26 19:42 CST · www.reddit.com kw 8.0

讨论：Nemotron 3 Nano（23 Mamba-2 + 23 MoE + 6 GQA 混合架构）下 LoRA 该怎么贴——不同层类型权重形状迥异，标准 LoRA recipe 需拆分处理，是混合架构训练工程化的新挑战。

NeMotransformerattentionH100TPUMixtral