🧠 AI Infra 每日动态

2026-04-26 Sunday · 回溯 36h · 共 13 条

LLM 摘要 ✓ Data: 2026-04-26 22:02:32 CST Rendered: 2026-04-26 22:02:38 CST Source: today_curated.json

📄 重点论文 0/0

今日无新条目。

🚀 代码更新 6/6

Nightly Release v0.6.9-20260425
推理 FlashInfer · 04-25 14:45 CST · github.com kw 0.0

FlashInfer v0.6.9 nightly 滚动发布:持续跟进 Blackwell SM120 融合 MoE、FP4 GEMM 与 routing_replay 等昨日已合入的大特性,供 vLLM/SGLang 拉取验证。

v0.14.6
Agent OpenAI Agents · 04-25 10:31 CST · github.com kw 0.0

OpenAI Agents Python SDK v0.14.6:放宽 websockets 版本上限至 <17、示例默认模型切到 GPT-5.5、新增 MongoDB session 文档,agent runtime 持续小步迭代。

📝 技术博客 0/0

今日无新条目。

💬 社区热议 7/7

The exact KV cache usage of DeepSeek V4
推理 r/LocalLLaMA · 04-26 14:19 CST · www.reddit.com kw 18.0

社区根据 vLLM 官方 blog 推算 DSV4 在 1M 上下文下 KV cache 仅 6.72 GiB(Flash)/9.62 GiB(Pro),较 V3.2 省约 7.9×;KV 占比降到 0.3%,几乎抹平 Transformer-SSM 混合架构的显存优势。

vLLMllama.cppMLAKV cachetransformerattention
Introducing AutoMuon, a one line drop in for AdamW [P]
训练 r/MachineLearning · 04-26 11:23 CST · www.reddit.com kw 3.0

AutoMuon 封装 Muon 优化器为 AdamW 的一行替换:自动识别 2D 权重矩阵用 Muon、embedding/norm/bias 仍走 AdamW,降低 Muon 在任意 PyTorch pipeline 的落地门槛。

transformerattentionPyTorch
Show HN: Routiium – self-hosted LLM gateway with a tool-result guard
Agent HN LLM infra · 04-26 04:30 CST · github.com kw 2.0

Routiium 是自托管 OpenAI 兼容 LLM 网关,核心亮点是 tool_result_guard:把 MCP/web-fetch/shell 返回内容独立扫一遍,防止 prompt injection 从工具返回通道污染模型上下文——补上 agent runtime 的经典缺口。

TPUMCP