🧠 AI Infra 每日动态

2026-04-29 Wednesday · 回溯 36h · 共 18 条

LLM 摘要 ✓ Data: 2026-04-29 22:03:16 CST Rendered: 2026-04-29 22:03:24 CST Source: today_curated.json

📄 重点论文

SnapMLA: Efficient Long-Context MLA Decoding via Hardware-Aware FP8 Quantized Pipelining
推理 arXiv cs.LG · 04-29 12:00 CST · arxiv.org kw 16.2

SnapMLA:针对 DeepSeek MLA 解码的 FP8 硬件感知量化流水线。识别 MLA 解码 FP8 化的三大障碍——位置编码解耦导致数值异质、FP8 PV GEMM 量化 scale 对齐困难、系统级支持缺失,提出 RoPE-aware per-token KV 量化 + 算法-kernel 协同优化,把 long-context MLA decode 推进到 FP8 全链路。对 SGLang/vLLM 里 MLA 路径的 FP8 落地有直接参考价值。

SGLangFlashAttentionMLAmulti-head latent attentionKV cacheKV quantization
CacheFlow: Efficient LLM Serving with 3D-Parallel KV Cache Restoration
推理 arXiv cs.DC · 04-29 12:00 CST · arxiv.org kw 14.0

CacheFlow:把 KV cache 恢复重构为三维并行执行问题。现有方案在 recompute vs 远端 offload 之间做单请求 tradeoff,忽略 token/layer/分布式部署三个维度的并行性和 batch 下的资源争抢。CacheFlow 统一 3D 并行恢复框架,针对 multi-turn/RAG/agentic 等长上下文 serving 把 restore bottleneck 卸下。和 Mooncake/LMCache 的 KV 迁移是同一条赛道。

LLM servingKV cacheveRLtransformerschedulerserving
Salca: A Sparsity-Aware Hardware Accelerator for Efficient Long-Context Attention Decoding
推理 arXiv cs.AR · 04-29 12:00 CST · arxiv.org kw 9.0

Salca:长上下文 attention 解码的稀疏感知硬件加速器。软硬件协同——软件侧双压缩动态稀疏注意力(ultra-low-precision 量化 + 特征稀疏),硬件侧针对 decode 阶段 KV cache 带宽压力设计专用流水线。面向长上下文 decode 带宽瓶颈,和 PIM/SSD-attention 之类 near-data 方案同一思路。

KV cachelong contextattentionquantizationdecoding
PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference
推理 arXiv cs.DC · 04-29 12:00 CST · arxiv.org kw 8.0

PolyKV:多 agent 共享一份非对称压缩 KV cache 池。不再每个 agent 独立一份 cache,而是写一次压缩后注入 N 个 agent 上下文(HuggingFace DynamicCache)。压缩非对称:Key 走 int8(保 softmax 稳定)、Value 走 TurboQuant MSE(Fast Walsh-Hadamard + 3-bit Lloyd-Max 量化)。多 agent 批量推理场景下压 cache 池成本的直接方案。

LLM inferenceKV cachequantizationLLaMA
Janus: Disaggregating Attention and Experts for Scalable MoE Inference
推理 arXiv cs.DC · 04-29 12:00 CST · arxiv.org kw 7.0

Janus:MoE 推理把 attention 和 experts 拆到独立 GPU worker 池。monolithic 部署强行让两类层共享资源配置,但它们 scaling 行为和 bottleneck 完全不同。Janus 三原则:解耦 attention/MoE 层资源、独立调度、动态调度 MoE 工作负载。和近期 UniEP/MegaScale 的 EP 独立部署趋势一脉相承。

MoE inferenceattentionschedulerservingGPU

AHASD:移动端 NPU+PIM 异构的自适应投机解码。识别 operator-level 同步执行的 idle 开销和异步执行因 draft 长度波动导致的计算浪费,提出 task-level DLM-TLM 解耦——PIM 跑并行 drafting,NPU 跑 verification。配 Entropy-History-Aware draft 长度自适应,是端侧 spec-decode 的系统级优化。

speculative decodingattentiondecodingGPUPIM
QFlash: Bridging Quantization and Memory Efficiency in Vision Transformer Attention
推理 arXiv cs.LG · 04-29 12:00 CST · arxiv.org kw 6.6

QFlash:把 FlashAttention 全量量化到 integer。识别三大障碍——tile-wise 累加 scale 爆炸、GPU 上移位指数低效、integer 比较对量化粒度的统一 scale 要求。解法是整型域 softmax + 单 Triton kernel 实现。ViT/DeiT/Swin 7 个 workload 上 vs I-ViT 最高 6.73×。把 FA 的数值稳定性障碍搬到全整型域。

FlashAttentiontritontransformerattentionquantizationkernel

PipeWeave:analytical + learning 混合的 GPU 性能预测统一框架。纯数据驱动方法跨硬件泛化差、对现代推理栈里复杂 production kernel 建模不足。PipeWeave 先用 analytical model 量化 kernel 对 GPU 异构指令流水线的需求,再交给 learning model。做国产芯片性能建模对齐 NVIDIA 时这个思路可以直接借鉴(topsAnalytics/VisitorBound 类建模)。

tritontransformerservingkernelGPU

🚀 代码更新

v1.3.0rc13
推理 TensorRT-LLM · 04-29 14:58 CST · github.com kw 52.0

TensorRT-LLM v1.3.0rc13:Nemotron 3 Nano Omni 支持与初步优化(audio 从 video 抽取、ViT attention 优化、Nemotron/Nano VL 初始化显存下降);GLM-4.7/GLM-5 tool parser;DeepSeek-V3.2 与 V3-Lite 在 Blackwell/SM100 上的 perf + chunked-prefill 修复;Nemotron-H Python 层执行优化。Blackwell 上 DeepSeek 路径的持续打磨节奏。

speculative decodingchunked prefilldisaggregatedFlashInferKV cacheFP8
fa4-v4.0.0.beta11
推理 flash-attention · 04-29 16:53 CST · github.com kw 4.0

FlashAttention 4 beta11:CUTE DSL 下 head_dim=256 支持(fwd+bwd)——对 Qwen3/Llama3 之外大 head_dim 模型补齐;Flex autograd 接口接入、flash_attn_varlen_func 增加 score_mod_bwd;SM100 上 MLA kernel 传 stream 修复、clc 调度请求 bug;MLA absorbed test 补齐覆盖。FA4 往 flex + MLA 生产可用方向再推一步。

MLAkernel
v0.14.8
Agent OpenAI Agents · 04-29 11:39 CST · github.com kw 3.0

OpenAI Agents Python v0.14.8(合并 v0.14.7):MCP re-export import error 保留(便于定位 MCP 装配失败);sandbox prompt 指令分节分隔;tool item 加 tool_name/call_id 便捷属性;Phase 2 memory consolidation turn 上限上调;tar/zip member 校验收紧、拒绝 symlink LocalFile 源;Responses API 调用剔除 unset 字段。供应链加固 + agent memory 工程细节持续完善。

MCP
v0.1.34
Agent XGrammar · 04-29 17:47 CST · github.com kw 2.0

XGrammar v0.1.34:EBNF 解析接受 {n,-1} 作无上界重复、AnyTokensFormat+exclude_tokens 作为 self-terminating 处理、解除 . 的 unlimited 限制、Gemma 4 内置 structural tag 支持;绑定层重新迁到 tvm_ffi。constrained decoding 引擎层面 grammar 语义和结构化输出 tag 都在补齐 Gemma 4。

QwenDeepSeek
Nightly Release v0.6.9-20260428
推理 FlashInfer · 04-28 15:26 CST · github.com kw 0.0

FlashInfer nightly v0.6.9-20260428:延续 Blackwell SM120 fused MoE + FP4 GEMM + routing_replay 路径的日常修复。nightly 标签本身信号弱,但每日 build 表明 Blackwell/FP4 在 FlashInfer 里仍是最活跃的开发主线。

📝 技术博客

Scaling Biomolecular Modeling Using Context Parallelism in NVIDIA BioNeMo
训练 NVIDIA Developer Blog · 04-29 03:00 CST · developer.nvidia.com kw 7.0

NVIDIA BioNeMo:用 Context Parallelism 扩展生物分子建模。计算生物长期被「单 GPU 显存塞不下复杂生物系统」这个还原论妥协所限制;BioNeMo 把 LLM 训练里已成熟的 context parallel 机制搬到生物分子建模。意义在于:CP 已不只是 LLM 长上下文专属技术,正向科学计算扩散,对训练/推理 CP 工程经验跨域复用是正反馈。

context parallelNeMoGPU

💬 社区热议

Qwen Introduced FlashQLA
推理 r/LocalLLaMA · 04-29 20:18 CST · www.reddit.com kw 6.0

Qwen 开源 FlashQLA:TileLang 构建的高性能线性注意力 kernel。2-3× fwd、2× bwd;gate-driven 自动 intra-card CP、代数重构硬件友好形式、TileLang fused warp-specialized kernels。没完全 fuse GDN 全流程而是拆成 CP+bwd 两个 kernel,大 batch 下多一点 I/O 但在端侧+长上下文场景整体更优。线性注意力 kernel 工程化又一重要样本。

TileLangattentionkernelQwen
Qwen3.6 27B on dual RTX 5060 Ti 16GB with vLLM: ~60 tok/s, 204k context working
推理 r/LocalLLaMA · 04-29 16:40 CST · www.reddit.com kw 21.0

Qwen3.6-27B NVFP4+MTP 在双卡 RTX 5060 Ti 16GB 上跑通 vLLM:TP=2、204k 上下文、~60 tok/s、CUDA 13 + Torch 2.11 nightly + vLLM 0.19.2rc1.dev + FP8 KV cache + modelopt + MTP(num_speculative_tokens=3)。工程细节完整:消费级 16GB×2 跑 27B+长上下文+投机解码+NVFP4 量化的端到端可复现配方。

vLLMFlashInferFP8FP4tritonattention
llama.cpp benchmark native vs. non native NVFP4 on Blackwell - summary
推理 r/LocalLLaMA · 04-29 20:27 CST · www.reddit.com kw 14.0

llama.cpp Blackwell native NVFP4 vs 非 native 实测(同 Qwen3.6-27B-NVFP4):b8967 首个 native NVFP4 build 对比 b8966。核心结论:prompt processing 提速 43-68%,但 token generation 基本无变化。拆开说:NVFP4 native 打的是 compute-bound 的 prefill,decode 仍是 memory-bound 瓶颈。量化 native kernel 收益分布符合第一性原理。

llama.cppFP4long contextdecodingGPUQwen
llama.cpp - NVFP4 native support on Blackwell from now - b8967
推理 r/LocalLLaMA · 04-29 16:31 CST · www.reddit.com kw 10.0

llama.cpp b8967:Blackwell NVFP4 native 支持落地。RTX 5090 上 Qwen3.6-27B-NVFP4(17.5GiB/26.9B)pp512 达 5546 t/s、tg128 73 t/s。和上一条 native vs 非 native 对比互为证据:FP4 原生 kernel 先解决 prefill 吞吐,decode 仍受 KV/权重 带宽制约。消费级 Blackwell 部署量化模型的关键节点。

llama.cppFP4GPUQwenLLaMACUDA