AI Infra 每日动态 - 2026-04-27 Monday

📄 重点论文 8/8

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

推理 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 15.0

NVIDIA Blackwell 上的 data-aware 精确 Top-K：利用连续 decode 步之间的时间相关性做预测，1-2 轮全局扫描定阈值+ballot-free 收集，专治 sparse-attention decoding 里 Top-K 这段 serving 延迟瓶颈。

LLM servingTensorRT-LLMspeculative decodingattentiondecodingserving

GICC: A High-Performance Runtime for GPU-Initiated Communication and Coordination in Modern HPC Systems

训练 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 11.0

GPU kernel 直接驱动跨节点通信的 runtime：针对 Slingshot OFI（Top500 前三都在用）给出 bounded NIC 工作回收机制，消除 host-driven 进度和 IB 路径上的多余锁，降 launch 开销+提高 compute/communication overlap。

veRLGPU kernelInfiniBandkernelGPU

HFX: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling

推理 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 5.0

生产级 LLM serving 系统：把请求调度和副本弹性扩缩联合优化，按 SLO 做主动预算估计+优先级排队，同时处理异构请求/变长 prompt/弹性伸缩，主打多任务/多 SLO 场景。

LLM servingschedulerserving

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

推理 arXiv cs.LG · 04-27 12:00 CST · arxiv.org kw 3.6

给 ML kernel 写「合约」的规约语言：8 段式（scope/前后置/容差/reference oracle/测量协议/违约签名）形式化描述算子语义，专治跨 AMD/NVIDIA/Ascend 同算子结果不一致时没有仲裁依据的问题。

attentionkernelcompilerAscendZeROCUDA

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

推理 arXiv cs.LG · 04-27 12:00 CST · arxiv.org kw 1.8

层感知的 attention 替换：先做敏感度分析找出对性能关键的层，只对不敏感层替换成线性/混合 attention，避免整模型一刀切 linear 化导致的精度大跌或需要大规模重训。

transformerattentionserving

FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion

推理 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 6.0

把 non-Markov 传染病模拟整条 pipeline（CSR 遍历+erfcx hazard+Bernoulli tau-leaping+状态转移+下一步感染力回写）融进单个 Triton kernel，全部中间量驻留 SM 寄存器+保 CUDA Graph 捕获，属于 Triton fused-kernel 工程范式的好案例。

tritonkernelGPUCUDA

Accelerating Intra-Node GPU-to-GPU Communication Through Multi-Path Transfers with CUDA Graphs

训练 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 5.0

把 CUDA Graphs 集成进 UCX：节点内 NVLink+PCIe 多路径 GPU-GPU 点对点通信用 CUDA Graph 统一调度，显著降通信开销，号称首个把 CUDA Graph 无缝接入 UCX 的工作。

NVLinkGPUCUDA

Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models

推理 arXiv cs.AR · 04-27 12:00 CST · arxiv.org kw 7.0

多模态基础模型硬软协同加速方法学综述：transformer block 硬软协设计+hierarchy-aware 混精度量化+结构化剪枝+speculative decoding+model cascading 路由，是一份系统性的 MFM 推理优化工程清单。

speculative decodingtransformerattentionquantizationdecoding

🚀 代码更新 5/5

v0.20.0

推理 vLLM · 04-27 21:20 CST · github.com kw 82.0

vLLM v0.20.0：752 commits/320 贡献者。CUDA 13.0 成默认（跟 PyTorch 2.11 同步），XPU 也升到 torch 2.11，新增 Python 3.14 支持，跑 HuggingFace Transformers v5。AI Infra 大版本号大迁徙信号。

vLLMspeculative decodingFlashAttentionFlashInferMLAKV cache

viable/strict/1777298193: [Inductor] Add kernel_num_gb kernel_flop for combo kernels (#180813)

训练 PyTorch · 04-27 16:18 CST · github.com kw 1.0

Inductor combo kernel 现在也能把 kernel_num_gb/kernel_flop 带进 inductor_meta：在 benchmark_kernel/profile_bandwidth 开启时，对每个 sub-kernel 调 estimate_kernel_num_bytes/estimate_flops 汇总。此前 combo kernel 在 profiler 和 autotune 带宽日志里没这俩字段。

kernel

trunk/8418e216f95f375701a58d631d72d7fa7b817187: Revert "Add naive nn.linear_cross_entropy. (#172286)"

训练 PyTorch · 04-27 20:52 CST · github.com kw 1.0

PyTorch 昨日新增的 nn.linear_cross_entropy 融合算子（LLM head 省显存+带宽）今天被 autorevert。意味着这个高关注度算子还需要一轮修复才能重新 land，值得追踪它的下一次 PR。

PyTorch

trunk/23357daba5cbd9991f4043e11f47a7fa4312fed2: [CD] Remove cu132->cu130 wheel install fallback in Dockerfile (#181513)

训练 PyTorch · 04-27 20:51 CST · github.com kw 3.0

PyTorch Dockerfile 删掉 cu132→cu130 的 wheel 回退：CUDA 13.2 nightly 已于 2026-04-20 上架，之前留的临时 fallback 反而让 cuda13.2 镜像装上了 cu130 wheel，导致 smoke_test 报版本不匹配。CUDA 13.x 版本线逐步稳定。

GPUPyTorchCUDA

trunk/22790c5da3d534b53281c0866537154a47b6a1cf

推理 PyTorch · 04-27 08:20 CST · github.com kw 1.0

PyTorch AOTI 给 _scaled_dot_product_attention_math_for_cpu 加 BC-safe c_shim v2：AOTI 生成的 C++ 产物升级到 v2 ABI 后，math SDPA fallback 也有了向后兼容的 C shim，保证 AOTI 编译出的模型跨版本运行时链接稳定。

attention

💬 社区热议 4/4

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

推理 r/LocalLLaMA · 04-27 20:56 CST · www.reddit.com kw 5.0

Skymizer HTX301：单 PCIe 卡 6 颗芯片+384GB 内存，240W 本地跑 700B decode，prefill 继续丢给 GPU 做计算密集段、HTX301 专攻带宽密集的 decode 阶段——prefill/decode 分芯设计的又一具象落地，6 月 Computex 见真章。

LLM inferencedecodingGPU

AMD Hipfire - a new inference engine optimized for AMD GPU's

推理 r/LocalLLaMA · 04-27 09:36 CST · www.reddit.com kw 6.0

AMD Hipfire：社区新出的面向全系 AMD GPU 的推理引擎（非官方），自研 mq4 量化格式，Localmaxxing benchmark 显示对 RDNA3 有明显加速。ROCm 生态里罕见的社区向推理栈补充。

inference engineattentionquantizationGPU

To 16GB VRAM users, plug in your old GPU

推理 r/LocalLLaMA · 04-27 18:20 CST · www.reddit.com kw 3.0

消费级多卡 infra trick：5070 Ti 16GB + 2060 6GB 混插跑 30B 稠密模型。重点是双卡都必须放 VRAM（哪怕第二张弱 PCIe x4），llama-server 分层映射即可，揭示个人工作站「凑 VRAM」比「对称双卡」更实用。

GPUQwenLLaMA

Thoughts on using an AMD Alveo V80 FPGA PCI card as a poor man’s Taalas HC1 (LLM-burned-onto-a-chip).

推理 r/LocalLLaMA · 04-27 05:18 CST · www.reddit.com kw 24.0

社区讨论用 AMD Alveo V80 FPGA（~9500 美元）模拟 Taalas HC1「LLM 烧进芯片」思路：Gemini 预估用 speculative decoding 架构跑 Qwen3.5-4B Q4 可达 3200 tk/s、9B ≈1400 tk/s。LLM 专用硬件/FPGA 推理路线的持续探讨。

LLM inferenceinference enginespeculative decodingFP8INT4transformer

🧠 AI Infra 每日动态

📄 重点论文 8/8

🚀 代码更新 5/5

📝 技术博客 0/0

💬 社区热议 4/4