NVIDIA Blackwell 上的 data-aware 精确 Top-K:利用连续 decode 步之间的时间相关性做预测,1-2 轮全局扫描定阈值+ballot-free 收集,专治 sparse-attention decoding 里 Top-K 这段 serving 延迟瓶颈。
2026-04-27 Monday · 回溯 36h · 共 17 条
NVIDIA Blackwell 上的 data-aware 精确 Top-K:利用连续 decode 步之间的时间相关性做预测,1-2 轮全局扫描定阈值+ballot-free 收集,专治 sparse-attention decoding 里 Top-K 这段 serving 延迟瓶颈。
GPU kernel 直接驱动跨节点通信的 runtime:针对 Slingshot OFI(Top500 前三都在用)给出 bounded NIC 工作回收机制,消除 host-driven 进度和 IB 路径上的多余锁,降 launch 开销+提高 compute/communication overlap。
生产级 LLM serving 系统:把请求调度和副本弹性扩缩联合优化,按 SLO 做主动预算估计+优先级排队,同时处理异构请求/变长 prompt/弹性伸缩,主打多任务/多 SLO 场景。
给 ML kernel 写「合约」的规约语言:8 段式(scope/前后置/容差/reference oracle/测量协议/违约签名)形式化描述算子语义,专治跨 AMD/NVIDIA/Ascend 同算子结果不一致时没有仲裁依据的问题。
层感知的 attention 替换:先做敏感度分析找出对性能关键的层,只对不敏感层替换成线性/混合 attention,避免整模型一刀切 linear 化导致的精度大跌或需要大规模重训。
把 non-Markov 传染病模拟整条 pipeline(CSR 遍历+erfcx hazard+Bernoulli tau-leaping+状态转移+下一步感染力回写)融进单个 Triton kernel,全部中间量驻留 SM 寄存器+保 CUDA Graph 捕获,属于 Triton fused-kernel 工程范式的好案例。
把 CUDA Graphs 集成进 UCX:节点内 NVLink+PCIe 多路径 GPU-GPU 点对点通信用 CUDA Graph 统一调度,显著降通信开销,号称首个把 CUDA Graph 无缝接入 UCX 的工作。
多模态基础模型硬软协同加速方法学综述:transformer block 硬软协设计+hierarchy-aware 混精度量化+结构化剪枝+speculative decoding+model cascading 路由,是一份系统性的 MFM 推理优化工程清单。
vLLM v0.20.0:752 commits/320 贡献者。CUDA 13.0 成默认(跟 PyTorch 2.11 同步),XPU 也升到 torch 2.11,新增 Python 3.14 支持,跑 HuggingFace Transformers v5。AI Infra 大版本号大迁徙信号。
Inductor combo kernel 现在也能把 kernel_num_gb/kernel_flop 带进 inductor_meta:在 benchmark_kernel/profile_bandwidth 开启时,对每个 sub-kernel 调 estimate_kernel_num_bytes/estimate_flops 汇总。此前 combo kernel 在 profiler 和 autotune 带宽日志里没这俩字段。
PyTorch 昨日新增的 nn.linear_cross_entropy 融合算子(LLM head 省显存+带宽)今天被 autorevert。意味着这个高关注度算子还需要一轮修复才能重新 land,值得追踪它的下一次 PR。
PyTorch Dockerfile 删掉 cu132→cu130 的 wheel 回退:CUDA 13.2 nightly 已于 2026-04-20 上架,之前留的临时 fallback 反而让 cuda13.2 镜像装上了 cu130 wheel,导致 smoke_test 报版本不匹配。CUDA 13.x 版本线逐步稳定。
PyTorch AOTI 给 _scaled_dot_product_attention_math_for_cpu 加 BC-safe c_shim v2:AOTI 生成的 C++ 产物升级到 v2 ABI 后,math SDPA fallback 也有了向后兼容的 C shim,保证 AOTI 编译出的模型跨版本运行时链接稳定。
今日无新条目。
Skymizer HTX301:单 PCIe 卡 6 颗芯片+384GB 内存,240W 本地跑 700B decode,prefill 继续丢给 GPU 做计算密集段、HTX301 专攻带宽密集的 decode 阶段——prefill/decode 分芯设计的又一具象落地,6 月 Computex 见真章。
AMD Hipfire:社区新出的面向全系 AMD GPU 的推理引擎(非官方),自研 mq4 量化格式,Localmaxxing benchmark 显示对 RDNA3 有明显加速。ROCm 生态里罕见的社区向推理栈补充。
消费级多卡 infra trick:5070 Ti 16GB + 2060 6GB 混插跑 30B 稠密模型。重点是双卡都必须放 VRAM(哪怕第二张弱 PCIe x4),llama-server 分层映射即可,揭示个人工作站「凑 VRAM」比「对称双卡」更实用。
社区讨论用 AMD Alveo V80 FPGA(~9500 美元)模拟 Taalas HC1「LLM 烧进芯片」思路:Gemini 预估用 speculative decoding 架构跑 Qwen3.5-4B Q4 可达 3200 tk/s、9B ≈1400 tk/s。LLM 专用硬件/FPGA 推理路线的持续探讨。