🧠 AI Infra 每日动态

2026-04-27 Monday · 回溯 36h · 共 17 条

LLM 摘要 ✓ Data: 2026-04-27 22:02:51 CST Rendered: 2026-04-27 22:02:58 CST Source: today_curated.json

📄 重点论文 8/8

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs
推理 arXiv cs.LG · 04-27 12:00 CST · arxiv.org kw 1.8

层感知的 attention 替换:先做敏感度分析找出对性能关键的层,只对不敏感层替换成线性/混合 attention,避免整模型一刀切 linear 化导致的精度大跌或需要大规模重训。

transformerattentionserving
FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion
推理 arXiv cs.DC · 04-27 12:00 CST · arxiv.org kw 6.0

把 non-Markov 传染病模拟整条 pipeline(CSR 遍历+erfcx hazard+Bernoulli tau-leaping+状态转移+下一步感染力回写)融进单个 Triton kernel,全部中间量驻留 SM 寄存器+保 CUDA Graph 捕获,属于 Triton fused-kernel 工程范式的好案例。

tritonkernelGPUCUDA

🚀 代码更新 5/5

v0.20.0
推理 vLLM · 04-27 21:20 CST · github.com kw 82.0

vLLM v0.20.0:752 commits/320 贡献者。CUDA 13.0 成默认(跟 PyTorch 2.11 同步),XPU 也升到 torch 2.11,新增 Python 3.14 支持,跑 HuggingFace Transformers v5。AI Infra 大版本号大迁徙信号。

vLLMspeculative decodingFlashAttentionFlashInferMLAKV cache
trunk/22790c5da3d534b53281c0866537154a47b6a1cf
推理 PyTorch · 04-27 08:20 CST · github.com kw 1.0

PyTorch AOTI 给 _scaled_dot_product_attention_math_for_cpu 加 BC-safe c_shim v2:AOTI 生成的 C++ 产物升级到 v2 ABI 后,math SDPA fallback 也有了向后兼容的 C shim,保证 AOTI 编译出的模型跨版本运行时链接稳定。

attention

📝 技术博客 0/0

今日无新条目。

💬 社区热议 4/4

AMD Hipfire - a new inference engine optimized for AMD GPU's
推理 r/LocalLLaMA · 04-27 09:36 CST · www.reddit.com kw 6.0

AMD Hipfire:社区新出的面向全系 AMD GPU 的推理引擎(非官方),自研 mq4 量化格式,Localmaxxing benchmark 显示对 RDNA3 有明显加速。ROCm 生态里罕见的社区向推理栈补充。

inference engineattentionquantizationGPU
To 16GB VRAM users, plug in your old GPU
推理 r/LocalLLaMA · 04-27 18:20 CST · www.reddit.com kw 3.0

消费级多卡 infra trick:5070 Ti 16GB + 2060 6GB 混插跑 30B 稠密模型。重点是双卡都必须放 VRAM(哪怕第二张弱 PCIe x4),llama-server 分层映射即可,揭示个人工作站「凑 VRAM」比「对称双卡」更实用。

GPUQwenLLaMA