NVIDIA CuTile 是 Python 层的 tile-centric GPU kernel 抽象,本文首次在 H100 NVL / B200 / RTX PRO 6000 Blackwell 跨架构实测 CuTile vs cuBLAS / Triton / WMMA / raw SIMT。覆盖 GEMM、fused MHA、端到端 LLM 推理(BF16/FP16)。结论:CuTile 的效率高度依赖 workload 和架构,在部分 Blackwell 场景上能逼近甚至超过 cuBLAS,但不是万能银弹——给国产 tile 语言设计提供了有价值的对照基线。