议程:

  1. Triton CPU 摘要

  2. Triton 引入了新的 Triton 布局重新设计(线性布局 PR3794)。这种布局是否试图覆盖 Triton CPU 后端以支持 SIMD 指令。

  3. Triton Stream-k 在 AMD GPU 上的应用

项目:

会议记录

  1. Triton CPU 后端:Meta 团队介绍了他们为 Triton 开发 CPU 后端的动机、设计和进展。不同 CPU 架构之间对异构性和可移植性有需求,特别是对于小批量和推理工作负载。他们提出使用 MLIR 和向量方言将 Triton IR 降低到 LLVM IR,并利用现有的方言和转换用于 GPU 后端。CPU 后端可能需要进行重构,使其更通用和模块化。目前,他们已经完成了 CPU 后端的初步连接工作,并使用传输读取实现了基本的向量加载操作。代码库和其他详细信息在下面的幻灯片中。开放问题:如何处理不同的向量宽度和操作,如何支持 ARM Neon,如何设定性能目标和标准,以及如何与其他 Triton 开发者和贡献者协调。

  2. AMD 的 Stream-k:AMD 团队介绍了他们对 Stream-k 的实现和评估,这是一种用于矩阵乘法的负载均衡方案,可以处理不同的瓦片大小和 K 维度拆分。他们将其与 PyTorch Matmul 和 Triton Matmul 进行了比较。其他详细信息在下面的幻灯片中。

会议纪要:

录制链接 此处

演示文稿代码库 此处