议程:

公告:

  1. Triton 会议注册即将开放。会议将于 9 月 20 日在微软硅谷园区举行。

项目:

  1. H100 更新

  2. Triton 发布计划更新

  3. Linalg 更新

  4. 英特尔 GPU 后端状态更新。

  5. 英特尔正在开发 Triton 的 CPU 后端。

  6. AMD 更新

  7. 公开讨论

会议纪要:

录音链接在此

  1. H100 更新

    • 初步支持已合并,默认禁用,可通过环境变量启用

    • 支持最新的张量核心、FP8。主分支上即将支持 Flash Attention。

    • Matmul 性能非常好,目前在大型 Matmul 上达到 cublas 的 80-90%,最终将与 cublas 持平。在 xxm 卡上,fp16 性能超过 600 teraflops,cublas 在随机输入数据上为 670。FP8 是其两倍,约为 1.2 petaflops。

    • Hopper 支持包括完整的计算用 FP8 支持。

  2. Triton 发布计划更新

    • 目前没有具体日期,计划在 2023 年底前发布。

    • 由于次要的向后兼容性破坏性更改,将迁移到 3.0 版本。例如,会将索引操作符中的编译器选项移到内核中作为硬编码操作符,这将提升主版本号。

    • 功能上,主要目标是为英特尔和 AMD GPU 提供第三方插件。

    • 可能会与 PyTorch 版本同步,以便 PyTorch 可以受益于最新功能,但持续集成工作流是预期的默认发布节奏。

    • 发布时会将默认行为切换到优化模式,这需要与英伟达进行更多讨论。

    • 将公开标志,供用户自行启用内核选择。

    • 开放问题:PyTorch 尚未重新基于最新的 Triton,它已接近 PyTorch 代码冻结期——PyTorch 还会与 Triton 2.0 同步吗?我们是否会有另一个版本来支持 Triton 2.0?

    • 社区可以从最新的稳定分支开始,并在其之上重新构建第三方插件。OAI 没有可投入的资源,但社区可以贡献。

  3. Linalg 更新

    • 关于 Linalg 作为语言和目标硬件之间中间层的 GitHub 讨论。包括对块指针和模运算符的支持。

    • 在此处加入讨论

    • 已推送的分支落后于最新版本,将努力使其跟上最新版本。

  4. 英特尔 GPU 后端状态更新。

  5. 英特尔正在开发 Triton 的 CPU 后端。

  6. AMD 更新