议程：¶

公告：¶

Triton 会议注册即将开放。会议将于 9 月 20 日在微软硅谷园区举行。

项目：¶

H100 更新
Triton 发布计划更新
Linalg 更新
英特尔 GPU 后端状态更新。
英特尔正在开发 Triton 的 CPU 后端。
AMD 更新
公开讨论

会议纪要：¶

录音链接在此

H100 更新
- 初步支持已合并，默认禁用，可通过环境变量启用
- 支持最新的张量核心、FP8。主分支上即将支持 Flash Attention。
- Matmul 性能非常好，目前在大型 Matmul 上达到 cublas 的 80-90%，最终将与 cublas 持平。在 xxm 卡上，fp16 性能超过 600 teraflops，cublas 在随机输入数据上为 670。FP8 是其两倍，约为 1.2 petaflops。
- Hopper 支持包括完整的计算用 FP8 支持。
Triton 发布计划更新
- 目前没有具体日期，计划在 2023 年底前发布。
- 由于次要的向后兼容性破坏性更改，将迁移到 3.0 版本。例如，会将索引操作符中的编译器选项移到内核中作为硬编码操作符，这将提升主版本号。
- 功能上，主要目标是为英特尔和 AMD GPU 提供第三方插件。
- 可能会与 PyTorch 版本同步，以便 PyTorch 可以受益于最新功能，但持续集成工作流是预期的默认发布节奏。
- 发布时会将默认行为切换到优化模式，这需要与英伟达进行更多讨论。
- 将公开标志，供用户自行启用内核选择。
- 开放问题：PyTorch 尚未重新基于最新的 Triton，它已接近 PyTorch 代码冻结期——PyTorch 还会与 Triton 2.0 同步吗？我们是否会有另一个版本来支持 Triton 2.0？
- 社区可以从最新的稳定分支开始，并在其之上重新构建第三方插件。OAI 没有可投入的资源，但社区可以贡献。
Linalg 更新
- 关于 Linalg 作为语言和目标硬件之间中间层的 GitHub 讨论。包括对块指针和模运算符的支持。
- 请在此处加入讨论
- 已推送的分支落后于最新版本，将努力使其跟上最新版本。
英特尔 GPU 后端状态更新。
- 请参考幻灯片此处
英特尔正在开发 Triton 的 CPU 后端。
- 请参考幻灯片此处
AMD 更新
- 请参考幻灯片此处。