议程:¶
公告:¶
Triton 会议注册即将开放。会议将于 9 月 20 日在微软硅谷园区举行。
项目:¶
H100 更新
Triton 发布计划更新
Linalg 更新
英特尔 GPU 后端状态更新。
英特尔正在开发 Triton 的 CPU 后端。
AMD 更新
公开讨论
会议纪要:¶
录音链接在此
H100 更新
初步支持已合并,默认禁用,可通过环境变量启用
支持最新的张量核心、FP8。主分支上即将支持 Flash Attention。
Matmul 性能非常好,目前在大型 Matmul 上达到 cublas 的 80-90%,最终将与 cublas 持平。在 xxm 卡上,fp16 性能超过 600 teraflops,cublas 在随机输入数据上为 670。FP8 是其两倍,约为 1.2 petaflops。
Hopper 支持包括完整的计算用 FP8 支持。
Triton 发布计划更新
目前没有具体日期,计划在 2023 年底前发布。
由于次要的向后兼容性破坏性更改,将迁移到 3.0 版本。例如,会将索引操作符中的编译器选项移到内核中作为硬编码操作符,这将提升主版本号。
功能上,主要目标是为英特尔和 AMD GPU 提供第三方插件。
可能会与 PyTorch 版本同步,以便 PyTorch 可以受益于最新功能,但持续集成工作流是预期的默认发布节奏。
发布时会将默认行为切换到优化模式,这需要与英伟达进行更多讨论。
将公开标志,供用户自行启用内核选择。
开放问题:PyTorch 尚未重新基于最新的 Triton,它已接近 PyTorch 代码冻结期——PyTorch 还会与 Triton 2.0 同步吗?我们是否会有另一个版本来支持 Triton 2.0?
社区可以从最新的稳定分支开始,并在其之上重新构建第三方插件。OAI 没有可投入的资源,但社区可以贡献。
Linalg 更新
关于 Linalg 作为语言和目标硬件之间中间层的 GitHub 讨论。包括对块指针和模运算符的支持。
请在此处加入讨论
已推送的分支落后于最新版本,将努力使其跟上最新版本。
英特尔 GPU 后端状态更新。
请参考幻灯片此处
英特尔正在开发 Triton 的 CPU 后端。
请参考幻灯片此处
AMD 更新
请参考幻灯片此处。