议程:¶
项目:¶
解释器更新
TMA 支持的经验和未来计划
CGO 会议报告
AMD 提供的 Triton 上游 CI 和单元测试状态
公开讨论
会议纪要:¶
录像链接 此处
演示文稿仓库 此处
Triton 解释器模式:OpenAI 展示了 Triton 代码的解释器模式,它允许用户使用原生 Python 的 print 或 PDB 调试和检查单个 GPU 程序。目前可以通过环境变量启用该模式;针对被解释的单个函数的代码装饰器仍在待定中 (TBD)。它也可以在没有 GPU 的情况下在 CPU 上运行。有关演示文稿的更多详细信息,请参阅幻灯片。
张量内存访问 (TMA) 讨论:Triton 中 TMA 的当前实现存在一些限制,因此目前已被移除。计划是未来重新思考如何更好地实现它。目标是隐式支持 TMA,但挑战在于如何处理不同后端之间不同的内存布局。有一个拉取请求旨在改善内核的启动开销,这与 TMA 相关,但它需要大量的审查和测试。
CGO 会议报告:来自微软的 Ian Bearman 分享了他参加 CGO 和机器学习编译器研讨会的经验。他与来自高通的 Javed Absar 针对 Triton 进行了分享并回答了关于 Triton 的问题。Triton 作为一种跨平台内核语言引起了广泛的兴趣,问题主要集中在 PyTorch 集成、性能可移植性以及代码生成错误方面。最好能让 Triton 与 PyTorch 的联系更加明显。此外还有一个名为 Turbine 的项目与 Triton 类似。请参阅幻灯片了解更多详情。
AMD 上游 CI 和单元测试状态:AMD 团队讨论了 CI 以及为 MI 210 和 MI 300 启用测试的情况。目前正在进行性能差距、编译错误以及 FP8IN 和 Flash Attention 内核的修复工作。计划很快将这些更改上游。请参阅幻灯片了解更多详情。
第三方 CPU 后端:英特尔团队正在推动社区合作,以实现一个使用 MLIR 和 OpenMP 的 Triton CPU 后端概念验证。将举行一次后续会议讨论其实现细节和设计。请查阅 Slack 中的第三方频道了解更多详情。