议程:¶
公告:¶
Triton 会议计划于九月中旬在微软硅谷园区举行。
项目:¶
替代后端开发方法(例如 AMD、Intel)
文档现状,是否有计划进行改进?如果是,您认为优先级是什么?
小型技术讨论机制:按主题划分的 Slack 频道?针对某些主题的专门会议?
稳定性、测试、回归:改进 CI 和一致性/测试,以验证新的后端。
语言改进/痛点
Windows 支持
讨论 H100 已知/预期设计变更
一些更具体的策略性领域
int8。
一个容易实现的目标是让 tl.dot 支持 int8 并利用 mma。
Sm75。
设备函数。在 Triton 前端遍历 AST 时,支持这一点有多难?
从前端移除 torch 依赖。(听起来这方面已经有进展,但仍值得讨论)
会议纪要¶
录音链接此处
后端计划/更广阔的路线图
计划是在九月中旬举行的 Triton 开发聚会中发布重大更新。对于主要的架构更改,目前的计划是:不直接将其上游化,而是设置一个暂存状态,并通过插件机制集成不同的后端,其中 Triton 在 Triton IR 层提供一个通用层,其他后端可以插入其中。
短期路线图计划主要侧重于改进 Ampere 上的所有 FP8 相关功能以及 Hopper 支持(八月底)。Hopper 支持落地后,优先级将包括重构代码库以提高可维护性。
Linalg – 由于开发带宽有限,上游化工作暂停。我们希望建立一个生态系统,让其他人可以利用在各自后端开发的类似 Linalg 的优化通道。
目前,Nvidia GPU 的峰值性能需要 Nvidia 特定的优化,但不同后端编程模型的融合将促进 Triton 中硬件后端支持的融合。
文档
OpenAI 已在后端代码中添加了注释。
寻求社区参与,根据新用户的反馈来改进教程,了解缺少哪些内容。
寻求社区参与签名更改和文档更新。
已在 Slack 中创建线程,征集关于需要更新文档区域的建议。Ian Bearman 及其团队可能有多余的资源来更新某些文档。
讨论渠道
技术讨论首选 Slack 中的 #dev 频道。
在 GitHub 和 Slack 之间,最好在各处发布链接,以便人们知道讨论正在其他地方进行。
CI/测试
在接受 Nvidia 的回归测试和集成测试方面相当宽松。
插件接口与其他所有部分一样经过测试,其中的回归问题将阻止合并到主分支。
外部后端的正确性/性能每晚都会测试,但回归问题不会阻止 wheels 的构建。
语言改进
已在 Triton 代码生成器中添加了位置信息支持。
欢迎在 Slack 中提出痛点。
Windows 支持:技术上获得初步版本并不困难。大部分维护负担将来自在出现问题时需要提供支持。