议程:

公告:

  1. Triton 会议计划于九月中旬在微软硅谷园区举行。

项目:

  1. 替代后端开发方法(例如 AMD、Intel)

  2. 文档现状,是否有计划进行改进?如果是,您认为优先级是什么?

  3. 小型技术讨论机制:按主题划分的 Slack 频道?针对某些主题的专门会议?

  4. 稳定性、测试、回归:改进 CI 和一致性/测试,以验证新的后端。

  5. 语言改进/痛点

  6. Windows 支持

  7. 讨论 H100 已知/预期设计变更

  8. 一些更具体的策略性领域

    • int8。

    • 一个容易实现的目标是让 tl.dot 支持 int8 并利用 mma。

    • Sm75。

    • 设备函数。在 Triton 前端遍历 AST 时,支持这一点有多难?

    • 从前端移除 torch 依赖。(听起来这方面已经有进展,但仍值得讨论)

会议纪要

录音链接此处

  1. 后端计划/更广阔的路线图

    • 计划是在九月中旬举行的 Triton 开发聚会中发布重大更新。对于主要的架构更改,目前的计划是:不直接将其上游化,而是设置一个暂存状态,并通过插件机制集成不同的后端,其中 Triton 在 Triton IR 层提供一个通用层,其他后端可以插入其中。

    • 短期路线图计划主要侧重于改进 Ampere 上的所有 FP8 相关功能以及 Hopper 支持(八月底)。Hopper 支持落地后,优先级将包括重构代码库以提高可维护性。

    • Linalg – 由于开发带宽有限,上游化工作暂停。我们希望建立一个生态系统,让其他人可以利用在各自后端开发的类似 Linalg 的优化通道。

    • 目前,Nvidia GPU 的峰值性能需要 Nvidia 特定的优化,但不同后端编程模型的融合将促进 Triton 中硬件后端支持的融合。

  2. 文档

    • OpenAI 已在后端代码中添加了注释。

    • 寻求社区参与,根据新用户的反馈来改进教程,了解缺少哪些内容。

    • 寻求社区参与签名更改和文档更新。

    • 已在 Slack 中创建线程,征集关于需要更新文档区域的建议。Ian Bearman 及其团队可能有多余的资源来更新某些文档。

  3. 讨论渠道

    • 技术讨论首选 Slack 中的 #dev 频道。

    • 在 GitHub 和 Slack 之间,最好在各处发布链接,以便人们知道讨论正在其他地方进行。

  4. CI/测试

    • 在接受 Nvidia 的回归测试和集成测试方面相当宽松。

    • 插件接口与其他所有部分一样经过测试,其中的回归问题将阻止合并到主分支。

    • 外部后端的正确性/性能每晚都会测试,但回归问题不会阻止 wheels 的构建。

  5. 语言改进

    • 已在 Triton 代码生成器中添加了位置信息支持。

    • 欢迎在 Slack 中提出痛点。

  6. Windows 支持:技术上获得初步版本并不困难。大部分维护负担将来自在出现问题时需要提供支持。