议程:

项目:

  1. H100 更新

  2. Triton-共享层 更新

  3. Intel 更新

  4. 公开讨论

会议纪要:

录制链接 此处

  1. H100 更新

    • 默认启用 WGMMA,现在任何矩阵乘法都可以重用它。

    • fp8 格式已启用 – H100 上的密集矩阵乘法达到 1.3 Petaflops (gemm 性能)

    • 使用 wgmma 启用 Flash Attention,正向传播达到 450 teraflop,反向传播达到 250 teraflop – 仍在努力提升 Flash Attention 性能

    • 在 fp8 中使用矩阵乘法运行 Flash Attention 的 fp8 数值处理很棘手,因为 fp8 布局与 wgmma 返回的布局显著不同,仍在进行中

  2. Triton-共享层

    • 更多详情请参考幻灯片

    • 创建了一个仓库,您可以在其中找到中间层

    • 可作为插件集成到 triton 中

  3. Intel 更新

    • 更多详情请参考幻灯片