议程：¶

项目：¶

H100 更新
Triton-共享层更新
Intel 更新
公开讨论

会议纪要：¶

录制链接此处

H100 更新
- 默认启用 WGMMA，现在任何矩阵乘法都可以重用它。
- fp8 格式已启用 – H100 上的密集矩阵乘法达到 1.3 Petaflops (gemm 性能)
- 使用 wgmma 启用 Flash Attention，正向传播达到 450 teraflop，反向传播达到 250 teraflop – 仍在努力提升 Flash Attention 性能
- 在 fp8 中使用矩阵乘法运行 Flash Attention 的 fp8 数值处理很棘手，因为 fp8 布局与 wgmma 返回的布局显著不同，仍在进行中
Triton-共享层
- 更多详情请参考幻灯片
- 创建了一个仓库，您可以在其中找到中间层
- 可作为插件集成到 triton 中
Intel 更新
- 更多详情请参考幻灯片