议程:¶
项目:¶
H100 更新
Triton-共享层 更新
Intel 更新
公开讨论
会议纪要:¶
录制链接 此处
H100 更新
默认启用 WGMMA,现在任何矩阵乘法都可以重用它。
fp8 格式已启用 – H100 上的密集矩阵乘法达到 1.3 Petaflops (gemm 性能)
使用 wgmma 启用 Flash Attention,正向传播达到 450 teraflop,反向传播达到 250 teraflop – 仍在努力提升 Flash Attention 性能
在 fp8 中使用矩阵乘法运行 Flash Attention 的 fp8 数值处理很棘手,因为 fp8 布局与 wgmma 返回的布局显著不同,仍在进行中
Triton-共享层
更多详情请参考幻灯片
创建了一个仓库,您可以在其中找到中间层
可作为插件集成到 triton 中
Intel 更新
更多详情请参考幻灯片