triton.language.dot

triton.language.dot(input, other, acc=None, input_precision=None, allow_tf32=None, max_num_imprecise_acc=None, out_dtype=triton.language.float32)

返回两个块的矩阵乘积。

两个块必须都是二维或三维的,并且具有兼容的内部维度。对于三维块,tl.dot 执行批量矩阵乘积,其中每个块的第一个维度代表批量维度。

参数:
  • input ({int8, float8_e5m2, float16, bfloat16, float32} 中的标量类型的 2D 或 3D 张量) – 第一个相乘的张量。

  • other ({int8, float8_e5m2, float16, bfloat16, float32} 中的标量类型的 2D 或 3D 张量) – 第二个相乘的张量。

  • acc ({float16, float32, int32} 中的标量类型的 2D 或 3D 张量) – 累加器张量。如果不是 None,结果将加到此张量上。

  • input_precision (字符串。nvidia 可用选项:"tf32", "tf32x3", "ieee"。默认值:"tf32"。amd 可用选项:"ieee", (仅限 CDNA3) "tf32"。) – 如何利用 Tensor Cores 进行 f32 x f32 计算。如果设备没有 Tensor Cores 或输入不是 f32 类型,此选项将被忽略。对于具有 Tensor Cores 的设备,默认精度为 tf32。

  • allow_tf32已弃用。 如果为 true,则将 input_precision 设置为“tf32”。input_precisionallow_tf32 只能指定其中一个(即至少一个必须是 None)。