triton.language.dot¶
- triton.language.dot(input, other, acc=None, input_precision=None, allow_tf32=None, max_num_imprecise_acc=None, out_dtype=triton.language.float32)¶
返回两个块的矩阵乘积。
两个块必须都是二维或三维的,并且具有兼容的内部维度。对于三维块,tl.dot 执行批量矩阵乘积,其中每个块的第一个维度代表批量维度。
- 参数:
input ({
int8
,float8_e5m2
,float16
,bfloat16
,float32
} 中的标量类型的 2D 或 3D 张量) – 第一个相乘的张量。other ({
int8
,float8_e5m2
,float16
,bfloat16
,float32
} 中的标量类型的 2D 或 3D 张量) – 第二个相乘的张量。acc ({
float16
,float32
,int32
} 中的标量类型的 2D 或 3D 张量) – 累加器张量。如果不是 None,结果将加到此张量上。input_precision (字符串。nvidia 可用选项:
"tf32"
,"tf32x3"
,"ieee"
。默认值:"tf32"
。amd 可用选项:"ieee"
, (仅限 CDNA3)"tf32"
。) – 如何利用 Tensor Cores 进行 f32 x f32 计算。如果设备没有 Tensor Cores 或输入不是 f32 类型,此选项将被忽略。对于具有 Tensor Cores 的设备,默认精度为 tf32。allow_tf32 – 已弃用。 如果为 true,则将 input_precision 设置为“tf32”。
input_precision
和allow_tf32
只能指定其中一个(即至少一个必须是None
)。