triton.language¶

编程模型¶

`arange`	返回半开区间 `[start, end)` 内的连续值。
`cat`	连接给定的块
`full`	返回一个填充了给定 `shape` 和 `dtype` 的标量值的张量。
`zeros`	返回一个填充了给定 `shape` 和 `dtype` 的标量值 0 的张量。
`zeros_like`	返回一个形状和类型与给定张量相同的零张量。
`cast`	将张量转换为给定的 `dtype`。

`dot`	返回两个块的矩阵乘积。
`dot_scaled`	返回两个块的微缩放格式的矩阵乘积。

`load`	返回一个数据张量，其值从 pointer 定义的内存位置加载
`store`	将数据张量存储到 pointer 定义的内存位置。
`make_tensor_descriptor`	创建张量描述符对象
`load_tensor_descriptor`	从张量描述符加载数据块。
`store_tensor_descriptor`	将数据块存储到张量描述符。
`make_block_ptr`	返回父张量中块的指针
`advance`	移动块指针

`flip`	沿维度 dim 翻转张量 x。
`where`	根据 `condition` 返回来自 `x` 或 `y` 的元素张量。
`swizzle2d`	将行主序 size_i * size_j 矩阵的索引转换为每个 size_g 行组的列主序矩阵的索引。

`abs`	计算 `x` 的元素级绝对值。
`cdiv`	计算 `x` 除以 `div` 的向上取整除法。
`ceil`	计算 `x` 的元素级向上取整。
`clamp`	将输入张量 `x` 钳制在 [min, max] 范围内。
`cos`	计算 `x` 的元素级余弦。
`div_rn`	计算 `x` 和 `y` 的元素级精确除法（根据 IEEE 标准四舍五入到最近的整数）。
`erf`	计算 `x` 的元素级误差函数。
`exp`	计算 `x` 的元素级指数。
`exp2`	计算 `x` 的元素级指数（以 2 为底）。
`fdiv`	计算 `x` 和 `y` 的元素级快速除法。
`floor`	计算 `x` 的元素级向下取整。
`fma`	计算 `x`、`y` 和 `z` 的元素级融合乘加运算。
`log`	计算 `x` 的元素级自然对数。
`log2`	计算 `x` 的元素级对数（以 2 为底）。
`maximum`	计算 `x` 和 `y` 的元素级最大值。
`minimum`	计算 `x` 和 `y` 的元素级最小值。
`rsqrt`	计算 `x` 的元素级平方根倒数。
`sigmoid`	计算 `x` 的元素级 Sigmoid。
`sin`	计算 `x` 的元素级正弦。
`softmax`	计算 `x` 的元素级 Softmax。
`sqrt`	计算 `x` 的元素级快速平方根。
`sqrt_rn`	计算 `x` 的元素级精确平方根（根据 IEEE 标准四舍五入到最近的整数）。
`umulhi`	计算 `x` 和 `y` 的 2N 位乘积的元素级最高 N 位。

`argmax`	返回 `input` 张量中沿给定 `axis` 的所有元素的最大索引。
`argmin`	返回 `input` 张量中沿给定 `axis` 的所有元素的最小索引。
`max`	返回 `input` 张量中沿给定 `axis` 的所有元素的最大值。
`min`	返回 `input` 张量中沿给定 `axis` 的所有元素的最小值。
`reduce`	将 combine_fn 应用于 `input` 张量中沿给定 `axis` 的所有元素。
`sum`	返回 `input` 张量中沿给定 `axis` 的所有元素的和。
`xor_sum`	返回 `input` 张量中沿给定 `axis` 的所有元素的异或和。

`associative_scan`	将 combine_fn 应用于 `input` 张量中沿给定 `axis` 的每个带有进位的元素，并更新进位。
`cumprod`	返回 `input` 张量中沿给定 `axis` 的所有元素的累积积。
`cumsum`	返回 `input` 张量中沿给定 `axis` 的所有元素的累积和。
`histogram`	根据输入张量计算直方图，具有 num_bins 个箱子，箱子宽度为 1 并从 0 开始。
`sort`
`gather`	沿给定维度从张量中收集。

`randint4x`	给定一个 `seed` 标量和一个 `offset` 块，返回四个随机 `int32` 块。
`randint`	给定一个 `seed` 标量和一个 `offset` 块，返回一个随机 `int32` 块。
`rand`	给定一个 `seed` 标量和一个 `offset` 块，返回一个在 \(U(0, 1)\) 中的随机 `float32` 块。
`randn`	给定一个 `seed` 标量和一个 `offset` 块，返回一个在 \(\mathcal{N}(0, 1)\) 中的随机 `float32` 块。

`range`	永远向上计数的迭代器。
`static_range`	永远向上计数的迭代器。

在张量上执行内联汇编。

`assume`	允许编译器假定 `cond` 为 True。
`debug_barrier`	插入一个屏障以同步块中的所有线程。
`max_constancy`	告知编译器 `input` 中的前 value 个值是常量。
`max_contiguous`	告知编译器 `input` 中的前 value 个值是连续的。
`multiple_of`	告知编译器 `input` 中的所有值都是 `value` 的倍数。