triton.Config

class triton.Config(self, kwargs, num_warps=4, num_stages=3, num_ctas=1, maxnreg=None, pre_hook=None, ir_override=None)

用于表示自动调优器(auto-tuner)可尝试的内核配置的对象。

变量:
  • kwargs – 作为关键字参数传递给内核的元参数字典。

  • num_warps – 针对 GPU 编译内核时使用的 warp 数量。例如,如果 num_warps=8,则每个内核实例将自动并行化,以协同执行 8 * 32 = 256 个线程。

  • num_stages – 编译器在进行软件流水线循环时应使用的阶段数。主要用于 SM80+ GPU 上的矩阵乘法工作负载。

  • num_ctas – 块簇(block cluster)中的块数量。仅限 SM90+。

  • maxnreg – 单个线程可使用的最大寄存器数量。对应于 ptx 的 .maxnreg 指令。并非所有平台都支持。

  • pre_hook – 在调用内核之前执行的函数。该函数的参数为 args。

  • ir_override – 用户定义的 IR (*.{ttgir|llir|ptx|amdgcn}) 的文件名。

__init__(self, kwargs, num_warps=4, num_stages=3, num_ctas=1, maxnreg=None, pre_hook=None, ir_override=None)

方法

__init__(self, kwargs[, num_warps, ...])

all_kwargs(self)