triton.autotune¶
- triton.autotune(configs, key, prune_configs_by=None, reset_to_zero=None, restore_value=None, pre_hook=None, post_hook=None, warmup=None, rep=None, use_cuda_graph=False, do_bench=None, cache_results=False)¶
用于自动调优
triton.jit
函数的装饰器。@triton.autotune(configs=[ triton.Config(kwargs={'BLOCK_SIZE': 128}, num_warps=4), triton.Config(kwargs={'BLOCK_SIZE': 1024}, num_warps=8), ], key=['x_size'] # the two above configs will be evaluated anytime # the value of x_size changes ) @triton.jit def kernel(x_ptr, x_size, BLOCK_SIZE: tl.constexpr): ...
- 注意:
当所有配置都被评估时,内核会运行多次。这意味着内核更新的任何值都会被多次更新。为了避免这种意外行为,可以使用 reset_to_zero 参数,它在运行任何配置之前将提供的张量值重置为 zero。
如果环境变量
TRITON_PRINT_AUTOTUNING
设置为"1"
,Triton 将在每个内核自动调优后向标准输出打印一条消息,包括自动调优花费的时间和最佳配置。- 参数:
configs (list[triton.Config]) –
triton.Config
对象列表key (list[str]) – 参数名称列表,其值的变化将触发所有提供的配置的评估。
prune_configs_by – 用于剪枝配置的函数字典,字段:‘perf_model’:用于预测不同配置运行时间的性能模型,返回运行时间;‘top_k’:要基准测试的配置数量;‘early_config_prune’(可选):用于执行早期剪枝(例如,num_stages)的函数。它接受 configs:List[Config] 作为输入,并返回剪枝后的配置。
reset_to_zero (list[str]) – 参数名称列表,在评估任何配置之前将其值重置为零。
restore_value (list[str]) – 参数名称列表,在评估任何配置之后恢复其值。
pre_hook (lambda args, reset_only) – 在调用内核之前将调用的函数。这会覆盖用于 ‘reset_to_zero’ 和 ‘restore_value’ 的默认 pre_hook。‘kwargs’:传递给内核的所有参数的字典。‘reset_only’:一个布尔值,指示调用 pre_hook 是否仅用于重置值,而没有相应的 post_hook。
post_hook (lambda args, exception) – 在调用内核之后将调用的函数。这会覆盖用于 ‘restore_value’ 的默认 post_hook。‘kwargs’:传递给内核的所有参数的字典。‘exception’:内核在编译或运行时错误时引发的异常。
warmup (int) – 传递给基准测试的热身时间(以毫秒为单位)(已弃用)。
rep (int) – 传递给基准测试的重复时间(以毫秒为单位)(已弃用)。
do_bench (lambda fn, quantiles) – 用于测量每次运行时间的基准测试函数。
cache_results – 是否将自动调优时间缓存到磁盘。默认为 False。
“type cache_results: bool