triton-ascend-case-vector-elemwise-bench-atlas-a5 - SKILL.md Agent Skill

name: triton-ascend-case-vector-elemwise-bench-atlas-a5 description: "Atlas A5 上 Triton vector 一元/二元 `tl.*`：fp32/fp16/bf16 三种 dtype 下各算子端到端 time (ms)；并给出"语义等价、精度对齐"前提下应替换的 triton API 与推荐写法。" category: improvement version: "1.0.0" metadata: case_type: improvement backend: ascend dsl: triton_ascend hardware: "Atlas A5"

精度告警：以下替换在单算子单元测试上是"语义等价、精度对齐"的，但在算子融合或者网络中使用时，误差可能累积放大。 若替换某条 API 后精度无法对齐，请保留原写法，不要替换。

原写法	推荐替换	收益
`tl.sqrt(x)`	`1.0 / tl.rsqrt(x)`	84%-89%
`tl.sigmoid(x)`	`1/(1+tl.exp(-x))`	50%
`tl.where(x > y, x, y)` 实现 maximum	`tl.maximum(x, y)`	59%
`(exp(x)-exp(-x))/(exp(x)+exp(-x))` / `2*sigmoid(2x)-1` 实现 tanh	*`1 - 2/(tl.exp(2x)+1)`**	46%-50%
`tl.exp2(x)`	`tl.exp(x*LN2)`	65%
`x / y` 实现 div	`tl.div_rn(x, y)` 或 `tl.fdiv(x, y)`	25%
`tl.maximum(x, 0)` / `tl.where(x>0, x, 0)` 实现 relu	`(x + tl.abs(x)) * 0.5`	6-11%
`tl.where(x>=0, x, -x)` / `tl.abs(x)`	`tl.maximum(x, -x)`	11-15%

原写法	推荐替换	备注
`acc / l[:, None]` 或 `acc*(1.0/l)[:, None]`	*`l_recip = 1.0/l; acc l_recip[:, None]`**	A5 fp32 上 `l_recip+vmul` 最快，原版直接除慢 46%、内联 recip 慢 74%