triton-ascend-case-vector-elemwise-bench-atlas-a3 - SKILL.md Agent Skill

name: triton-ascend-case-vector-elemwise-bench-atlas-a3 description: "Atlas A3 上 Triton vector 一元/二元 `tl.` ：fp32/fp16/bf16 三种 dtype 下各算子端到端 time (ms)；并给出"语义等价、精度对齐"前提下应替换的 triton API 与推荐写法。例如 fp32 上 `tl.exp2(x)` 比 `tl.exp(xLN2)` 性能表现得要差，可以选择使用 `tl.exp(x*LN2)`。" category: improvement version: "1.0.0" metadata: case_type: improvement backend: ascend dsl: triton_ascend hardware: "Atlas A3"

exp / exp2：A3 上二者性能差距显著（fp32 上 tl.exp2 比 tl.exp 性能表现很差，数学等价 exp2(x) = exp(x * LN2)，勿与 LOG2E 混淆，但是要保证精度一致。

精度告警：以下替换在单算子单元测试上是"语义等价、精度对齐"的，但在算子融合或者网络中使用时，误差可能会累积放大。 若替换某条 API 后精度无法对齐，请保留原写法，不要替换。

原写法	推荐替换	备注
`acc / l[:, None]`（`acc: (M, D)`, `l: (M,)`）—— fp32	`l_recip = 1.0/l; acc * l_recip[:, None]` 或 `acc * (1.0/l)[:, None]`	A3 fp32 上直接除慢 42%，把 `M*D` 次 vdiv 降到 `M` 次，剩余转 vmul
`acc * (1.0 / l)[:, None]`（fp16）	`l_recip = 1.0/l; acc * l_recip[:, None]`	内联 `1.0/l` 的写法 fp16 上慢 42%；显式拆出 `l_recip` 更稳