有关写代码

python

from torch.nn.attention import SDPBackend, sdpa_kernel
with sdpa_kernel(SDPBackend.MATH):
    # do sth

跳过 efficient_attention, 使用 C++ 纯 MATH 实现