|
|
@@ -767,14 +767,11 @@ static __device__ __forceinline__ void flash_attn_ext_f16_iter(
|
|
|
}
|
|
|
}
|
|
|
#else
|
|
|
- GGML_UNUSED(Q_f2); GGML_UNUSED(K_h2); GGML_UNUSED(V_h2);
|
|
|
- GGML_UNUSED(mask_h2); GGML_UNUSED(dstk); GGML_UNUSED(dstk_fixup);
|
|
|
- GGML_UNUSED(scale); GGML_UNUSED(slope); GGML_UNUSED(logit_softcap);
|
|
|
- GGML_UNUSED(ne01); GGML_UNUSED(ne02); GGML_UNUSED(stride_K); GGML_UNUSED(stride_V);
|
|
|
- GGML_UNUSED(stride_mask); GGML_UNUSED(tile_K);
|
|
|
- GGML_UNUSED(tile_V); GGML_UNUSED(tile_mask); GGML_UNUSED(Q_B);
|
|
|
- GGML_UNUSED(VKQ_C); GGML_UNUSED(KQ_max); GGML_UNUSED(KQ_rowsum);
|
|
|
- GGML_UNUSED(kb0); GGML_UNUSED(tile_Q);
|
|
|
+ GGML_UNUSED_VARS(Q_f2, K_h2, V_h2, mask_h2, dstk, dstk_fixup,
|
|
|
+ scale, slope, logit_softcap, ne01, ne02,
|
|
|
+ stride_K, stride_V, stride_mask,
|
|
|
+ tile_Q, tile_K, tile_V, tile_mask,
|
|
|
+ Q_B, VKQ_C, KQ_max, KQ_rowsum, kb0);
|
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
|
@@ -1236,14 +1233,10 @@ static __device__ __forceinline__ void flash_attn_ext_f16_process_tile(
|
|
|
}
|
|
|
}
|
|
|
#else
|
|
|
- GGML_UNUSED(Q_f2); GGML_UNUSED(K_h2); GGML_UNUSED(V_h2);
|
|
|
- GGML_UNUSED(mask_h2); GGML_UNUSED(sinks_f);
|
|
|
- GGML_UNUSED(dstk); GGML_UNUSED(dstk_fixup);
|
|
|
- GGML_UNUSED(scale); GGML_UNUSED(slope); GGML_UNUSED(logit_softcap);
|
|
|
- GGML_UNUSED(ne01); GGML_UNUSED(ne02);
|
|
|
- GGML_UNUSED(stride_Q1); GGML_UNUSED(stride_Q2);
|
|
|
- GGML_UNUSED(stride_K); GGML_UNUSED(stride_V); GGML_UNUSED(stride_mask);
|
|
|
- GGML_UNUSED(jt); GGML_UNUSED(kb0_start); GGML_UNUSED(kb0_stop);
|
|
|
+ GGML_UNUSED_VARS(Q_f2, K_h2, V_h2, mask_h2, sinks_f, dstk, dstk_fixup,
|
|
|
+ scale, slope, logit_softcap, ne01, ne02,
|
|
|
+ stride_Q1, stride_Q2, stride_K, stride_V, stride_mask,
|
|
|
+ jt, kb0_start, kb0_stop);
|
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
|
@@ -1397,17 +1390,15 @@ static __global__ void flash_attn_ext_f16(
|
|
|
(Q_f2, K_h2, V_h2, mask_h2, sinks_f, dstk, dst_meta, scale, slope, logit_softcap,
|
|
|
ne01, ne02, stride_Q1, stride_Q2, stride_K, stride_V, stride_mask, jt, kb0_start_kernel, kb0_stop_kernel);
|
|
|
#else
|
|
|
- GGML_UNUSED(Q); GGML_UNUSED(K); GGML_UNUSED(V); GGML_UNUSED(mask);
|
|
|
- GGML_UNUSED(sinks); GGML_UNUSED(KV_max); GGML_UNUSED(dst); GGML_UNUSED(dst_meta);
|
|
|
- GGML_UNUSED(scale); GGML_UNUSED(max_bias); GGML_UNUSED(m0); GGML_UNUSED(m1);
|
|
|
- GGML_UNUSED(n_head_log2); GGML_UNUSED(logit_softcap);
|
|
|
- GGML_UNUSED(ne00); GGML_UNUSED(ne01); GGML_UNUSED(ne02); GGML_UNUSED(ne03);
|
|
|
- GGML_UNUSED(nb01); GGML_UNUSED(nb02); GGML_UNUSED(nb03);
|
|
|
- GGML_UNUSED(ne10); GGML_UNUSED(ne11); GGML_UNUSED(ne12); GGML_UNUSED(ne13);
|
|
|
- GGML_UNUSED(nb11); GGML_UNUSED(nb12); GGML_UNUSED(nb13);
|
|
|
- GGML_UNUSED(nb21); GGML_UNUSED(nb22); GGML_UNUSED(nb23);
|
|
|
- GGML_UNUSED(ne31); GGML_UNUSED(ne32); GGML_UNUSED(ne33);
|
|
|
- GGML_UNUSED(nb31); GGML_UNUSED(nb32); GGML_UNUSED(nb33);
|
|
|
+ GGML_UNUSED_VARS(Q, K, V, mask, sinks, KV_max, dst, dst_meta, scale,
|
|
|
+ max_bias, m0, m1, n_head_log2, logit_softcap,
|
|
|
+ ne00, ne01, ne02, ne03,
|
|
|
+ nb01, nb02, nb03,
|
|
|
+ ne10, ne11, ne12, ne13,
|
|
|
+ nb11, nb12, nb13,
|
|
|
+ nb21, nb22, nb23,
|
|
|
+ ne31, ne32, ne33,
|
|
|
+ nb31, nb32, nb33);
|
|
|
NO_DEVICE_CODE;
|
|
|
#endif // defined(FLASH_ATTN_AVAILABLE) && defined(TURING_MMA_AVAILABLE)
|
|
|
}
|