|
@@ -291,9 +291,7 @@ namespace ggml_cuda_mma {
|
|
|
: "=r"(xi[0]), "=r"(xi[2]), "=r"(xi[1]), "=r"(xi[3])
|
|
: "=r"(xi[0]), "=r"(xi[2]), "=r"(xi[1]), "=r"(xi[3])
|
|
|
: "l"(xs));
|
|
: "l"(xs));
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(t);
|
|
|
|
|
- GGML_UNUSED(xs0);
|
|
|
|
|
- GGML_UNUSED(stride);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(t, xs0, stride);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -315,9 +313,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(A.x[1]), "r"(B.x[0]));
|
|
: "r"(A.x[1]), "r"(B.x[0]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -345,9 +341,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(A.x[3]), "r"(B.x[1]));
|
|
: "r"(A.x[3]), "r"(B.x[1]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -372,9 +366,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[1]));
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[1]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -408,9 +400,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[3]));
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[3]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -425,9 +415,7 @@ namespace ggml_cuda_mma {
|
|
|
: "+r"(Dxi[0]), "+r"(Dxi[1]), "+r"(Dxi[2]), "+r"(Dxi[3])
|
|
: "+r"(Dxi[0]), "+r"(Dxi[1]), "+r"(Dxi[2]), "+r"(Dxi[3])
|
|
|
: "r"(Axi[0]), "r"(Axi[1]), "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[0]), "r"(Bxi[1]));
|
|
: "r"(Axi[0]), "r"(Axi[1]), "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[0]), "r"(Bxi[1]));
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // AMPERE_MMA_AVAILABLE
|
|
#endif // AMPERE_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -452,9 +440,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[1]));
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[1]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -469,9 +455,7 @@ namespace ggml_cuda_mma {
|
|
|
: "+r"(Dxi[0]), "+r"(Dxi[1]), "+r"(Dxi[2]), "+r"(Dxi[3])
|
|
: "+r"(Dxi[0]), "+r"(Dxi[1]), "+r"(Dxi[2]), "+r"(Dxi[3])
|
|
|
: "r"(Axi[0]), "r"(Axi[1]), "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[0]), "r"(Bxi[1]));
|
|
: "r"(Axi[0]), "r"(Axi[1]), "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[0]), "r"(Bxi[1]));
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // AMPERE_MMA_AVAILABLE
|
|
#endif // AMPERE_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -505,9 +489,7 @@ namespace ggml_cuda_mma {
|
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[3]));
|
|
: "r"(Axi[2]), "r"(Axi[3]), "r"(Bxi[3]));
|
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
#endif // __CUDA_ARCH__ >= GGML_CUDA_CC_AMPERE
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // TURING_MMA_AVAILABLE
|
|
#endif // TURING_MMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -533,9 +515,7 @@ namespace ggml_cuda_mma {
|
|
|
0, 0, 0);
|
|
0, 0, 0);
|
|
|
#endif // defined(CDNA3)
|
|
#endif // defined(CDNA3)
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // AMD_MFMA_AVAILABLE
|
|
#endif // AMD_MFMA_AVAILABLE
|
|
|
}
|
|
}
|
|
@@ -561,9 +541,7 @@ namespace ggml_cuda_mma {
|
|
|
0, 0, 0);
|
|
0, 0, 0);
|
|
|
#endif // defined(CDNA3)
|
|
#endif // defined(CDNA3)
|
|
|
#else
|
|
#else
|
|
|
- GGML_UNUSED(D);
|
|
|
|
|
- GGML_UNUSED(A);
|
|
|
|
|
- GGML_UNUSED(B);
|
|
|
|
|
|
|
+ GGML_UNUSED_VARS(D, A, B);
|
|
|
NO_DEVICE_CODE;
|
|
NO_DEVICE_CODE;
|
|
|
#endif // AMD_MFMA_AVAILABLE
|
|
#endif // AMD_MFMA_AVAILABLE
|
|
|
}
|
|
}
|