6 months ago · 68155c66f0
--- a/ggml/src/ggml-cuda/common.cuh
+++ b/ggml/src/ggml-cuda/common.cuh
@@ -176,17 +176,20 @@ static const char * cu_get_error_str(CUresult err) {
 
				 #endif
			
 
				 
			
 
				 #if !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__)) && !defined(GGML_USE_MUSA)
			
 
				-#define CUDA_SET_SHARED_MEMORY_LIMIT(kernel, nbytes) \
			
 
				-    do { \
			
 
				-        static bool shared_memory_limit_raised[GGML_CUDA_MAX_DEVICES] = {false}; \
			
 
				-        const int id = ggml_cuda_get_device(); \
			
 
				-        if (!shared_memory_limit_raised[id]) { \
			
 
				-            CUDA_CHECK(cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, nbytes)); \
			
 
				-            shared_memory_limit_raised[id] = true; \
			
 
				-        } \
			
 
				-    } while (0)
			
 
				+#    define CUDA_SET_SHARED_MEMORY_LIMIT(kernel, nbytes)                                                       \
			
 
				+        do {                                                                                                   \
			
 
				+            static bool shared_memory_limit_raised[GGML_CUDA_MAX_DEVICES] = { false };                         \
			
 
				+            const int   id                                                = ggml_cuda_get_device();            \
			
 
				+            if (!shared_memory_limit_raised[id]) {                                                             \
			
 
				+                CUDA_CHECK(cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, nbytes)); \
			
 
				+                shared_memory_limit_raised[id] = true;                                                         \
			
 
				+            }                                                                                                  \
			
 
				+        } while (0)
			
 
				 #else
			
 
				-#define CUDA_SET_SHARED_MEMORY_LIMIT(kernel, nbytes) do {} while (0)
			
 
				+#    define CUDA_SET_SHARED_MEMORY_LIMIT(kernel, nbytes) \
			
 
				+        do {                                             \
			
 
				+            GGML_UNUSED(nbytes);                         \
			
 
				+        } while (0)
			
 
				 #endif // !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__)) && !defined(GGML_USE_MUSA)
			
 
				 
			
 
				 #if CUDART_VERSION >= 11010 || defined(GGML_USE_MUSA)
			
--- a/ggml/src/ggml-cuda/fattn-tile-f32.cu
+++ b/ggml/src/ggml-cuda/fattn-tile-f32.cu
@@ -299,14 +299,14 @@ static __global__ void flash_attn_tile_ext_f32(
 
				     GGML_UNUSED(dst); GGML_UNUSED(dst_meta); GGML_UNUSED(scale);
			
 
				     GGML_UNUSED(max_bias); GGML_UNUSED(m0); GGML_UNUSED(m1);
			
 
				     GGML_UNUSED(n_head_log2); GGML_UNUSED(logit_softcap);
			
 
				-    GGML_UNUSED(ne00); GGML_UNUSED(ne01); GGML_UNUSED(ne02);
			
 
				-    GGML_UNUSED(ne03); GGML_UNUSED(ne10); GGML_UNUSED(ne11);
			
 
				-    GGML_UNUSED(ne12); GGML_UNUSED(ne13); GGML_UNUSED(ne31);
			
 
				-    GGML_UNUSED(nb31); GGML_UNUSED(nb01); GGML_UNUSED(nb02);
			
 
				-    GGML_UNUSED(nb03); GGML_UNUSED(nb11); GGML_UNUSED(nb12);
			
 
				-    GGML_UNUSED(nb13); GGML_UNUSED(nb21); GGML_UNUSED(nb22);
			
 
				-    GGML_UNUSED(nb23); GGML_UNUSED(ne0); GGML_UNUSED(ne1);
			
 
				-    GGML_UNUSED(ne2); GGML_UNUSED(ne3);
			
 
				+    GGML_UNUSED(ne00); GGML_UNUSED(ne01); GGML_UNUSED(ne02); GGML_UNUSED(ne03);
			
 
				+    GGML_UNUSED(ne10); GGML_UNUSED(ne11); GGML_UNUSED(ne12); GGML_UNUSED(ne13);
			
 
				+    GGML_UNUSED(ne31); GGML_UNUSED(ne32);
			
 
				+    GGML_UNUSED(nb31); GGML_UNUSED(nb32);
			
 
				+    GGML_UNUSED(nb01); GGML_UNUSED(nb02); GGML_UNUSED(nb03);
			
 
				+    GGML_UNUSED(nb11); GGML_UNUSED(nb12); GGML_UNUSED(nb13);
			
 
				+    GGML_UNUSED(nb21); GGML_UNUSED(nb22); GGML_UNUSED(nb23);
			
 
				+    GGML_UNUSED(ne0); GGML_UNUSED(ne1); GGML_UNUSED(ne2); GGML_UNUSED(ne3);
			
 
				     NO_DEVICE_CODE;
			
 
				 #endif // FLASH_ATTN_AVAILABLE
			
 
				 }
			
--- a/ggml/src/ggml-cuda/fattn-vec-f32.cuh
+++ b/ggml/src/ggml-cuda/fattn-vec-f32.cuh
@@ -337,13 +337,15 @@ static __global__ void flash_attn_vec_ext_f32(
 
				     GGML_UNUSED(Q); GGML_UNUSED(K); GGML_UNUSED(V); GGML_UNUSED(mask);
			
 
				     GGML_UNUSED(dst); GGML_UNUSED(dst_meta); GGML_UNUSED(scale);
			
 
				     GGML_UNUSED(max_bias); GGML_UNUSED(m0); GGML_UNUSED(m1);
			
 
				-    GGML_UNUSED(n_head_log2); GGML_UNUSED(logit_softcap); GGML_UNUSED(ne00);
			
 
				-    GGML_UNUSED(ne01); GGML_UNUSED(ne02); GGML_UNUSED(ne03); GGML_UNUSED(ne10);
			
 
				-    GGML_UNUSED(ne11); GGML_UNUSED(ne12); GGML_UNUSED(ne13); GGML_UNUSED(ne31);
			
 
				-    GGML_UNUSED(nb31); GGML_UNUSED(nb01); GGML_UNUSED(nb02); GGML_UNUSED(nb03);
			
 
				-    GGML_UNUSED(nb11); GGML_UNUSED(nb12); GGML_UNUSED(nb13); GGML_UNUSED(nb21);
			
 
				-    GGML_UNUSED(nb22); GGML_UNUSED(nb23); GGML_UNUSED(ne0); GGML_UNUSED(ne1);
			
 
				-    GGML_UNUSED(ne2); GGML_UNUSED(ne3);
			
 
				+    GGML_UNUSED(n_head_log2); GGML_UNUSED(logit_softcap);
			
 
				+    GGML_UNUSED(ne00); GGML_UNUSED(ne01); GGML_UNUSED(ne02); GGML_UNUSED(ne03);
			
 
				+    GGML_UNUSED(ne10); GGML_UNUSED(ne11); GGML_UNUSED(ne12); GGML_UNUSED(ne13);
			
 
				+    GGML_UNUSED(ne31); GGML_UNUSED(ne32);
			
 
				+    GGML_UNUSED(nb31); GGML_UNUSED(nb32);
			
 
				+    GGML_UNUSED(nb01); GGML_UNUSED(nb02); GGML_UNUSED(nb03);
			
 
				+    GGML_UNUSED(nb11); GGML_UNUSED(nb12); GGML_UNUSED(nb13);
			
 
				+    GGML_UNUSED(nb21); GGML_UNUSED(nb22); GGML_UNUSED(nb23);
			
 
				+    GGML_UNUSED(ne0); GGML_UNUSED(ne1); GGML_UNUSED(ne2); GGML_UNUSED(ne3);
			
 
				     NO_DEVICE_CODE;
			
 
				 #endif // FLASH_ATTN_AVAILABLE
			
 
				 }