1 rok temu · 19514d632e
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -82,11 +82,11 @@ set(GGML_FATAL_WARNINGS     ${LLAMA_FATAL_WARNINGS})
 
				 
			
 
				 # change the default for these ggml options
			
 
				 if (NOT DEFINED GGML_LLAMAFILE)
			
 
				-    set(GGML_LLAMAFILE ON)
			
 
				+    set(GGML_LLAMAFILE_DEFAULT ON)
			
 
				 endif()
			
 
				 
			
 
				-if (NOT DEFINED GGML_CUDA_USE_GRAPHS)
			
 
				-    set(GGML_CUDA_USE_GRAPHS ON)
			
 
				+if (NOT DEFINED GGML_CUDA_GRAPHS)
			
 
				+    set(GGML_CUDA_GRAPHS_DEFAULT ON)
			
 
				 endif()
			
 
				 
			
 
				 # transition helpers
			
--- a/Makefile
+++ b/Makefile
@@ -619,7 +619,7 @@ ifdef GGML_CUDA
 
				 			CUDA_PATH ?= /usr/local/cuda
			
 
				 		endif
			
 
				 
			
 
				-		MK_CPPFLAGS  += -DGGML_USE_CUDA -I$(CUDA_PATH)/include -I$(CUDA_PATH)/targets/$(UNAME_M)-linux/include -DGGML_CUDA_USE_GRAPHS
			
 
				+		MK_CPPFLAGS  += -DGGML_USE_CUDA -DGGML_CUDA_USE_GRAPHS -I$(CUDA_PATH)/include -I$(CUDA_PATH)/targets/$(UNAME_M)-linux/include
			
 
				 		MK_LDFLAGS   += -lcuda -lcublas -lculibos -lcudart -lcublasLt -lpthread -ldl -lrt -L$(CUDA_PATH)/lib64 -L/usr/lib64 -L$(CUDA_PATH)/targets/$(UNAME_M)-linux/lib -L$(CUDA_PATH)/lib64/stubs -L/usr/lib/wsl/lib
			
 
				 		MK_NVCCFLAGS += -use_fast_math
			
 
				 	endif # GGML_MUSA
			
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@@ -56,6 +56,15 @@ else()
 
				     set(GGML_NATIVE_DEFAULT ON)
			
 
				 endif()
			
 
				 
			
 
				+# defaults
			
 
				+if (NOT GGML_LLAMAFILE_DEFAULT)
			
 
				+    set(GGML_LLAMAFILE_DEFAULT OFF)
			
 
				+endif()
			
 
				+
			
 
				+if (NOT GGML_CUDA_GRAPHS_DEFAULT)
			
 
				+    set(GGML_CUDA_GRAPHS_DEFAULT OFF)
			
 
				+endif()
			
 
				+
			
 
				 # general
			
 
				 option(GGML_STATIC "ggml: static link libraries"         OFF)
			
 
				 option(GGML_NATIVE "ggml: enable -march=native flag"     ${GGML_NATIVE_DEFAULT})
			
@@ -110,7 +119,7 @@ option(GGML_ACCELERATE                      "ggml: enable Accelerate framework"
 
				 option(GGML_BLAS                            "ggml: use BLAS"                                  ${GGML_BLAS_DEFAULT})
			
 
				 set(GGML_BLAS_VENDOR ${GGML_BLAS_VENDOR_DEFAULT} CACHE STRING
			
 
				                                             "ggml: BLAS library vendor")
			
 
				-option(GGML_LLAMAFILE                       "ggml: use LLAMAFILE"                             OFF)
			
 
				+option(GGML_LLAMAFILE                       "ggml: use LLAMAFILE"                             ${GGML_LLAMAFILE_DEFAULT})
			
 
				 
			
 
				 option(GGML_CUDA                            "ggml: use CUDA"                                  OFF)
			
 
				 option(GGML_MUSA                            "ggml: use MUSA"                                  OFF)
			
@@ -127,7 +136,7 @@ set   (GGML_CUDA_PEER_MAX_BATCH_SIZE "128" CACHE STRING
 
				 option(GGML_CUDA_NO_PEER_COPY               "ggml: do not use peer to peer copies"            OFF)
			
 
				 option(GGML_CUDA_NO_VMM                     "ggml: do not try to use CUDA VMM"                OFF)
			
 
				 option(GGML_CUDA_FA_ALL_QUANTS              "ggml: compile all quants for FlashAttention"     OFF)
			
 
				-option(GGML_CUDA_USE_GRAPHS                 "ggml: use CUDA graphs (llama.cpp only)"          OFF)
			
 
				+option(GGML_CUDA_GRAPHS                     "ggml: use CUDA graphs (llama.cpp only)"          ${GGML_CUDA_GRAPHS_DEFAULT})
			
 
				 
			
 
				 option(GGML_HIPBLAS                         "ggml: use hipBLAS"                               OFF)
			
 
				 option(GGML_HIP_UMA                         "ggml: use HIP unified memory architecture"       OFF)
			
--- a/ggml/src/CMakeLists.txt
+++ b/ggml/src/CMakeLists.txt
@@ -329,7 +329,7 @@ if (GGML_CUDA)
 
				         add_compile_definitions(K_QUANTS_PER_ITERATION=${GGML_CUDA_KQUANTS_ITER})
			
 
				         add_compile_definitions(GGML_CUDA_PEER_MAX_BATCH_SIZE=${GGML_CUDA_PEER_MAX_BATCH_SIZE})
			
 
				 
			
 
				-        if (GGML_CUDA_USE_GRAPHS)
			
 
				+        if (GGML_CUDA_GRAPHS)
			
 
				             add_compile_definitions(GGML_CUDA_USE_GRAPHS)
			
 
				         endif()