1 год назад · ee1628bdfe
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -46,6 +46,10 @@
 
				 #define GGML_USE_CUBLAS_SYCL
			
 
				 #endif
			
 
				 
			
 
				+#if (defined(GGML_USE_CUBLAS) || defined(GGML_USE_SYCL)) || defined(GGML_USE_VULKAN)
			
 
				+#define GGML_USE_CUBLAS_SYCL_VULKAN
			
 
				+#endif
			
 
				+
			
 
				 int32_t get_num_physical_cores() {
			
 
				 #ifdef __linux__
			
 
				     // enumerate the set of thread siblings, num entries is num cores
			
@@ -660,8 +664,8 @@ bool gpt_params_parse_ex(int argc, char ** argv, gpt_params & params) {
 
				                     params.tensor_split[i] = 0.0f;
			
 
				                 }
			
 
				             }
			
 
				-#ifndef GGML_USE_CUBLAS_SYCL
			
 
				-            fprintf(stderr, "warning: llama.cpp was compiled without cuBLAS/SYCL. Setting a tensor split has no effect.\n");
			
 
				+#ifndef GGML_USE_CUBLAS_SYCL_VULKAN
			
 
				+            fprintf(stderr, "warning: llama.cpp was compiled without cuBLAS/SYCL/Vulkan. Setting a tensor split has no effect.\n");
			
 
				 #endif // GGML_USE_CUBLAS_SYCL
			
 
				         } else if (arg == "--no-mmap") {
			
 
				             params.use_mmap = false;
			
--- a/ggml-vulkan.cpp
+++ b/ggml-vulkan.cpp
--- a/ggml-vulkan.h
+++ b/ggml-vulkan.h
@@ -8,24 +8,29 @@ extern "C" {
 
				 #endif
			
 
				 
			
 
				 #define GGML_VK_NAME "Vulkan"
			
 
				+#define GGML_VK_MAX_DEVICES 16
			
 
				 
			
 
				-GGML_API void ggml_vk_init(void);
			
 
				+GGML_API void ggml_vk_init_cpu_assist(void);
			
 
				 
			
 
				-GGML_API void ggml_vk_preallocate_buffers_graph(struct ggml_tensor * node);
			
 
				-GGML_API void ggml_vk_preallocate_buffers(void);
			
 
				-GGML_API void ggml_vk_build_graph(struct ggml_tensor * node, bool last_node);
			
 
				-GGML_API bool ggml_vk_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor);
			
 
				+GGML_API void ggml_vk_preallocate_buffers_graph_cpu_assist(struct ggml_tensor * node);
			
 
				+GGML_API void ggml_vk_preallocate_buffers_cpu_assist(void);
			
 
				+GGML_API void ggml_vk_build_graph_cpu_assist(struct ggml_tensor * node, bool last_node);
			
 
				+GGML_API bool ggml_vk_compute_forward_cpu_assist(struct ggml_compute_params * params, struct ggml_tensor * tensor);
			
 
				 #ifdef GGML_VULKAN_CHECK_RESULTS
			
 
				-void ggml_vk_check_results_1(struct ggml_compute_params * params, struct ggml_tensor * tensor);
			
 
				+void ggml_vk_check_results_1_cpu_assist(struct ggml_compute_params * params, struct ggml_tensor * tensor);
			
 
				 #endif
			
 
				-GGML_API void ggml_vk_graph_cleanup(void);
			
 
				+GGML_API void ggml_vk_graph_cleanup_cpu_assist(void);
			
 
				+GGML_API void ggml_vk_free_cpu_assist(void);
			
 
				 
			
 
				 // backend API
			
 
				-GGML_API GGML_CALL ggml_backend_t ggml_backend_vk_init(void);
			
 
				+GGML_API GGML_CALL ggml_backend_t ggml_backend_vk_init(size_t dev_num);
			
 
				 
			
 
				 GGML_API GGML_CALL bool ggml_backend_is_vk(ggml_backend_t backend);
			
 
				+GGML_API GGML_CALL int  ggml_backend_vk_get_device_count(void);
			
 
				+GGML_API GGML_CALL void ggml_backend_vk_get_device_description(int device, char * description, size_t description_size);
			
 
				+GGML_API GGML_CALL void ggml_backend_vk_get_device_memory(int device, size_t * free, size_t * total);
			
 
				 
			
 
				-GGML_API GGML_CALL ggml_backend_buffer_type_t ggml_backend_vk_buffer_type(void);
			
 
				+GGML_API GGML_CALL ggml_backend_buffer_type_t ggml_backend_vk_buffer_type(size_t dev_num);
			
 
				 // pinned host buffer for use with the CPU backend for faster copies between CPU and GPU
			
 
				 GGML_API GGML_CALL ggml_backend_buffer_type_t ggml_backend_vk_host_buffer_type(void);
			
 
				 
			
--- a/ggml.c
+++ b/ggml.c
@@ -2343,7 +2343,7 @@ struct ggml_context * ggml_init(struct ggml_init_params params) {
 
				 #elif defined(GGML_USE_CLBLAST)
			
 
				         ggml_cl_init();
			
 
				 #elif defined(GGML_USE_VULKAN)
			
 
				-        ggml_vk_init();
			
 
				+        ggml_vk_init_cpu_assist();
			
 
				 #elif defined(GGML_USE_SYCL)
			
 
				         ggml_init_sycl();
			
 
				 #endif
			
@@ -14850,10 +14850,10 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm
 
				     GGML_ASSERT(tensor->src[0] == NULL || tensor->src[0]->backend == GGML_BACKEND_CPU);
			
 
				     GGML_ASSERT(tensor->src[1] == NULL || tensor->src[1]->backend == GGML_BACKEND_CPU);
			
 
				 #elif defined(GGML_USE_VULKAN)
			
 
				-    const bool skip_cpu = ggml_vk_compute_forward(params, tensor);
			
 
				+    const bool skip_cpu = ggml_vk_compute_forward_cpu_assist(params, tensor);
			
 
				 #ifdef GGML_VULKAN_CHECK_RESULTS
			
 
				     if (skip_cpu) {
			
 
				-        ggml_vk_check_results_1(params, tensor);
			
 
				+        ggml_vk_check_results_1_cpu_assist(params, tensor);
			
 
				     }
			
 
				 #endif
			
 
				     if (skip_cpu) {
			
@@ -17269,12 +17269,12 @@ int ggml_graph_compute(struct ggml_cgraph * cgraph, struct ggml_cplan * cplan) {
 
				 
			
 
				 #ifdef GGML_USE_VULKAN
			
 
				     for (int i = 0; i < cgraph->n_nodes; i++) {
			
 
				-        ggml_vk_preallocate_buffers_graph(cgraph->nodes[i]);
			
 
				+        ggml_vk_preallocate_buffers_graph_cpu_assist(cgraph->nodes[i]);
			
 
				     }
			
 
				-    ggml_vk_preallocate_buffers();
			
 
				+    ggml_vk_preallocate_buffers_cpu_assist();
			
 
				 
			
 
				     for (int i = 0; i < cgraph->n_nodes; i++) {
			
 
				-        ggml_vk_build_graph(cgraph->nodes[i], i == cgraph->n_nodes - 1);
			
 
				+        ggml_vk_build_graph_cpu_assist(cgraph->nodes[i], i == cgraph->n_nodes - 1);
			
 
				     }
			
 
				 #endif
			
 
				 
			
@@ -17330,7 +17330,7 @@ int ggml_graph_compute(struct ggml_cgraph * cgraph, struct ggml_cplan * cplan) {
 
				     }
			
 
				 
			
 
				 #ifdef GGML_USE_VULKAN
			
 
				-    ggml_vk_graph_cleanup();
			
 
				+    ggml_vk_graph_cleanup_cpu_assist();
			
 
				 #endif
			
 
				 
			
 
				     // performance stats (graph)
			
--- a/llama.cpp
+++ b/llama.cpp
@@ -1355,7 +1355,7 @@ static ggml_backend_buffer_type_t llama_default_buffer_type_offload(int gpu) {
 
				 #elif defined(GGML_USE_CUBLAS)
			
 
				     buft = ggml_backend_cuda_buffer_type(gpu);
			
 
				 #elif defined(GGML_USE_VULKAN)
			
 
				-    buft = ggml_backend_vk_buffer_type();
			
 
				+    buft = ggml_backend_vk_buffer_type(gpu);
			
 
				 #elif defined(GGML_USE_SYCL)
			
 
				     buft = ggml_backend_sycl_buffer_type(gpu);
			
 
				 #elif defined(GGML_USE_CLBLAST)
			
@@ -1392,6 +1392,33 @@ static ggml_backend_buffer_type_t llama_default_buffer_type_split(int fallback_g
 
				     GGML_UNUSED(tensor_split);
			
 
				 }
			
 
				 
			
 
				+static size_t llama_get_device_count() {
			
 
				+#if defined(GGML_USE_CUBLAS)
			
 
				+    return ggml_backend_cuda_get_device_count();
			
 
				+#elif defined(GGML_USE_VULKAN)
			
 
				+    return ggml_backend_vk_get_device_count();
			
 
				+#else
			
 
				+    return 1;
			
 
				+#endif
			
 
				+}
			
 
				+
			
 
				+static size_t llama_get_device_memory(int device) {
			
 
				+#if defined(GGML_USE_CUBLAS)
			
 
				+    size_t total;
			
 
				+    size_t free;
			
 
				+    ggml_backend_cuda_get_device_memory(device, &total, &free);
			
 
				+    return free;
			
 
				+#elif defined(GGML_USE_VULKAN)
			
 
				+    size_t total;
			
 
				+    size_t free;
			
 
				+    ggml_backend_vk_get_device_memory(device, &total, &free);
			
 
				+    return free;
			
 
				+#else
			
 
				+    return 1;
			
 
				+    GGML_UNUSED(device);
			
 
				+#endif
			
 
				+}
			
 
				+
			
 
				 //
			
 
				 // globals
			
 
				 //
			
@@ -1763,6 +1790,10 @@ struct llama_context {
 
				             ggml_backend_free(backend);
			
 
				         }
			
 
				 
			
 
				+#ifdef GGML_USE_VULKAN
			
 
				+        ggml_vk_free_cpu_assist();
			
 
				+#endif
			
 
				+
			
 
				         ggml_backend_buffer_free(buf_input);
			
 
				         ggml_free(ctx_input);
			
 
				     }
			
@@ -3436,22 +3467,18 @@ static bool llm_load_tensors(
 
				         model.buft_layer[i] = llama_default_buffer_type_cpu(true);
			
 
				     }
			
 
				 
			
 
				-#ifdef GGML_USE_CUBLAS
			
 
				     if (split_mode == LLAMA_SPLIT_LAYER) {
			
 
				         // calculate the split points
			
 
				-        int device_count = ggml_backend_cuda_get_device_count();
			
 
				+        int device_count = llama_get_device_count();
			
 
				         bool all_zero = tensor_split == nullptr || std::all_of(tensor_split, tensor_split + device_count, [](float x) { return x == 0.0f; });
			
 
				-        float splits[GGML_CUDA_MAX_DEVICES];
			
 
				+        std::vector<float> splits(device_count);
			
 
				         if (all_zero) {
			
 
				             // default split, by free memory
			
 
				             for (int i = 0; i < device_count; ++i) {
			
 
				-                size_t total;
			
 
				-                size_t free;
			
 
				-                ggml_backend_cuda_get_device_memory(i, &total, &free);
			
 
				-                splits[i] = free;
			
 
				+                splits[i] = llama_get_device_memory(i);
			
 
				             }
			
 
				         } else {
			
 
				-            std::copy(tensor_split, tensor_split + device_count, splits);
			
 
				+            std::copy(tensor_split, tensor_split + device_count, splits.begin());
			
 
				         }
			
 
				 
			
 
				         // sum and normalize the splits to get the split points
			
@@ -3467,19 +3494,17 @@ static bool llm_load_tensors(
 
				         // assign the repeating layers to the devices according to the splits
			
 
				         int act_gpu_layers = std::min(n_gpu_layers, (int)n_layer + 1);
			
 
				         for (int64_t i = i_gpu_start; i < n_layer; ++i) {
			
 
				-            int layer_gpu = std::upper_bound(splits, splits + device_count, float(i - i_gpu_start)/act_gpu_layers) - splits;
			
 
				+            int layer_gpu = std::upper_bound(splits.begin(), splits.begin() + device_count, float(i - i_gpu_start)/act_gpu_layers) - splits.begin();
			
 
				             model.buft_layer[i] = llama_default_buffer_type_offload(layer_gpu);
			
 
				         }
			
 
				         // assign the output layer
			
 
				         if (n_gpu_layers > n_layer) {
			
 
				-            int layer_gpu = std::upper_bound(splits, splits + device_count, float(act_gpu_layers - 1)/act_gpu_layers) - splits;
			
 
				+            int layer_gpu = std::upper_bound(splits.begin(), splits.begin() + device_count, float(act_gpu_layers - 1)/act_gpu_layers) - splits.begin();
			
 
				             model.buft_output = llama_default_buffer_type_offload(layer_gpu);
			
 
				         } else {
			
 
				             model.buft_output = llama_default_buffer_type_cpu(true);
			
 
				         }
			
 
				-    } else
			
 
				-#endif
			
 
				-    {
			
 
				+    } else {
			
 
				         ggml_backend_buffer_type_t split_buft;
			
 
				         if (split_mode == LLAMA_SPLIT_ROW) {
			
 
				             split_buft = llama_default_buffer_type_split(main_gpu, tensor_split);
			
@@ -10483,6 +10508,8 @@ size_t llama_max_devices(void) {
 
				     return GGML_CUDA_MAX_DEVICES;
			
 
				 #elif defined(GGML_USE_SYCL)
			
 
				     return GGML_SYCL_MAX_DEVICES;
			
 
				+#elif defined(GGML_USE_VULKAN)
			
 
				+    return GGML_VK_MAX_DEVICES;
			
 
				 #else
			
 
				     return 1;
			
 
				 #endif
			
@@ -10690,13 +10717,15 @@ struct llama_context * llama_new_context_with_model(
 
				         }
			
 
				 #elif defined(GGML_USE_VULKAN)
			
 
				         if (model->n_gpu_layers > 0) {
			
 
				-            ggml_backend_t backend = ggml_backend_vk_init();
			
 
				-            if (backend == nullptr) {
			
 
				-                LLAMA_LOG_ERROR("%s: failed to initialize Vulkan backend\n", __func__);
			
 
				-                llama_free(ctx);
			
 
				-                return nullptr;
			
 
				+            for (int device = 0; device < ggml_backend_vk_get_device_count(); ++device) {
			
 
				+                ggml_backend_t backend = ggml_backend_vk_init(device);
			
 
				+                if (backend == nullptr) {
			
 
				+                    LLAMA_LOG_ERROR("%s: failed to initialize Vulkan%d backend\n", __func__, device);
			
 
				+                    llama_free(ctx);
			
 
				+                    return nullptr;
			
 
				+                }
			
 
				+                ctx->backends.push_back(backend);
			
 
				             }
			
 
				-            ctx->backends.push_back(backend);
			
 
				         }
			
 
				 #elif defined(GGML_USE_SYCL)
			
 
				         if (model->n_gpu_layers > 0) {