8 ay önce · 27ebfcacba
--- a/src/llama-adapter.cpp
+++ b/src/llama-adapter.cpp
@@ -253,6 +253,9 @@ static void llama_adapter_lora_init_impl(llama_model & model, const char * path_
 
				     std::vector<ggml_backend_buffer_type_t> buft_extra;
			
 
				     {
			
 
				         auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+        if (!cpu_dev) {
			
 
				+            throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+        }
			
 
				         auto * cpu_reg = ggml_backend_dev_backend_reg(cpu_dev);
			
 
				 
			
 
				         auto ggml_backend_dev_get_extra_bufts_fn = (ggml_backend_dev_get_extra_bufts_t)
			
@@ -291,6 +294,9 @@ static void llama_adapter_lora_init_impl(llama_model & model, const char * path_
 
				                 LLAMA_LOG_WARN("%s: lora for '%s' cannot use buft '%s', fallback to CPU\n", __func__, model_tensor->name, ggml_backend_buft_name(buft));
			
 
				 
			
 
				                 auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+                if (!cpu_dev) {
			
 
				+                    throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+                }
			
 
				                 buft = ggml_backend_dev_buffer_type(cpu_dev);
			
 
				 
			
 
				                 break;
			
--- a/src/llama-model-loader.cpp
+++ b/src/llama-model-loader.cpp
@@ -823,6 +823,10 @@ void llama_model_loader::init_mappings(bool prefetch, llama_mlocks * mlock_mmaps
 
				         mmaps_used.reserve(files.size());
			
 
				         for (const auto & file : files) {
			
 
				             auto * reg = ggml_backend_dev_backend_reg(ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU));
			
 
				+            if (!reg) {
			
 
				+                throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+            }
			
 
				+
			
 
				             auto * is_numa_fn = (decltype(ggml_is_numa) *) ggml_backend_reg_get_proc_address(reg, "ggml_backend_cpu_is_numa");
			
 
				             std::unique_ptr<llama_mmap> mapping = std::make_unique<llama_mmap>(file.get(), prefetch ? -1 : 0, is_numa_fn());
			
 
				             mmaps_used.emplace_back(mapping->size(), 0);
			
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -299,6 +299,10 @@ static buft_list_t make_cpu_buft_list(const std::vector<ggml_backend_dev_t> & de
 
				     // add extra buffer types, only if no GPU device is present
			
 
				     // ref: https://github.com/ggml-org/llama.cpp/issues/12481#issuecomment-2743136094
			
 
				     auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+    if (cpu_dev == nullptr) {
			
 
				+        throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+    }
			
 
				+
			
 
				     auto * cpu_reg = ggml_backend_dev_backend_reg(cpu_dev);
			
 
				     auto ggml_backend_dev_get_extra_bufts_fn = (ggml_backend_dev_get_extra_bufts_t)
			
 
				         ggml_backend_reg_get_proc_address(cpu_reg, "ggml_backend_dev_get_extra_bufts");
			
@@ -1484,6 +1488,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
 
				     }
			
 
				 
			
 
				     ggml_backend_dev_t cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+    if (cpu_dev == nullptr) {
			
 
				+        throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+    }
			
 
				     const int i_gpu_start = std::max((int) hparams.n_layer - n_gpu_layers, (int) 0);
			
 
				     const int act_gpu_layers = devices.empty() ? 0 : std::min(n_gpu_layers, (int)n_layer + 1);
			
 
				     auto get_layer_buft_list = [&](int il) -> llama_model::impl::layer_dev {
			
@@ -1672,6 +1679,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
 
				             auto * buft_dev = ggml_backend_buft_get_device(buft);
			
 
				             if (ml.use_mmap && buft_dev && buft == ggml_backend_dev_host_buffer_type(buft_dev)) {
			
 
				                 auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+                if (!cpu_dev) {
			
 
				+                    throw std::runtime_error("no CPU backend found");
			
 
				+                }
			
 
				                 buft = ggml_backend_dev_buffer_type(cpu_dev);
			
 
				             }
			
 
				 
			
@@ -4122,6 +4132,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
 
				         if (!dev) {
			
 
				             // FIXME: workaround for CPU backend buft having a NULL device
			
 
				             dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+            if (!dev) {
			
 
				+                throw std::runtime_error(format("%s: no CPU backend found", __func__));
			
 
				+            }
			
 
				         }
			
 
				         ggml_backend_dev_props props;
			
 
				         ggml_backend_dev_get_props(dev, &props);
			
--- a/tools/main/main.cpp
+++ b/tools/main/main.cpp
@@ -152,7 +152,12 @@ int main(int argc, char ** argv) {
 
				 
			
 
				     LOG_INF("%s: llama threadpool init, n_threads = %d\n", __func__, (int) params.cpuparams.n_threads);
			
 
				 
			
 
				-    auto * reg = ggml_backend_dev_backend_reg(ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU));
			
 
				+    auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
			
 
				+    if (!cpu_dev) {
			
 
				+        LOG_ERR("%s: no CPU backend found\n", __func__);
			
 
				+        return 1;
			
 
				+    }
			
 
				+    auto * reg = ggml_backend_dev_backend_reg(cpu_dev);
			
 
				     auto * ggml_threadpool_new_fn = (decltype(ggml_threadpool_new) *) ggml_backend_reg_get_proc_address(reg, "ggml_threadpool_new");
			
 
				     auto * ggml_threadpool_free_fn = (decltype(ggml_threadpool_free) *) ggml_backend_reg_get_proc_address(reg, "ggml_threadpool_free");
			
 
				 
			
--- a/tools/mtmd/clip.cpp
+++ b/tools/mtmd/clip.cpp
@@ -352,9 +352,12 @@ struct clip_ctx {
 
				 
			
 
				     clip_ctx(clip_context_params & ctx_params) {
			
 
				         backend_cpu = ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr);
			
 
				-        backend     = ctx_params.use_gpu
			
 
				-                        ? ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_GPU, nullptr)
			
 
				-                        : nullptr;
			
 
				+        if (!backend_cpu) {
			
 
				+            throw std::runtime_error("failed to initialize CPU backend");
			
 
				+        }
			
 
				+        backend = ctx_params.use_gpu
			
 
				+                    ? ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_GPU, nullptr)
			
 
				+                    : nullptr;
			
 
				 
			
 
				         if (backend) {
			
 
				             LOG_INF("%s: CLIP using %s backend\n", __func__, ggml_backend_name(backend));
			
@@ -2185,9 +2188,10 @@ struct clip_ctx * clip_model_load(const char * fname, const int verbosity) {
 
				 
			
 
				 struct clip_ctx * clip_init(const char * fname, struct clip_context_params ctx_params) {
			
 
				     g_logger_state.verbosity_thold = ctx_params.verbosity;
			
 
				-    clip_ctx * ctx_clip = new clip_ctx(ctx_params);
			
 
				+    clip_ctx * ctx_clip = nullptr;
			
 
				 
			
 
				     try {
			
 
				+        ctx_clip = new clip_ctx(ctx_params);
			
 
				         clip_model_loader loader(fname, *ctx_clip);
			
 
				         loader.load_hparams();
			
 
				         loader.load_tensors();
			
--- a/tools/mtmd/llava.cpp
+++ b/tools/mtmd/llava.cpp
@@ -212,6 +212,7 @@ static bool clip_llava_handle_patches(clip_ctx * ctx_clip, std::vector<float *>
 
				     ggml_build_forward_expand(gf, flatten);
			
 
				 
			
 
				     ggml_backend_ptr backend { ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr) };
			
 
				+    GGML_ASSERT(backend != nullptr && "failed to initialize CPU backend");
			
 
				     ggml_backend_graph_compute(backend.get(), gf);
			
 
				 
			
 
				     struct ggml_tensor* result = ggml_graph_node(gf, -1);
			
--- a/tools/rpc/rpc-server.cpp
+++ b/tools/rpc/rpc-server.cpp
@@ -237,15 +237,17 @@ static ggml_backend_t create_backend(const rpc_server_params & params) {
 
				         backend = ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr);
			
 
				     }
			
 
				 
			
 
				-    fprintf(stderr, "%s: using %s backend\n", __func__, ggml_backend_name(backend));
			
 
				-
			
 
				-    // set the number of threads
			
 
				-    ggml_backend_dev_t dev = ggml_backend_get_device(backend);
			
 
				-    ggml_backend_reg_t reg = dev ? ggml_backend_dev_backend_reg(dev) : nullptr;
			
 
				-    if (reg) {
			
 
				-        auto ggml_backend_set_n_threads_fn = (ggml_backend_set_n_threads_t) ggml_backend_reg_get_proc_address(reg, "ggml_backend_set_n_threads");
			
 
				-        if (ggml_backend_set_n_threads_fn) {
			
 
				-            ggml_backend_set_n_threads_fn(backend, params.n_threads);
			
 
				+    if (backend) {
			
 
				+        fprintf(stderr, "%s: using %s backend\n", __func__, ggml_backend_name(backend));
			
 
				+
			
 
				+        // set the number of threads
			
 
				+        ggml_backend_dev_t dev = ggml_backend_get_device(backend);
			
 
				+        ggml_backend_reg_t reg = dev ? ggml_backend_dev_backend_reg(dev) : nullptr;
			
 
				+        if (reg) {
			
 
				+            auto ggml_backend_set_n_threads_fn = (ggml_backend_set_n_threads_t) ggml_backend_reg_get_proc_address(reg, "ggml_backend_set_n_threads");
			
 
				+            if (ggml_backend_set_n_threads_fn) {
			
 
				+                ggml_backend_set_n_threads_fn(backend, params.n_threads);
			
 
				+            }
			
 
				         }
			
 
				     }