1 سال پیش · 667d72846c
--- a/common/arg.cpp
+++ b/common/arg.cpp
@@ -376,6 +376,30 @@ static std::vector<ggml_backend_dev_t> parse_device_list(const std::string & val
 
				     return devices;
			
 
				 }
			
 
				 
			
 
				+static void add_rpc_devices(std::string servers) {
			
 
				+    auto rpc_servers = string_split<std::string>(servers, ',');
			
 
				+    if (rpc_servers.empty()) {
			
 
				+        throw std::invalid_argument("no RPC servers specified");
			
 
				+    }
			
 
				+    ggml_backend_reg_t rpc_reg = ggml_backend_reg_by_name("RPC");
			
 
				+    if (!rpc_reg) {
			
 
				+        throw std::invalid_argument("failed to find RPC backend");
			
 
				+    }
			
 
				+    typedef ggml_backend_dev_t (*ggml_backend_rpc_add_device_t)(const char * endpoint);
			
 
				+    ggml_backend_rpc_add_device_t ggml_backend_rpc_add_device_fn = (ggml_backend_rpc_add_device_t) ggml_backend_reg_get_proc_address(rpc_reg, "ggml_backend_rpc_add_device");
			
 
				+    if (!ggml_backend_rpc_add_device_fn) {
			
 
				+        throw std::invalid_argument("failed to find RPC device add function");
			
 
				+    }
			
 
				+    for (const auto & server : rpc_servers) {
			
 
				+        ggml_backend_dev_t dev = ggml_backend_rpc_add_device_fn(server.c_str());
			
 
				+        if (dev) {
			
 
				+            ggml_backend_device_register(dev);
			
 
				+        } else {
			
 
				+            throw std::invalid_argument("failed to register RPC device");
			
 
				+        }
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				 bool common_params_parse(int argc, char ** argv, common_params & params, llama_example ex, void(*print_usage)(int, char **)) {
			
 
				     auto ctx_arg = common_params_parser_init(params, ex, print_usage);
			
 
				     const common_params params_org = ctx_arg.params; // the example can modify the default params
			
@@ -1385,7 +1409,8 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
 
				             {"--rpc"}, "SERVERS",
			
 
				             "comma separated list of RPC servers",
			
 
				             [](common_params & params, const std::string & value) {
			
 
				-                params.rpc_servers = value;
			
 
				+                add_rpc_devices(value);
			
 
				+                GGML_UNUSED(params);
			
 
				             }
			
 
				         ).set_env("LLAMA_ARG_RPC"));
			
 
				     }
			
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -1043,7 +1043,6 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
 
				     if (params.n_gpu_layers != -1) {
			
 
				         mparams.n_gpu_layers = params.n_gpu_layers;
			
 
				     }
			
 
				-    mparams.rpc_servers     = params.rpc_servers.c_str();
			
 
				     mparams.main_gpu        = params.main_gpu;
			
 
				     mparams.split_mode      = params.split_mode;
			
 
				     mparams.tensor_split    = params.tensor_split;
			
--- a/common/common.h
+++ b/common/common.h
@@ -246,7 +246,6 @@ struct common_params {
 
				     std::string lookup_cache_static  = ""; // path of static ngram cache file for lookup decoding           // NOLINT
			
 
				     std::string lookup_cache_dynamic = ""; // path of dynamic ngram cache file for lookup decoding          // NOLINT
			
 
				     std::string logits_file          = ""; // file for saving *all* logits                                  // NOLINT
			
 
				-    std::string rpc_servers          = ""; // comma separated list of RPC servers                           // NOLINT
			
 
				 
			
 
				     std::vector<std::string> in_files;   // all input files
			
 
				     std::vector<std::string> antiprompt; // strings upon which more user input is prompted (a.k.a. reverse prompts)
			
--- a/examples/llama-bench/llama-bench.cpp
+++ b/examples/llama-bench/llama-bench.cpp
@@ -683,7 +683,7 @@ struct cmd_params_instance {
 
				     bool               cpu_strict;
			
 
				     int                poll;
			
 
				     int                n_gpu_layers;
			
 
				-    std::string        rpc_servers;
			
 
				+    std::string        rpc_servers_str;
			
 
				     llama_split_mode   split_mode;
			
 
				     int                main_gpu;
			
 
				     bool               no_kv_offload;
			
@@ -696,8 +696,37 @@ struct cmd_params_instance {
 
				         llama_model_params mparams = llama_model_default_params();
			
 
				 
			
 
				         mparams.n_gpu_layers = n_gpu_layers;
			
 
				-        if (!rpc_servers.empty()) {
			
 
				-            mparams.rpc_servers = rpc_servers.c_str();
			
 
				+        if (!rpc_servers_str.empty()) {
			
 
				+            auto rpc_servers = string_split<std::string>(rpc_servers_str, ',');
			
 
				+
			
 
				+            // add RPC devices
			
 
				+            if (!rpc_servers.empty()) {
			
 
				+                ggml_backend_reg_t rpc_reg = ggml_backend_reg_by_name("RPC");
			
 
				+                if (!rpc_reg) {
			
 
				+                    fprintf(stderr, "%s: failed to find RPC backend\n", __func__);
			
 
				+                    exit(1);
			
 
				+                }
			
 
				+
			
 
				+                typedef ggml_backend_dev_t (*ggml_backend_rpc_add_device_t)(const char * endpoint);
			
 
				+                ggml_backend_rpc_add_device_t ggml_backend_rpc_add_device_fn = (ggml_backend_rpc_add_device_t) ggml_backend_reg_get_proc_address(rpc_reg, "ggml_backend_rpc_add_device");
			
 
				+                if (!ggml_backend_rpc_add_device_fn) {
			
 
				+                    fprintf(stderr, "%s: failed to find RPC device add function\n", __func__);
			
 
				+                    exit(1);
			
 
				+                }
			
 
				+                static std::vector<ggml_backend_dev_t> devices;
			
 
				+                devices.clear();
			
 
				+                for (const std::string & server : rpc_servers) {
			
 
				+                    ggml_backend_dev_t dev = ggml_backend_rpc_add_device_fn(server.c_str());
			
 
				+                    if (dev) {
			
 
				+                        devices.push_back(dev);
			
 
				+                    } else {
			
 
				+                        fprintf(stderr, "%s: failed to add RPC device for server '%s'\n", __func__, server.c_str());
			
 
				+                        exit(1);
			
 
				+                    }
			
 
				+                }
			
 
				+                devices.push_back(nullptr);
			
 
				+                mparams.devices = devices.data();
			
 
				+            }
			
 
				         }
			
 
				         mparams.split_mode   = split_mode;
			
 
				         mparams.main_gpu     = main_gpu;
			
@@ -708,7 +737,7 @@ struct cmd_params_instance {
 
				     }
			
 
				 
			
 
				     bool equal_mparams(const cmd_params_instance & other) const {
			
 
				-        return model == other.model && n_gpu_layers == other.n_gpu_layers && rpc_servers == other.rpc_servers &&
			
 
				+        return model == other.model && n_gpu_layers == other.n_gpu_layers && rpc_servers_str == other.rpc_servers_str &&
			
 
				                split_mode == other.split_mode && main_gpu == other.main_gpu && use_mmap == other.use_mmap &&
			
 
				                tensor_split == other.tensor_split;
			
 
				     }
			
--- a/ggml/include/ggml-backend.h
+++ b/ggml/include/ggml-backend.h
@@ -203,6 +203,8 @@ extern "C" {
 
				     // Backend registry
			
 
				     //
			
 
				 
			
 
				+    GGML_API void ggml_backend_device_register(ggml_backend_dev_t device);
			
 
				+
			
 
				     // Backend (reg) enumeration
			
 
				     GGML_API size_t             ggml_backend_reg_count(void);
			
 
				     GGML_API ggml_backend_reg_t ggml_backend_reg_get(size_t index);
			
--- a/ggml/src/ggml-backend-impl.h
+++ b/ggml/src/ggml-backend-impl.h
@@ -208,7 +208,6 @@ extern "C" {
 
				 
			
 
				     // Internal backend registry API
			
 
				     GGML_API void ggml_backend_register(ggml_backend_reg_t reg);
			
 
				-    GGML_API void ggml_backend_device_register(ggml_backend_dev_t device);
			
 
				 
			
 
				     // Add backend dynamic loading support to the backend
			
 
				 
			
--- a/include/llama.h
+++ b/include/llama.h
@@ -288,9 +288,6 @@ extern "C" {
 
				         // proportion of the model (layers or rows) to offload to each GPU, size: llama_max_devices()
			
 
				         const float * tensor_split;
			
 
				 
			
 
				-        // comma separated list of RPC servers to use for offloading
			
 
				-        const char * rpc_servers;
			
 
				-
			
 
				         // Called with a progress value between 0.0 and 1.0. Pass NULL to disable.
			
 
				         // If the provided progress_callback returns true, model loading continues.
			
 
				         // If it returns false, model loading is immediately aborted.
			
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -3717,7 +3717,6 @@ struct llama_model_params llama_model_default_params() {
 
				         /*.split_mode                  =*/ LLAMA_SPLIT_MODE_LAYER,
			
 
				         /*.main_gpu                    =*/ 0,
			
 
				         /*.tensor_split                =*/ nullptr,
			
 
				-        /*.rpc_servers                 =*/ nullptr,
			
 
				         /*.progress_callback           =*/ nullptr,
			
 
				         /*.progress_callback_user_data =*/ nullptr,
			
 
				         /*.kv_overrides                =*/ nullptr,
			
--- a/src/llama-model.h
+++ b/src/llama-model.h
@@ -323,8 +323,6 @@ struct llama_model {
 
				     // gguf metadata
			
 
				     std::unordered_map<std::string, std::string> gguf_kv;
			
 
				 
			
 
				-    std::vector<std::string> rpc_servers;
			
 
				-
			
 
				     // list of devices used in this model
			
 
				     std::vector<ggml_backend_dev_t> devices;
			
 
				 
			
--- a/src/llama.cpp
+++ b/src/llama.cpp
@@ -9399,47 +9399,6 @@ static struct llama_model * llama_model_load_from_file_impl(
 
				         };
			
 
				     }
			
 
				 
			
 
				-    if (params.rpc_servers != nullptr && params.rpc_servers[0] != '\0') {
			
 
				-        // split the servers set them into model->rpc_servers
			
 
				-        std::string servers(params.rpc_servers);
			
 
				-        size_t pos = 0;
			
 
				-        while ((pos = servers.find(',')) != std::string::npos) {
			
 
				-            std::string server = servers.substr(0, pos);
			
 
				-            model->rpc_servers.push_back(server);
			
 
				-            servers.erase(0, pos + 1);
			
 
				-        }
			
 
				-        model->rpc_servers.push_back(servers);
			
 
				-    }
			
 
				-
			
 
				-    // add RPC devices
			
 
				-    if (!model->rpc_servers.empty()) {
			
 
				-        ggml_backend_reg_t rpc_reg = ggml_backend_reg_by_name("RPC");
			
 
				-        if (!rpc_reg) {
			
 
				-            LLAMA_LOG_ERROR("%s: failed to find RPC backend\n", __func__);
			
 
				-            llama_model_free(model);
			
 
				-            return nullptr;
			
 
				-        }
			
 
				-
			
 
				-        typedef ggml_backend_dev_t (*ggml_backend_rpc_add_device_t)(const char * endpoint);
			
 
				-        ggml_backend_rpc_add_device_t ggml_backend_rpc_add_device_fn = (ggml_backend_rpc_add_device_t) ggml_backend_reg_get_proc_address(rpc_reg, "ggml_backend_rpc_add_device");
			
 
				-        if (!ggml_backend_rpc_add_device_fn) {
			
 
				-            LLAMA_LOG_ERROR("%s: failed to find RPC device add function\n", __func__);
			
 
				-            llama_model_free(model);
			
 
				-            return nullptr;
			
 
				-        }
			
 
				-
			
 
				-        for (const std::string & server : model->rpc_servers) {
			
 
				-            ggml_backend_dev_t dev = ggml_backend_rpc_add_device_fn(server.c_str());
			
 
				-            if (dev) {
			
 
				-                model->devices.push_back(dev);
			
 
				-            } else {
			
 
				-                LLAMA_LOG_ERROR("%s: failed to add RPC device for server '%s'\n", __func__, server.c_str());
			
 
				-                llama_model_free(model);
			
 
				-                return nullptr;
			
 
				-            }
			
 
				-        }
			
 
				-    }
			
 
				-
			
 
				     // create list of devices to use with this model
			
 
				     if (params.devices) {
			
 
				         for (ggml_backend_dev_t * dev = params.devices; *dev; ++dev) {