há 1 mês atrás · 7733409734
--- a/common/arg.cpp
+++ b/common/arg.cpp
@@ -2674,7 +2674,13 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
 
				     ).set_env("LLAMA_OFFLINE"));
			
 
				     add_opt(common_arg(
			
 
				         {"-lv", "--verbosity", "--log-verbosity"}, "N",
			
 
				-        "Set the verbosity threshold. Messages with a higher verbosity will be ignored.",
			
 
				+        string_format("Set the verbosity threshold. Messages with a higher verbosity will be ignored. Values:\n"
			
 
				+            " - 0: generic output\n"
			
 
				+            " - 1: error\n"
			
 
				+            " - 2: warning\n"
			
 
				+            " - 3: info\n"
			
 
				+            " - 4: debug\n"
			
 
				+            "(default: %d)\n", params.verbosity),
			
 
				         [](common_params & params, int value) {
			
 
				             params.verbosity = value;
			
 
				             common_log_set_verbosity_thold(value);
			
--- a/common/common.h
+++ b/common/common.h
@@ -369,7 +369,7 @@ struct common_params {
 
				 
			
 
				     std::vector<common_control_vector_load_info> control_vectors; // control vector with user defined scale
			
 
				 
			
 
				-    int32_t verbosity                  = 0;
			
 
				+    int32_t verbosity                  = 3;  // LOG_LEVEL_INFO
			
 
				     int32_t control_vector_layer_start = -1; // layer range for control vector
			
 
				     int32_t control_vector_layer_end   = -1; // layer range for control vector
			
 
				     bool    offline                    = false;
			
--- a/common/download.cpp
+++ b/common/download.cpp
@@ -430,7 +430,7 @@ std::pair<long, std::vector<char>> common_remote_get_content(const std::string &
 
				     curl_easy_setopt(curl.get(), CURLOPT_URL, url.c_str());
			
 
				     curl_easy_setopt(curl.get(), CURLOPT_NOPROGRESS, 1L);
			
 
				     curl_easy_setopt(curl.get(), CURLOPT_FOLLOWLOCATION, 1L);
			
 
				-    curl_easy_setopt(curl.get(), CURLOPT_VERBOSE, 1L);
			
 
				+    curl_easy_setopt(curl.get(), CURLOPT_VERBOSE, 0L);
			
 
				     typedef size_t(*CURLOPT_WRITEFUNCTION_PTR)(void * ptr, size_t size, size_t nmemb, void * data);
			
 
				     auto write_callback = [](void * ptr, size_t size, size_t nmemb, void * data) -> size_t {
			
 
				         auto data_vec = static_cast<std::vector<char> *>(data);
			
--- a/common/log.cpp
+++ b/common/log.cpp
@@ -443,8 +443,22 @@ void common_log_set_timestamps(struct common_log * log, bool timestamps) {
 
				     log->set_timestamps(timestamps);
			
 
				 }
			
 
				 
			
 
				+static int common_get_verbosity(enum ggml_log_level level) {
			
 
				+    switch (level) {
			
 
				+        case GGML_LOG_LEVEL_DEBUG: return LOG_LEVEL_DEBUG;
			
 
				+        case GGML_LOG_LEVEL_INFO:  return LOG_LEVEL_INFO;
			
 
				+        case GGML_LOG_LEVEL_WARN:  return LOG_LEVEL_WARN;
			
 
				+        case GGML_LOG_LEVEL_ERROR: return LOG_LEVEL_ERROR;
			
 
				+        case GGML_LOG_LEVEL_CONT:  return LOG_LEVEL_INFO; // same as INFO
			
 
				+        case GGML_LOG_LEVEL_NONE:
			
 
				+        default:
			
 
				+            return LOG_LEVEL_OUTPUT;
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				 void common_log_default_callback(enum ggml_log_level level, const char * text, void * /*user_data*/) {
			
 
				-    if (LOG_DEFAULT_LLAMA <= common_log_verbosity_thold) {
			
 
				+    auto verbosity = common_get_verbosity(level);
			
 
				+    if (verbosity <= common_log_verbosity_thold) {
			
 
				         common_log_add(common_log_main(), level, "%s", text);
			
 
				     }
			
 
				 }
			
--- a/common/log.h
+++ b/common/log.h
@@ -21,8 +21,14 @@
 
				 #    define LOG_ATTRIBUTE_FORMAT(...) __attribute__((format(printf, __VA_ARGS__)))
			
 
				 #endif
			
 
				 
			
 
				-#define LOG_DEFAULT_DEBUG 1
			
 
				-#define LOG_DEFAULT_LLAMA 0
			
 
				+#define LOG_LEVEL_DEBUG  4
			
 
				+#define LOG_LEVEL_INFO   3
			
 
				+#define LOG_LEVEL_WARN   2
			
 
				+#define LOG_LEVEL_ERROR  1
			
 
				+#define LOG_LEVEL_OUTPUT 0 // output data from tools
			
 
				+
			
 
				+#define LOG_DEFAULT_DEBUG LOG_LEVEL_DEBUG
			
 
				+#define LOG_DEFAULT_LLAMA LOG_LEVEL_INFO
			
 
				 
			
 
				 enum log_colors {
			
 
				     LOG_COLORS_AUTO     = -1,
			
@@ -67,10 +73,11 @@ void common_log_add(struct common_log * log, enum ggml_log_level level, const ch
 
				 //   0.00.090.578 I llm_load_tensors: offloading 32 repeating layers to GPU
			
 
				 //   0.00.090.579 I llm_load_tensors: offloading non-repeating layers to GPU
			
 
				 //
			
 
				-// I - info    (stdout, V = 0)
			
 
				-// W - warning (stderr, V = 0)
			
 
				-// E - error   (stderr, V = 0)
			
 
				 // D - debug   (stderr, V = LOG_DEFAULT_DEBUG)
			
 
				+// I - info    (stdout, V = LOG_DEFAULT_INFO)
			
 
				+// W - warning (stderr, V = LOG_DEFAULT_WARN)
			
 
				+// E - error   (stderr, V = LOG_DEFAULT_ERROR)
			
 
				+// O - output  (stdout, V = LOG_DEFAULT_OUTPUT)
			
 
				 //
			
 
				 
			
 
				 void common_log_set_file      (struct common_log * log, const char * file); // not thread-safe
			
@@ -95,14 +102,14 @@ void common_log_set_timestamps(struct common_log * log, bool timestamps);   // w
 
				         } \
			
 
				     } while (0)
			
 
				 
			
 
				-#define LOG(...)             LOG_TMPL(GGML_LOG_LEVEL_NONE, 0,         __VA_ARGS__)
			
 
				-#define LOGV(verbosity, ...) LOG_TMPL(GGML_LOG_LEVEL_NONE, verbosity, __VA_ARGS__)
			
 
				+#define LOG(...)             LOG_TMPL(GGML_LOG_LEVEL_NONE, LOG_LEVEL_OUTPUT, __VA_ARGS__)
			
 
				+#define LOGV(verbosity, ...) LOG_TMPL(GGML_LOG_LEVEL_NONE, verbosity,        __VA_ARGS__)
			
 
				 
			
 
				-#define LOG_INF(...) LOG_TMPL(GGML_LOG_LEVEL_INFO,  0,                 __VA_ARGS__)
			
 
				-#define LOG_WRN(...) LOG_TMPL(GGML_LOG_LEVEL_WARN,  0,                 __VA_ARGS__)
			
 
				-#define LOG_ERR(...) LOG_TMPL(GGML_LOG_LEVEL_ERROR, 0,                 __VA_ARGS__)
			
 
				-#define LOG_DBG(...) LOG_TMPL(GGML_LOG_LEVEL_DEBUG, LOG_DEFAULT_DEBUG, __VA_ARGS__)
			
 
				-#define LOG_CNT(...) LOG_TMPL(GGML_LOG_LEVEL_CONT,  0,                 __VA_ARGS__)
			
 
				+#define LOG_DBG(...) LOG_TMPL(GGML_LOG_LEVEL_DEBUG, LOG_LEVEL_DEBUG,  __VA_ARGS__)
			
 
				+#define LOG_INF(...) LOG_TMPL(GGML_LOG_LEVEL_INFO,  LOG_LEVEL_INFO,   __VA_ARGS__)
			
 
				+#define LOG_WRN(...) LOG_TMPL(GGML_LOG_LEVEL_WARN,  LOG_LEVEL_WARN,   __VA_ARGS__)
			
 
				+#define LOG_ERR(...) LOG_TMPL(GGML_LOG_LEVEL_ERROR, LOG_LEVEL_ERROR,  __VA_ARGS__)
			
 
				+#define LOG_CNT(...) LOG_TMPL(GGML_LOG_LEVEL_CONT,  LOG_LEVEL_INFO,   __VA_ARGS__) // same as INFO
			
 
				 
			
 
				 #define LOG_INFV(verbosity, ...) LOG_TMPL(GGML_LOG_LEVEL_INFO,  verbosity, __VA_ARGS__)
			
 
				 #define LOG_WRNV(verbosity, ...) LOG_TMPL(GGML_LOG_LEVEL_WARN,  verbosity, __VA_ARGS__)
			
--- a/tools/server/README.md
+++ b/tools/server/README.md
@@ -52,7 +52,7 @@ The project is under active development, and we are [looking for feedback and co
 
				 | `-ub, --ubatch-size N` | physical maximum batch size (default: 512)<br/>(env: LLAMA_ARG_UBATCH) |
			
 
				 | `--keep N` | number of tokens to keep from the initial prompt (default: 0, -1 = all) |
			
 
				 | `--swa-full` | use full-size SWA cache (default: false)<br/>[(more info)](https://github.com/ggml-org/llama.cpp/pull/13194#issuecomment-2868343055)<br/>(env: LLAMA_ARG_SWA_FULL) |
			
 
				-| `--kv-unified, -kvu` | use single unified KV buffer for the KV cache of all sequences (default: false)<br/>[(more info)](https://github.com/ggml-org/llama.cpp/pull/14363)<br/>(env: LLAMA_ARG_KV_SPLIT) |
			
 
				+| `--kv-unified, -kvu` | use single unified KV buffer for the KV cache of all sequences (default: false)<br/>[(more info)](https://github.com/ggml-org/llama.cpp/pull/14363)<br/>(env: LLAMA_ARG_KV_UNIFIED) |
			
 
				 | `-fa, --flash-attn [on\|off\|auto]` | set Flash Attention use ('on', 'off', or 'auto', default: 'auto')<br/>(env: LLAMA_ARG_FLASH_ATTN) |
			
 
				 | `--no-perf` | disable internal libllama performance timings (default: false)<br/>(env: LLAMA_ARG_NO_PERF) |
			
 
				 | `-e, --escape` | process escapes sequences (\n, \r, \t, \', \", \\) (default: true) |
			
@@ -103,11 +103,11 @@ The project is under active development, and we are [looking for feedback and co
 
				 | `-hffv, --hf-file-v FILE` | Hugging Face model file for the vocoder model (default: unused)<br/>(env: LLAMA_ARG_HF_FILE_V) |
			
 
				 | `-hft, --hf-token TOKEN` | Hugging Face access token (default: value from HF_TOKEN environment variable)<br/>(env: HF_TOKEN) |
			
 
				 | `--log-disable` | Log disable |
			
 
				-| `--log-file FNAME` | Log to file |
			
 
				+| `--log-file FNAME` | Log to file<br/>(env: LLAMA_LOG_FILE) |
			
 
				 | `--log-colors [on\|off\|auto]` | Set colored logging ('on', 'off', or 'auto', default: 'auto')<br/>'auto' enables colors when output is to a terminal<br/>(env: LLAMA_LOG_COLORS) |
			
 
				 | `-v, --verbose, --log-verbose` | Set verbosity level to infinity (i.e. log all messages, useful for debugging) |
			
 
				 | `--offline` | Offline mode: forces use of cache, prevents network access<br/>(env: LLAMA_OFFLINE) |
			
 
				-| `-lv, --verbosity, --log-verbosity N` | Set the verbosity threshold. Messages with a higher verbosity will be ignored.<br/>(env: LLAMA_LOG_VERBOSITY) |
			
 
				+| `-lv, --verbosity, --log-verbosity N` | Set the verbosity threshold. Messages with a higher verbosity will be ignored. Values:<br/> - 0: generic output<br/> - 1: error<br/> - 2: warning<br/> - 3: info<br/> - 4: debug<br/>(default: 3)<br/><br/>(env: LLAMA_LOG_VERBOSITY) |
			
 
				 | `--log-prefix` | Enable prefix in log messages<br/>(env: LLAMA_LOG_PREFIX) |
			
 
				 | `--log-timestamps` | Enable timestamps in log messages<br/>(env: LLAMA_LOG_TIMESTAMPS) |
			
 
				 | `-ctkd, --cache-type-k-draft TYPE` | KV cache data type for K for the draft model<br/>allowed values: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1<br/>(default: f16)<br/>(env: LLAMA_ARG_CACHE_TYPE_K_DRAFT) |