il y a 2 ans · 3d9a551816
--- a/llama-util.h
+++ b/llama-util.h
@@ -219,7 +219,7 @@ struct llama_mmap {
 
				         // prefetch/readahead impairs performance on NUMA systems
			
 
				         if (numa) { prefetch = 0; }
			
 
				 #ifdef __linux__
			
 
				-        if (prefetch) { flags |= MAP_POPULATE; }
			
 
				+        if (prefetch >= file->size) { flags |= MAP_POPULATE; }
			
 
				 #endif
			
 
				         addr = mmap(NULL, file->size, PROT_READ, flags, fd, 0);
			
 
				         if (addr == MAP_FAILED) {
			
--- a/llama.cpp
+++ b/llama.cpp
@@ -747,12 +747,12 @@ struct llama_model_loader {
 
				 
			
 
				     void load_all_data(llama_progress_callback progress_callback, void *  progress_callback_user_data, llama_mlock * lmlock) {
			
 
				         size_t data_size = 0;
			
 
				-        size_t prefetch_size = 0;
			
 
				+        size_t prefetch_size = file_loader->file.size;
			
 
				         size_t lock_size = 0;
			
 
				         for (const llama_load_tensor & lt : tensors_map.tensors) {
			
 
				             data_size += lt.size;
			
 
				-            if (lt.ggml_tensor->backend == GGML_BACKEND_CPU) {
			
 
				-                prefetch_size += lt.size;
			
 
				+            if (lt.ggml_tensor->backend != GGML_BACKEND_CPU) {
			
 
				+                prefetch_size -= lt.size;
			
 
				             }
			
 
				         }