3 luni în urmă · aa3ee0eb0b
--- a/examples/model-conversion/Makefile
+++ b/examples/model-conversion/Makefile
@@ -118,13 +118,17 @@ embedding-convert-model:
 
				 
			
 
				 embedding-run-original-model:
			
 
				 	$(call validate_embedding_model_path,embedding-run-original-model)
			
 
				-	@EMBEDDING_MODEL_PATH="$(EMBEDDING_MODEL_PATH)" ./scripts/embedding/run-original-model.py
			
 
				+	@EMBEDDING_MODEL_PATH="$(EMBEDDING_MODEL_PATH)" \
			
 
				+	./scripts/embedding/run-original-model.py \
			
 
				+	$(if $(PROMPTS_FILE),--prompts-file "$(PROMPTS_FILE)")
			
 
				 
			
 
				 embedding-run-converted-model:
			
 
				-	@CONVERTED_EMBEDDING_MODEL="$(CONVERTED_EMBEDDING_MODEL)" ./scripts/embedding/run-converted-model.sh ${CONVERTED_EMBEDDING_MODEL}
			
 
				+	@./scripts/embedding/run-converted-model.sh $(CONVERTED_EMBEDDING_MODEL) \
			
 
				+	$(if $(PROMPTS_FILE),--prompts-file "$(PROMPTS_FILE)")
			
 
				 
			
 
				 embedding-verify-logits: embedding-run-original-model embedding-run-converted-model
			
 
				-	@./scripts/embedding/compare-embeddings-logits.sh
			
 
				+	@./scripts/embedding/compare-embeddings-logits.sh \
			
 
				+	$(if $(PROMPTS_FILE),--prompts-file "$(PROMPTS_FILE)")
			
 
				 
			
 
				 embedding-inspect-original-model:
			
 
				 	$(call validate_embedding_model_path,embedding-inspect-original-model)
			
@@ -156,7 +160,8 @@ embedding-quantize-model:
 
				 	$(call quantize_model,$(CONVERTED_EMBEDDING_MODEL),QUANTIZED_EMBEDDING_MODEL)
			
 
				 
			
 
				 embedding-run-quantized-model:
			
 
				-	@./scripts/embedding/run-converted-model.sh ${QUANTIZED_EMBEDDING_MODEL}
			
 
				+	@./scripts/embedding/run-converted-model.sh $(QUANTIZED_EMBEDDING_MODEL) \
			
 
				+	$(if $(PROMPTS_FILE),--prompts-file "$(PROMPTS_FILE)")
			
 
				 
			
 
				 ###
			
 
				 ### Perplexity targets/recipes
			
--- a/examples/model-conversion/logits.cpp
+++ b/examples/model-conversion/logits.cpp
@@ -151,6 +151,35 @@ int main(int argc, char ** argv) {
 
				         logits = llama_get_embeddings(ctx);
			
 
				         n_logits = llama_model_n_embd(model) * batch.n_tokens;
			
 
				         type = "-embeddings";
			
 
				+
			
 
				+        const int n_embd = llama_model_n_embd(model);
			
 
				+        const int n_embd_count = batch.n_tokens;
			
 
				+
			
 
				+        printf("Embedding dimension: %d\n", n_embd);
			
 
				+        printf("\n");
			
 
				+
			
 
				+        // Print embeddings in the specified format
			
 
				+        for (int j = 0; j < n_embd_count; j++) {
			
 
				+            printf("embedding %d: ", j);
			
 
				+
			
 
				+            // Print first 3 values
			
 
				+            for (int i = 0; i < 3 && i < n_embd; i++) {
			
 
				+                printf("%9.6f ", logits[j * n_embd + i]);
			
 
				+            }
			
 
				+
			
 
				+            printf(" ... ");
			
 
				+
			
 
				+            // Print last 3 values
			
 
				+            for (int i = n_embd - 3; i < n_embd; i++) {
			
 
				+                if (i >= 0) {
			
 
				+                    printf("%9.6f ", logits[j * n_embd + i]);
			
 
				+                }
			
 
				+            }
			
 
				+
			
 
				+            printf("\n");
			
 
				+        }
			
 
				+        printf("\n");
			
 
				+
			
 
				         printf("Embeddings size: %d\n", n_logits);
			
 
				     } else {
			
 
				         logits = llama_get_logits_ith(ctx, batch.n_tokens - 1);
			
@@ -183,22 +212,23 @@ int main(int argc, char ** argv) {
 
				         return 1;
			
 
				     }
			
 
				     for (int i = 0; i < n_logits; i++) {
			
 
				-        fprintf(f, "%d: %.6f\n", i, logits[i]);  // Added index and changed format
			
 
				+        fprintf(f, "%d: %.6f\n", i, logits[i]);
			
 
				     }
			
 
				     fclose(f);
			
 
				 
			
 
				-    // Print first and last 10 logits for quick verification
			
 
				-    printf("First 10 logits: ");
			
 
				-    for (int i = 0; i < 10 && i < n_logits; i++) {
			
 
				-        printf("%.6f ", logits[i]);
			
 
				-    }
			
 
				-    printf("\n");
			
 
				+    if (!embedding_mode) {
			
 
				+        printf("First 10 logits: ");
			
 
				+        for (int i = 0; i < 10 && i < n_logits; i++) {
			
 
				+            printf("%.6f ", logits[i]);
			
 
				+        }
			
 
				+        printf("\n");
			
 
				 
			
 
				-    printf("Last 10 logits: ");
			
 
				-    for (int i = n_logits - 10; i < n_logits; i++) {
			
 
				-        if (i >= 0) printf("%.6f ", logits[i]);
			
 
				+        printf("Last 10 logits: ");
			
 
				+        for (int i = n_logits - 10; i < n_logits; i++) {
			
 
				+            if (i >= 0) printf("%.6f ", logits[i]);
			
 
				+        }
			
 
				+        printf("\n\n");
			
 
				     }
			
 
				-    printf("\n\n");
			
 
				 
			
 
				     printf("Logits saved to %s\n", bin_filename);
			
 
				     printf("Logits saved to %s\n", txt_filename);
			
--- a/examples/model-conversion/scripts/embedding/compare-embeddings-logits.sh
+++ b/examples/model-conversion/scripts/embedding/compare-embeddings-logits.sh
@@ -2,8 +2,37 @@
 
				 
			
 
				 set -e
			
 
				 
			
 
				-MODEL_PATH="${1:-"$EMBEDDING_MODEL_PATH"}"
			
 
				-MODEL_NAME="${2:-$(basename "$MODEL_PATH")}"
			
 
				+# Parse command line arguments
			
 
				+MODEL_PATH=""
			
 
				+MODEL_NAME=""
			
 
				+PROMPTS_FILE=""
			
 
				+
			
 
				+# First argument is always model path
			
 
				+if [ $# -gt 0 ] && [[ "$1" != --* ]]; then
			
 
				+    MODEL_PATH="$1"
			
 
				+    shift
			
 
				+fi
			
 
				+
			
 
				+# Parse remaining arguments
			
 
				+while [[ $# -gt 0 ]]; do
			
 
				+    case $1 in
			
 
				+        --prompts-file|-pf)
			
 
				+            PROMPTS_FILE="$2"
			
 
				+            shift 2
			
 
				+            ;;
			
 
				+        *)
			
 
				+            # If MODEL_NAME not set and this isn't a flag, use as model name
			
 
				+            if [ -z "$MODEL_NAME" ] && [[ "$1" != --* ]]; then
			
 
				+                MODEL_NAME="$1"
			
 
				+            fi
			
 
				+            shift
			
 
				+            ;;
			
 
				+    esac
			
 
				+done
			
 
				+
			
 
				+# Set defaults
			
 
				+MODEL_PATH="${MODEL_PATH:-"$EMBEDDING_MODEL_PATH"}"
			
 
				+MODEL_NAME="${MODEL_NAME:-$(basename "$MODEL_PATH")}"
			
 
				 
			
 
				 if [ -t 0 ]; then
			
 
				     CPP_EMBEDDINGS="data/llamacpp-${MODEL_NAME}-embeddings.bin"
			
@@ -35,8 +64,18 @@ with open('$TEMP_FILE', 'wb') as f:
 
				     trap "rm -f $TEMP_FILE" EXIT
			
 
				 fi
			
 
				 
			
 
				-python scripts/utils/semantic_check.py --model-path $MODEL_PATH \
			
 
				+# Build the semantic_check.py command
			
 
				+SEMANTIC_CMD="python scripts/utils/semantic_check.py --model-path $MODEL_PATH \
			
 
				     --python-embeddings data/pytorch-${MODEL_NAME}-embeddings.bin \
			
 
				-    --cpp-embeddings $CPP_EMBEDDINGS \
			
 
				-    --prompt "Hello world today"
			
 
				+    --cpp-embeddings $CPP_EMBEDDINGS"
			
 
				+
			
 
				+# Add prompts file if specified, otherwise use default prompt
			
 
				+if [ -n "$PROMPTS_FILE" ]; then
			
 
				+    SEMANTIC_CMD="$SEMANTIC_CMD --prompts-file \"$PROMPTS_FILE\""
			
 
				+else
			
 
				+    SEMANTIC_CMD="$SEMANTIC_CMD --prompt \"Hello world today\""
			
 
				+fi
			
 
				+
			
 
				+# Execute the command
			
 
				+eval $SEMANTIC_CMD
			
 
				 
			
--- a/examples/model-conversion/scripts/embedding/run-converted-model.sh
+++ b/examples/model-conversion/scripts/embedding/run-converted-model.sh
@@ -2,8 +2,27 @@
 
				 
			
 
				 set -e
			
 
				 
			
 
				-# First try command line argument, then environment variable, then file
			
 
				-CONVERTED_MODEL="${1:-"$CONVERTED_EMBEDDING_MODEL"}"
			
 
				+# Parse command line arguments
			
 
				+CONVERTED_MODEL=""
			
 
				+PROMPTS_FILE=""
			
 
				+
			
 
				+while [[ $# -gt 0 ]]; do
			
 
				+    case $1 in
			
 
				+        -p|--prompts-file)
			
 
				+            PROMPTS_FILE="$2"
			
 
				+            shift 2
			
 
				+            ;;
			
 
				+        *)
			
 
				+            if [ -z "$CONVERTED_MODEL" ]; then
			
 
				+                CONVERTED_MODEL="$1"
			
 
				+            fi
			
 
				+            shift
			
 
				+            ;;
			
 
				+    esac
			
 
				+done
			
 
				+
			
 
				+# First try command line argument, then environment variable
			
 
				+CONVERTED_MODEL="${CONVERTED_MODEL:-"$CONVERTED_EMBEDDING_MODEL"}"
			
 
				 
			
 
				 # Final check if we have a model path
			
 
				 if [ -z "$CONVERTED_MODEL" ]; then
			
@@ -13,8 +32,19 @@ if [ -z "$CONVERTED_MODEL" ]; then
 
				     exit 1
			
 
				 fi
			
 
				 
			
 
				+# Read prompt from file or use default
			
 
				+if [ -n "$PROMPTS_FILE" ]; then
			
 
				+    if [ ! -f "$PROMPTS_FILE" ]; then
			
 
				+        echo "Error: Prompts file '$PROMPTS_FILE' not found" >&2
			
 
				+        exit 1
			
 
				+    fi
			
 
				+    PROMPT=$(cat "$PROMPTS_FILE")
			
 
				+else
			
 
				+    PROMPT="Hello world today"
			
 
				+fi
			
 
				+
			
 
				 echo $CONVERTED_MODEL
			
 
				 
			
 
				 cmake --build ../../build --target llama-logits -j8
			
 
				-
			
 
				-../../build/bin/llama-logits -m "$CONVERTED_MODEL" -embd-mode "Hello world today"
			
 
				+# TODO: update logits.cpp to accept a --file/-f option for the prompt
			
 
				+../../build/bin/llama-logits -m "$CONVERTED_MODEL" -embd-mode "$PROMPT"
			
--- a/examples/model-conversion/scripts/embedding/run-original-model.py
+++ b/examples/model-conversion/scripts/embedding/run-original-model.py
@@ -13,14 +13,37 @@ unreleased_model_name = os.getenv('UNRELEASED_MODEL_NAME')
 
				 
			
 
				 parser = argparse.ArgumentParser(description='Process model with specified path')
			
 
				 parser.add_argument('--model-path', '-m', help='Path to the model')
			
 
				+parser.add_argument('--prompts-file', '-p', help='Path to file containing prompts (one per line)')
			
 
				 args = parser.parse_args()
			
 
				 
			
 
				+def read_prompt_from_file(file_path):
			
 
				+    try:
			
 
				+        with open(file_path, 'r', encoding='utf-8') as f:
			
 
				+            return f.read().strip()
			
 
				+    except FileNotFoundError:
			
 
				+        print(f"Error: Prompts file '{file_path}' not found")
			
 
				+        exit(1)
			
 
				+    except Exception as e:
			
 
				+        print(f"Error reading prompts file: {e}")
			
 
				+        exit(1)
			
 
				+
			
 
				 model_path = os.environ.get('EMBEDDING_MODEL_PATH', args.model_path)
			
 
				 if model_path is None:
			
 
				     parser.error("Model path must be specified either via --model-path argument or EMBEDDING_MODEL_PATH environment variable")
			
 
				 
			
 
				 tokenizer = AutoTokenizer.from_pretrained(model_path)
			
 
				 
			
 
				+config = AutoConfig.from_pretrained(model_path)
			
 
				+
			
 
				+# This can be used to override the sliding window size for manual testing. This
			
 
				+# can be useful to verify the sliding window attention mask in the original model
			
 
				+# and compare it with the converted .gguf model.
			
 
				+if hasattr(config, 'sliding_window'):
			
 
				+    original_sliding_window = config.sliding_window
			
 
				+    #original_sliding_window = 6
			
 
				+    print(f"Modified sliding window: {original_sliding_window} -> {config.sliding_window}")
			
 
				+
			
 
				+print(f"Using unreleased model: {unreleased_model_name}")
			
 
				 if unreleased_model_name:
			
 
				     model_name_lower = unreleased_model_name.lower()
			
 
				     unreleased_module_path = f"transformers.models.{model_name_lower}.modular_{model_name_lower}"
			
@@ -29,19 +52,28 @@ if unreleased_model_name:
 
				 
			
 
				     try:
			
 
				         model_class = getattr(importlib.import_module(unreleased_module_path), class_name)
			
 
				-        model = model_class.from_pretrained(model_path)  # Note: from_pretrained, not fromPretrained
			
 
				+        model = model_class.from_pretrained(model_path, config=config)
			
 
				     except (ImportError, AttributeError) as e:
			
 
				         print(f"Failed to import or load model: {e}")
			
 
				         exit(1)
			
 
				 else:
			
 
				-    model = AutoModel.from_pretrained(model_path)
			
 
				+    model = AutoModel.from_pretrained(model_path, config=config)
			
 
				 print(f"Model class: {type(model)}")
			
 
				-#print(f"Model file: {type(model).__module__}")
			
 
				-config = AutoConfig.from_pretrained(model_path)
			
 
				+print(f"Model file: {type(model).__module__}")
			
 
				+
			
 
				+# Verify the model is using the correct sliding window
			
 
				+if hasattr(model.config, 'sliding_window'):
			
 
				+    print(f"Model's sliding_window: {model.config.sliding_window}")
			
 
				+else:
			
 
				+    print("Model config does not have sliding_window attribute")
			
 
				 
			
 
				 model_name = os.path.basename(model_path)
			
 
				 
			
 
				-texts = [ "Hello world today" ]
			
 
				+if args.prompts_file:
			
 
				+    prompt_text = read_prompt_from_file(args.prompts_file)
			
 
				+    texts = [prompt_text]
			
 
				+else:
			
 
				+    texts = ["Hello world today"]
			
 
				 
			
 
				 encoded = tokenizer(
			
 
				     texts,
			
--- a/examples/model-conversion/scripts/utils/inspect-org-model.py
+++ b/examples/model-conversion/scripts/utils/inspect-org-model.py
@@ -40,7 +40,7 @@ if os.path.exists(index_path):
 
				         file_path = os.path.join(model_path, file_name)
			
 
				         print(f"\n--- From {file_name} ---")
			
 
				 
			
 
				-        with safe_open(file_path, framework="pt") as f:  # type: ignore
			
 
				+        with safe_open(file_path, framework="pt") as f:
			
 
				             for tensor_name in sorted(tensor_names):
			
 
				                 tensor = f.get_tensor(tensor_name)
			
 
				                 print(f"- {tensor_name} : shape = {tensor.shape}, dtype = {tensor.dtype}")
			
@@ -49,7 +49,7 @@ elif os.path.exists(single_file_path):
 
				     # Single file model (original behavior)
			
 
				     print("Single-file model detected")
			
 
				 
			
 
				-    with safe_open(single_file_path, framework="pt") as f:  # type: ignore
			
 
				+    with safe_open(single_file_path, framework="pt") as f:
			
 
				         keys = f.keys()
			
 
				         print("Tensors in model:")
			
 
				         for key in sorted(keys):
			
--- a/examples/model-conversion/scripts/utils/semantic_check.py
+++ b/examples/model-conversion/scripts/utils/semantic_check.py
@@ -101,6 +101,17 @@ def test_single_prompt_similarity(python_emb, cpp_emb, tokens, prompt):
 
				         'rms_diff': np.sqrt(np.mean(diff_matrix**2))
			
 
				     }
			
 
				 
			
 
				+def read_prompt_from_file(file_path):
			
 
				+    try:
			
 
				+        with open(file_path, 'r', encoding='utf-8') as f:
			
 
				+            return f.read().strip()
			
 
				+    except FileNotFoundError:
			
 
				+        print(f"Error: Prompts file '{file_path}' not found")
			
 
				+        exit(1)
			
 
				+    except Exception as e:
			
 
				+        print(f"Error reading prompts file: {e}")
			
 
				+        exit(1)
			
 
				+
			
 
				 def main():
			
 
				     parser = argparse.ArgumentParser(description='Test semantic similarity between Python and llama.cpp embeddings')
			
 
				     parser.add_argument('--model-path', '-m', required=True, help='Path to the original Python model')
			
@@ -108,14 +119,20 @@ def main():
 
				     parser.add_argument('--cpp-embeddings', '-ce', help='Path to llama.cpp embeddings "logits" binary file')
			
 
				     parser.add_argument('--causal', '-c', default=False, help='if the model is causal (default: false)', action='store_true')
			
 
				     parser.add_argument('--prompt', '-p', default='Hello world today', help='Test prompt')
			
 
				+    parser.add_argument('--prompts-file', '-pf', help='Path to file containing prompts')
			
 
				 
			
 
				     args = parser.parse_args()
			
 
				 
			
 
				+    if args.prompts_file:
			
 
				+        prompt = read_prompt_from_file(args.prompts_file)
			
 
				+    else:
			
 
				+        prompt = args.prompt
			
 
				+
			
 
				     print("Semantic Similarity Test Between Python and llama.cpp Embedding Models")
			
 
				     print("=" * 70)
			
 
				 
			
 
				     # Single prompt detailed comparison
			
 
				-    print(f"\nTesting with prompt: '{args.prompt}'")
			
 
				+    print(f"\nTesting with prompt: '{prompt}'")
			
 
				 
			
 
				     # Load the python model to get configuration information and also to load the tokenizer.
			
 
				     print("Loading model and tokenizer using AutoTokenizer:", args.model_path)
			
@@ -144,7 +161,7 @@ def main():
 
				         else:
			
 
				             model = AutoModel.from_pretrained(args.model_path)
			
 
				 
			
 
				-    encoded = tokenizer(args.prompt, return_tensors="pt")
			
 
				+    encoded = tokenizer(prompt, return_tensors="pt")
			
 
				     tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'][0])
			
 
				     n_tokens = len(tokens)
			
 
				     print(f"n_tokens: {n_tokens}");
			
@@ -155,7 +172,7 @@ def main():
 
				     python_embeddings = load_embeddings_from_file(args.python_embeddings, n_tokens, model.config.hidden_size)
			
 
				 
			
 
				     # Run comparison
			
 
				-    results = test_single_prompt_similarity(python_embeddings, llamacpp_embeddings, tokens, args.prompt)
			
 
				+    results = test_single_prompt_similarity(python_embeddings, llamacpp_embeddings, tokens, prompt)
			
 
				 
			
 
				     # Summary
			
 
				     print(f"\n=== SUMMARY ===")