3 месяцев назад · 8ddaf251ae
--- a/examples/eval-callback/eval-callback.cpp
+++ b/examples/eval-callback/eval-callback.cpp
@@ -154,7 +154,7 @@ static bool ggml_debug(struct ggml_tensor * t, bool ask, void * user_data) {
 
				 
			
 
				     if (!ggml_is_quantized(t->type)) {
			
 
				         uint8_t * data = is_host ? (uint8_t *) t->data : cb_data->data.data();
			
 
				-        ggml_print_tensor(data, t->type, t->ne, t->nb, 3);
			
 
				+        ggml_print_tensor(data, t->type, t->ne, t->nb, 8);
			
 
				     }
			
 
				 
			
 
				     return true;
			
--- a/examples/model-conversion/scripts/causal/run-org-model.py
+++ b/examples/model-conversion/scripts/causal/run-org-model.py
@@ -185,15 +185,16 @@ model_name = os.path.basename(model_path)
 
				 # of using AutoModelForCausalLM.
			
 
				 print(f"Model class: {model.__class__.__name__}")
			
 
				 
			
 
				+device = next(model.parameters()).device
			
 
				 prompt = "Hello, my name is"
			
 
				-input_ids = tokenizer(prompt, return_tensors="pt").input_ids
			
 
				+input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
			
 
				 
			
 
				 print(f"Input tokens: {input_ids}")
			
 
				 print(f"Input text: {repr(prompt)}")
			
 
				 print(f"Tokenized: {tokenizer.convert_ids_to_tokens(input_ids[0])}")
			
 
				 
			
 
				 with torch.no_grad():
			
 
				-    outputs = model(input_ids.to("cuda"))
			
 
				+    outputs = model(input_ids)
			
 
				     logits = outputs.logits
			
 
				 
			
 
				     # Extract logits for the last token (next token prediction)
			
--- a/src/models/llm_build_qwen3next.cpp
+++ b/src/models/llm_build_qwen3next.cpp
@@ -528,10 +528,9 @@ ggml_tensor * llm_build_qwen3next::build_qwen3next_linear_attn_layer(llm_graph_i
 
				                                                         (conv_kernel_size - 1) * ggml_element_size(conv_output));
			
 
				     cb(conv_output_no_padding, "conv_output_no_padding", il);
			
 
				 
			
 
				-    // Take only the last n_seq_tokens values
			
 
				-    ggml_tensor * conv_output_proper = ggml_view_4d(ctx0, conv_output_no_padding, n_seq_tokens, conv_output_no_padding->ne[1], 
			
 
				-        conv_output_no_padding->ne[2], conv_output_no_padding->ne[3], conv_output_no_padding->nb[1], 
			
 
				-        conv_output_no_padding->nb[2], conv_output_no_padding->nb[3], (conv_output_no_padding->ne[0] - n_seq_tokens) * ggml_element_size(conv_output_no_padding));
			
 
				+    // Take only the first n_seq_tokens values
			
 
				+    ggml_tensor * conv_output_proper = ggml_view_4d(ctx0, conv_output_no_padding, n_seq_tokens, conv_output_no_padding->ne[1], conv_output_no_padding->ne[2], conv_output_no_padding->ne[3],
			
 
				+                                                        conv_output_no_padding->nb[1], conv_output_no_padding->nb[2], conv_output_no_padding->nb[3], 0);
			
 
				     cb(conv_output_proper, "conv_output_proper", il);
			
 
				 
			
 
				     conv_output_proper = ggml_permute(ctx0, conv_output_proper, 0, 1, 3, 2);