8 месяцев назад · 3eac209319
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@@ -483,7 +483,9 @@ class MODEL_TENSOR(IntEnum):
 
															     V_ENC_EMBD_PATCH     = auto()
														
 
															     V_ENC_EMBD_POS       = auto()
														
 
															     V_ENC_ATTN_Q         = auto()
														
 
															+    V_ENC_ATTN_Q_NORM    = auto()
														
 
															     V_ENC_ATTN_K         = auto()
														
 
															+    V_ENC_ATTN_K_NORM    = auto()
														
 
															     V_ENC_ATTN_V         = auto()
														
 
															     V_ENC_INPUT_NORM     = auto()
														
 
															     V_ENC_OUTPUT         = auto()
														
@@ -742,7 +744,9 @@ TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
 
															     MODEL_TENSOR.V_ENC_EMBD_PATCH:          "v.patch_embd",
														
 
															     MODEL_TENSOR.V_ENC_EMBD_POS:            "v.position_embd",
														
 
															     MODEL_TENSOR.V_ENC_ATTN_Q:              "v.blk.{bid}.attn_q",
														
 
															+    MODEL_TENSOR.V_ENC_ATTN_Q_NORM:         "v.blk.{bid}.attn_q_norm",
														
 
															     MODEL_TENSOR.V_ENC_ATTN_K:              "v.blk.{bid}.attn_k",
														
 
															+    MODEL_TENSOR.V_ENC_ATTN_K_NORM:         "v.blk.{bid}.attn_k_norm",
														
 
															     MODEL_TENSOR.V_ENC_ATTN_V:              "v.blk.{bid}.attn_v",
														
 
															     MODEL_TENSOR.V_ENC_INPUT_NORM:          "v.blk.{bid}.ln1",
														
 
															     MODEL_TENSOR.V_ENC_OUTPUT:              "v.blk.{bid}.attn_out",
														
@@ -782,7 +786,9 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
 
															         MODEL_TENSOR.V_ENC_EMBD_PATCH,
														
 
															         MODEL_TENSOR.V_ENC_EMBD_POS,
														
 
															         MODEL_TENSOR.V_ENC_ATTN_Q,
														
 
															+        MODEL_TENSOR.V_ENC_ATTN_Q_NORM,
														
 
															         MODEL_TENSOR.V_ENC_ATTN_K,
														
 
															+        MODEL_TENSOR.V_ENC_ATTN_K_NORM,
														
 
															         MODEL_TENSOR.V_ENC_ATTN_V,
														
 
															         MODEL_TENSOR.V_ENC_INPUT_NORM,
														
 
															         MODEL_TENSOR.V_ENC_OUTPUT,
														
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@@ -938,6 +938,10 @@ class TensorNameMap:
 
															             "visual.blocks.{bid}.attn.q", # qwen2vl, generated
														
 
															         ),
														
 
															+        MODEL_TENSOR.V_ENC_ATTN_Q_NORM: (
														
 
															+            "vision_tower.vision_model.encoder.layers.{bid}.attn.q_norm", # InternVL
														
 
															+        ),
														
 
															+
														
 
															         MODEL_TENSOR.V_ENC_ATTN_K: (
														
 
															             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.k_proj",
														
 
															             "vpm.encoder.layers.{bid}.self_attn.k_proj",
														
@@ -946,6 +950,10 @@ class TensorNameMap:
 
															             "visual.blocks.{bid}.attn.k", # qwen2vl, generated
														
 
															         ),
														
 
															+        MODEL_TENSOR.V_ENC_ATTN_K_NORM: (
														
 
															+            "vision_tower.vision_model.encoder.layers.{bid}.attn.k_norm", # InternVL
														
 
															+        ),
														
 
															+
														
 
															         MODEL_TENSOR.V_ENC_ATTN_V: (
														
 
															             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.v_proj",
														
 
															             "vpm.encoder.layers.{bid}.self_attn.v_proj",
														
--- a/tools/mtmd/clip-impl.h
+++ b/tools/mtmd/clip-impl.h
@@ -53,6 +53,8 @@
 
															 #define TN_ATTN_Q          "%s.blk.%d.attn_q.%s"
														
 
															 #define TN_ATTN_V          "%s.blk.%d.attn_v.%s"
														
 
															 #define TN_ATTN_OUTPUT     "%s.blk.%d.attn_out.%s"
														
 
															+#define TN_ATTN_K_NORM     "%s.blk.%d.attn_k_norm.%s"
														
 
															+#define TN_ATTN_Q_NORM     "%s.blk.%d.attn_q_norm.%s"
														
 
															 #define TN_FFN_DOWN        "%s.blk.%d.ffn_down.%s"
														
 
															 #define TN_FFN_GATE        "%s.blk.%d.ffn_gate.%s"
														
 
															 #define TN_FFN_UP          "%s.blk.%d.ffn_up.%s"
														
--- a/tools/mtmd/clip.cpp
+++ b/tools/mtmd/clip.cpp
@@ -205,6 +205,9 @@ struct clip_layer {
 
															     ggml_tensor * o_w = nullptr;
														
 
															     ggml_tensor * o_b = nullptr;
														
 
															+    ggml_tensor * k_norm = nullptr;
														
 
															+    ggml_tensor * q_norm = nullptr;
														
 
															+
														
 
															     // layernorm 1
														
 
															     ggml_tensor * ln_1_w = nullptr;
														
 
															     ggml_tensor * ln_1_b = nullptr;
														
@@ -1363,6 +1366,16 @@ private:
 
															                     Vcur = ggml_add(ctx0, Vcur, layer.v_b);
														
 
															                 }
														
 
															+                if (layer.q_norm) {
														
 
															+                    Qcur = build_norm(Qcur, layer.q_norm, NULL, norm_t, eps, il);
														
 
															+                    cb(Qcur, "Qcur_norm", il);
														
 
															+                }
														
 
															+
														
 
															+                if (layer.k_norm) {
														
 
															+                    Kcur = build_norm(Kcur, layer.k_norm, NULL, norm_t, eps, il);
														
 
															+                    cb(Kcur, "Kcur_norm", il);
														
 
															+                }
														
 
															+
														
 
															                 Qcur = ggml_reshape_3d(ctx0, Qcur, d_head, n_head, n_pos);
														
 
															                 Kcur = ggml_reshape_3d(ctx0, Kcur, d_head, n_head, n_pos);
														
 
															                 Vcur = ggml_reshape_3d(ctx0, Vcur, d_head, n_head, n_pos);
														
@@ -1988,6 +2001,8 @@ struct clip_model_loader {
 
															             layer.q_w    = get_tensor(string_format(TN_ATTN_Q,      "v", il, "weight"));
														
 
															             layer.v_w    = get_tensor(string_format(TN_ATTN_V,      "v", il, "weight"));
														
 
															             layer.o_w    = get_tensor(string_format(TN_ATTN_OUTPUT, "v", il, "weight"));
														
 
															+            layer.k_norm = get_tensor(string_format(TN_ATTN_K_NORM, "v", il, "weight"), false);
														
 
															+            layer.q_norm = get_tensor(string_format(TN_ATTN_Q_NORM, "v", il, "weight"), false);
														
 
															             layer.ln_1_w = get_tensor(string_format(TN_LN_1,        "v", il, "weight"), false);
														
 
															             layer.ln_2_w = get_tensor(string_format(TN_LN_2,        "v", il, "weight"), false);
														
 
															             layer.ls_1_w = get_tensor(string_format(TN_LS_1,        "v", il, "weight"), false); // no bias