5 месяцев назад · 99acbc9921
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -3328,7 +3328,13 @@ class Qwen25OmniModel(Qwen2VLVisionModel):
 
				 @ModelBase.register("InternVisionModel")
			
 
				 class InternVisionModel(MmprojModel):
			
 
				     def set_gguf_parameters(self):
			
 
				+        assert self.hparams_vision is not None
			
 
				+        if isinstance(self.hparams_vision['image_size'], list):
			
 
				+            self.hparams_vision['image_size'] = self.hparams_vision['image_size'][0]
			
 
				+        if isinstance(self.hparams_vision['patch_size'], list):
			
 
				+            self.hparams_vision['patch_size'] = self.hparams_vision['patch_size'][0]
			
 
				         super().set_gguf_parameters()
			
 
				+
			
 
				         hparams = self.hparams
			
 
				         self.gguf_writer.add_clip_projector_type(gguf.VisionProjectorType.INTERNVL)
			
 
				         self.gguf_writer.add_vision_attention_layernorm_eps(hparams["layer_norm_eps"])
			
@@ -3352,14 +3358,30 @@ class InternVisionModel(MmprojModel):
 
				             return gguf.GGMLQuantizationType.F32
			
 
				         return False
			
 
				 
			
 
				+    def _mapping_interns1_name(self, name):
			
 
				+        names_map = {
			
 
				+            "model.multi_modal_projector.layer_norm.bias": "mlp1.0.bias",
			
 
				+            "model.multi_modal_projector.layer_norm.weight": "mlp1.0.weight",
			
 
				+            "model.multi_modal_projector.linear_1.bias": "mlp1.1.bias",
			
 
				+            "model.multi_modal_projector.linear_1.weight": "mlp1.1.weight",
			
 
				+            "model.multi_modal_projector.linear_2.bias": "mlp1.3.bias",
			
 
				+            "model.multi_modal_projector.linear_2.weight": "mlp1.3.weight",
			
 
				+        }
			
 
				+        if name in names_map:
			
 
				+            name = names_map[name]
			
 
				+        return name
			
 
				+
			
 
				     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
			
 
				         del bid  # unused
			
 
				-        if name.startswith("vision_model") or name.startswith("mlp"):
			
 
				+        vision_prefix = ['vision_model', 'mlp', 'model.vision_tower', 'model.multi_modal_projector']
			
 
				+        # deal with intern-s1 special case
			
 
				+        name = self._mapping_interns1_name(name)
			
 
				+        if any([name.startswith(prefix) for prefix in vision_prefix]):
			
 
				             # process visual tensors
			
 
				             # correct name
			
 
				             if name.startswith("vision_model"):
			
 
				                 name = "vision_tower." + name
			
 
				-            if (".ls" in name or "position_embedding" in name) and not name.endswith(".weight"):
			
 
				+            if (".ls" in name or ".lambda_" in name or "position_embedding" in name) and not name.endswith(".weight"):
			
 
				                 name += ".weight"
			
 
				             # split QKV tensors if needed
			
 
				             if ".qkv." in name:
			
@@ -3445,6 +3467,10 @@ class Qwen2MoeModel(TextModel):
 
				 
			
 
				     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
			
 
				         # process the experts separately
			
 
				+        name = name.replace("language_model.", "") # InternVL
			
 
				+        if name.startswith("mlp") or name.startswith("vision_model") or name.startswith("model.vision_tower") or name.startswith("model.multi_modal_projector"):
			
 
				+            # skip visual tensors
			
 
				+            return []
			
 
				         if name.find("experts") != -1:
			
 
				             n_experts = self.hparams["num_experts"]
			
 
				             assert bid is not None
			
@@ -3498,6 +3524,85 @@ class Qwen3Model(Qwen2Model):
 
				 class Qwen3MoeModel(Qwen2MoeModel):
			
 
				     model_arch = gguf.MODEL_ARCH.QWEN3MOE
			
 
				 
			
 
				+    def __init__(self, *args, **kwargs):
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+        hparams = ModelBase.load_hparams(self.dir_model)
			
 
				+        self.origin_hf_arch = hparams.get('architectures', [None])[0]
			
 
				+
			
 
				+    def set_vocab(self):
			
 
				+        # deal with intern-s1
			
 
				+        if self.origin_hf_arch == 'InternS1ForConditionalGeneration':
			
 
				+            self._set_vocab_interns1()
			
 
				+            return
			
 
				+
			
 
				+        try:
			
 
				+            self._set_vocab_sentencepiece()
			
 
				+        except FileNotFoundError:
			
 
				+            self._set_vocab_gpt2()
			
 
				+
			
 
				+    def _set_vocab_interns1(self):
			
 
				+        tokens: list[str] = []
			
 
				+        toktypes: list[int] = []
			
 
				+
			
 
				+        from transformers import AutoTokenizer
			
 
				+        tokenizer = AutoTokenizer.from_pretrained(self.dir_model, trust_remote_code=True)
			
 
				+        vocab = getattr(tokenizer, 'vocab', tokenizer.get_vocab())
			
 
				+        vocab_size = self.hparams.get("vocab_size", len(vocab))
			
 
				+        assert max(vocab.values()) < vocab_size
			
 
				+
			
 
				+        tokpre = self.get_vocab_base_pre(tokenizer)
			
 
				+
			
 
				+        reverse_vocab = {id_: encoded_tok for encoded_tok, id_ in vocab.items()}
			
 
				+        added_vocab = tokenizer.get_added_vocab()
			
 
				+
			
 
				+        added_tokens_decoder = tokenizer.added_tokens_decoder
			
 
				+
			
 
				+        for i in range(vocab_size):
			
 
				+            if i not in reverse_vocab:
			
 
				+                tokens.append(f"[PAD{i}]")
			
 
				+                toktypes.append(gguf.TokenType.UNUSED)
			
 
				+            else:
			
 
				+                token: str = reverse_vocab[i]
			
 
				+                if token in added_vocab:
			
 
				+                    # The tokenizer in llama.cpp assumes the CONTROL and USER_DEFINED tokens are pre-normalized.
			
 
				+                    # To avoid unexpected issues - we make sure to normalize non-normalized tokens
			
 
				+                    if not added_tokens_decoder[i].normalized:
			
 
				+                        previous_token = token
			
 
				+                        token = tokenizer.decode(tokenizer.encode(token, add_special_tokens=False))
			
 
				+                        if previous_token != token:
			
 
				+                            logger.info(f"{repr(previous_token)} is encoded and decoded back to {repr(token)} using AutoTokenizer")
			
 
				+
			
 
				+                    if added_tokens_decoder[i].special or self.does_token_look_special(token):
			
 
				+                        toktypes.append(gguf.TokenType.CONTROL)
			
 
				+                    else:
			
 
				+                        toktypes.append(gguf.TokenType.USER_DEFINED)
			
 
				+                else:
			
 
				+                    toktypes.append(gguf.TokenType.NORMAL)
			
 
				+                tokens.append(token)
			
 
				+
			
 
				+        self.gguf_writer.add_tokenizer_model("gpt2")
			
 
				+        self.gguf_writer.add_tokenizer_pre(tokpre)
			
 
				+        self.gguf_writer.add_token_list(tokens)
			
 
				+        self.gguf_writer.add_token_types(toktypes)
			
 
				+
			
 
				+        special_vocab = gguf.SpecialVocab(self.dir_model, load_merges=True)
			
 
				+        special_tokens_map_file = self.dir_model / 'special_tokens_map.json'
			
 
				+        additional_special_tokens = []
			
 
				+        if special_tokens_map_file.is_file():
			
 
				+            with open(special_tokens_map_file, encoding = 'utf-8') as f:
			
 
				+                additional_special_tokens = json.load(f).get('additional_special_tokens', [])
			
 
				+        tokenizer_cfg_file = self.dir_model / 'special_tokens_map.json'
			
 
				+        if tokenizer_cfg_file.is_file():
			
 
				+            with open(tokenizer_cfg_file, encoding = 'utf-8') as f:
			
 
				+                added_tokens_decoder = json.load(f).get('added_tokens_decoder', {})
			
 
				+                token2ids_map = {data['content'] : int(token) for token, data in added_tokens_decoder.items() if data['special']}
			
 
				+                for token in additional_special_tokens:
			
 
				+                    if token in token2ids_map:
			
 
				+                        special_vocab._set_special_token(token, token2ids_map[token])
			
 
				+        special_vocab._set_special_token('eos', 151645)
			
 
				+        special_vocab._set_special_token("bos", 151643)
			
 
				+        special_vocab.add_to_gguf(self.gguf_writer)
			
 
				+
			
 
				 
			
 
				 @ModelBase.register("GPT2LMHeadModel")
			
 
				 class GPT2Model(TextModel):
			
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@@ -1110,11 +1110,13 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_EMBD_CLS: (
			
 
				             "vision_tower.vision_model.embeddings.class_embedding",
			
 
				+            "model.vision_tower.embeddings.cls_token", # Intern-S1
			
 
				             "vision_model.class_embedding", # llama 4
			
 
				         ),
			
 
				 
			
 
				         MODEL_TENSOR.V_ENC_EMBD_PATCH: (
			
 
				             "vision_tower.vision_model.embeddings.patch_embedding",
			
 
				+            "model.vision_tower.embeddings.patch_embeddings.projection", # Intern-S1
			
 
				             "vpm.embeddings.patch_embedding",
			
 
				             "model.vision_model.embeddings.patch_embedding", # SmolVLM
			
 
				             "vision_tower.patch_conv", # pixtral
			
@@ -1124,6 +1126,7 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_EMBD_POS: (
			
 
				             "vision_tower.vision_model.embeddings.position_embedding",
			
 
				+            "model.vision_tower.embeddings.position_embeddings", # Intern-S1
			
 
				             "vpm.embeddings.position_embedding",
			
 
				             "model.vision_model.embeddings.position_embedding", # SmolVLM
			
 
				             "vision_model.positional_embedding_vlm", # llama 4
			
@@ -1131,6 +1134,7 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_ATTN_Q: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.q_proj",
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.q_proj", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.self_attn.q_proj",
			
 
				             "model.vision_model.encoder.layers.{bid}.self_attn.q_proj", # SmolVLM
			
 
				             "vision_model.model.layers.{bid}.self_attn.q_proj", # llama4
			
@@ -1140,10 +1144,12 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_ATTN_Q_NORM: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.attn.q_norm", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.q_norm", # Intern-S1
			
 
				         ),
			
 
				 
			
 
				         MODEL_TENSOR.V_ENC_ATTN_K: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.k_proj",
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.k_proj", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.self_attn.k_proj",
			
 
				             "model.vision_model.encoder.layers.{bid}.self_attn.k_proj", # SmolVLM
			
 
				             "vision_model.model.layers.{bid}.self_attn.k_proj", # llama4
			
@@ -1153,10 +1159,12 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_ATTN_K_NORM: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.attn.k_norm", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.k_norm", # Intern-S1
			
 
				         ),
			
 
				 
			
 
				         MODEL_TENSOR.V_ENC_ATTN_V: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.v_proj",
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.v_proj", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.self_attn.v_proj",
			
 
				             "model.vision_model.encoder.layers.{bid}.self_attn.v_proj", # SmolVLM
			
 
				             "vision_model.model.layers.{bid}.self_attn.v_proj", # llama4
			
@@ -1167,6 +1175,7 @@ class TensorNameMap:
 
				         MODEL_TENSOR.V_ENC_INPUT_NORM: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.layer_norm1",
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.norm1", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.layernorm_before", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.layer_norm1",
			
 
				             "model.vision_model.encoder.layers.{bid}.layer_norm1", # SmolVLM
			
 
				             "vision_tower.transformer.layers.{bid}.attention_norm", # pixtral
			
@@ -1177,6 +1186,7 @@ class TensorNameMap:
 
				         MODEL_TENSOR.V_ENC_ATTN_O: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.self_attn.out_proj",
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.attn.proj", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.attention.projection_layer", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.self_attn.out_proj",
			
 
				             "model.vision_model.encoder.layers.{bid}.self_attn.out_proj", # SmolVLM
			
 
				             "vision_model.model.layers.{bid}.self_attn.o_proj", # llama4
			
@@ -1187,6 +1197,7 @@ class TensorNameMap:
 
				         MODEL_TENSOR.V_ENC_POST_ATTN_NORM: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.layer_norm2",
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.norm2", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.layernorm_after", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.layer_norm2",
			
 
				             "model.vision_model.encoder.layers.{bid}.layer_norm2", # SmolVLM
			
 
				             "vision_model.model.layers.{bid}.post_attention_layernorm", # llama4
			
@@ -1196,6 +1207,7 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_FFN_UP: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.mlp.fc1",
			
 
				+            "model.vision_tower.encoder.layer.{bid}.mlp.fc1", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.mlp.fc1",
			
 
				             "model.vision_model.encoder.layers.{bid}.mlp.fc1", # SmolVLM, gemma3
			
 
				             "vision_tower.transformer.layers.{bid}.feed_forward.up_proj", # pixtral
			
@@ -1211,6 +1223,7 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_ENC_FFN_DOWN: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.mlp.fc2",
			
 
				+            "model.vision_tower.encoder.layer.{bid}.mlp.fc2", # Intern-S1
			
 
				             "vpm.encoder.layers.{bid}.mlp.fc2",
			
 
				             "model.vision_model.encoder.layers.{bid}.mlp.fc2", # SmolVLM, gemma3
			
 
				             "vision_tower.transformer.layers.{bid}.feed_forward.down_proj", # pixtral
			
@@ -1221,10 +1234,12 @@ class TensorNameMap:
 
				 
			
 
				         MODEL_TENSOR.V_LAYER_SCALE_1: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.ls1", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.lambda_1", # Intern-S1
			
 
				         ),
			
 
				 
			
 
				         MODEL_TENSOR.V_LAYER_SCALE_2: (
			
 
				             "vision_tower.vision_model.encoder.layers.{bid}.ls2", # InternVL
			
 
				+            "model.vision_tower.encoder.layer.{bid}.lambda_2", # Intern-S1
			
 
				         ),
			
 
				 
			
 
				         MODEL_TENSOR.V_PRE_NORM: (