hace 1 año · d7fd29fff1
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -13,7 +13,7 @@ import sys
 
															 from enum import IntEnum
														
 
															 from pathlib import Path
														
 
															 from hashlib import sha256
														
 
															-from typing import TYPE_CHECKING, Any, Callable, ContextManager, Iterable, Iterator, Sequence, TypeVar, cast
														
 
															+from typing import TYPE_CHECKING, Any, Callable, ContextManager, Iterable, Iterator, Literal, Sequence, TypeVar, cast
														
 
															 import math
														
 
															 import numpy as np
														
@@ -677,6 +677,51 @@ class Model:
 
															         special_vocab = gguf.SpecialVocab(self.dir_model, n_vocab=len(tokens))
														
 
															         special_vocab.add_to_gguf(self.gguf_writer)
														
 
															+    def _set_vocab_builtin(self, model_name: Literal["gpt-neox", "llama-spm"], vocab_size: int):
														
 
															+        tokenizer_path = Path(sys.path[0]) / "models" / f"ggml-vocab-{model_name}.gguf"
														
 
															+        logger.warning(f"Using tokenizer from '{os.path.relpath(tokenizer_path, os.getcwd())}'")
														
 
															+        vocab_reader = gguf.GGUFReader(tokenizer_path, "r")
														
 
															+
														
 
															+        default_pre = "mpt" if model_name == "gpt-neox" else "default"
														
 
															+
														
 
															+        field = vocab_reader.get_field(gguf.Keys.Tokenizer.MODEL)
														
 
															+        assert field  # tokenizer model
														
 
															+        self.gguf_writer.add_tokenizer_model(bytes(field.parts[-1]).decode("utf-8"))
														
 
															+
														
 
															+        field = vocab_reader.get_field(gguf.Keys.Tokenizer.PRE)
														
 
															+        self.gguf_writer.add_tokenizer_pre(bytes(field.parts[-1]).decode("utf-8") if field else default_pre)
														
 
															+
														
 
															+        field = vocab_reader.get_field(gguf.Keys.Tokenizer.LIST)
														
 
															+        assert field  # token list
														
 
															+        self.gguf_writer.add_token_list([bytes(field.parts[i]) for i in field.data][:vocab_size])
														
 
															+
														
 
															+        if model_name == "llama-spm":
														
 
															+            field = vocab_reader.get_field(gguf.Keys.Tokenizer.SCORES)
														
 
															+            assert field  # token scores
														
 
															+            self.gguf_writer.add_token_scores([field.parts[i].tolist()[0] for i in field.data][:vocab_size])
														
 
															+
														
 
															+        field = vocab_reader.get_field(gguf.Keys.Tokenizer.TOKEN_TYPE)
														
 
															+        assert field  # token types
														
 
															+        self.gguf_writer.add_token_types([field.parts[i].tolist()[0] for i in field.data][:vocab_size])
														
 
															+
														
 
															+        if model_name != "llama-spm":
														
 
															+            field = vocab_reader.get_field(gguf.Keys.Tokenizer.MERGES)
														
 
															+            assert field  # token merges
														
 
															+            self.gguf_writer.add_token_merges([bytes(field.parts[i]) for i in field.data])
														
 
															+
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.BOS_ID)) is not None:
														
 
															+            self.gguf_writer.add_bos_token_id(field.parts[-1].tolist()[0])
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.EOS_ID)) is not None:
														
 
															+            self.gguf_writer.add_eos_token_id(field.parts[-1].tolist()[0])
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.UNK_ID)) is not None:
														
 
															+            self.gguf_writer.add_unk_token_id(field.parts[-1].tolist()[0])
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.PAD_ID)) is not None:
														
 
															+            self.gguf_writer.add_pad_token_id(field.parts[-1].tolist()[0])
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.ADD_BOS)) is not None:
														
 
															+            self.gguf_writer.add_add_bos_token(field.parts[-1].tolist()[0])
														
 
															+        if (field := vocab_reader.get_field(gguf.Keys.Tokenizer.ADD_EOS)) is not None:
														
 
															+            self.gguf_writer.add_add_eos_token(field.parts[-1].tolist()[0])
														
 
															+
														
 
															 @Model.register("GPTNeoXForCausalLM")
														
 
															 class GPTNeoXModel(Model):
														
@@ -2439,39 +2484,7 @@ class MambaModel(Model):
 
															             self._set_vocab_sentencepiece()
														
 
															         else:
														
 
															             # Use the GPT-NeoX tokenizer when no tokenizer files are present
														
 
															-            tokenizer_path = Path(sys.path[0]) / "models" / "ggml-vocab-gpt-neox.gguf"
														
 
															-            logger.warning(f"Using tokenizer from '{os.path.relpath(tokenizer_path, os.getcwd())}'")
														
 
															-            neox_reader = gguf.GGUFReader(tokenizer_path, "r")
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.MODEL)
														
 
															-            self.gguf_writer.add_tokenizer_model(bytes(field.parts[-1]).decode("utf-8") if field else "gpt2")
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.PRE)
														
 
															-            self.gguf_writer.add_tokenizer_pre(bytes(field.parts[-1]).decode("utf-8") if field else "mpt")
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.LIST)
														
 
															-            assert field
														
 
															-            self.gguf_writer.add_token_list([bytes(field.parts[i]) for i in field.data][:vocab_size])
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.TOKEN_TYPE)
														
 
															-            assert field
														
 
															-            self.gguf_writer.add_token_types([field.parts[i].tolist()[0] for i in field.data][:vocab_size])
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.MERGES)
														
 
															-            assert field
														
 
															-            self.gguf_writer.add_token_merges([bytes(field.parts[i]) for i in field.data])
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.BOS_ID)
														
 
															-            self.gguf_writer.add_bos_token_id(field.parts[-1].tolist()[0] if field else 1)
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.EOS_ID)
														
 
															-            self.gguf_writer.add_eos_token_id(field.parts[-1].tolist()[0] if field else 0)
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.UNK_ID)
														
 
															-            self.gguf_writer.add_unk_token_id(field.parts[-1].tolist()[0] if field else 0)
														
 
															-
														
 
															-            field = neox_reader.get_field(gguf.Keys.Tokenizer.PAD_ID)
														
 
															-            self.gguf_writer.add_pad_token_id(field.parts[-1].tolist()[0] if field else 0)
														
 
															+            self._set_vocab_builtin("gpt-neox", vocab_size)
														
 
															     def set_gguf_parameters(self):
														
 
															         d_model = self.find_hparam(["hidden_size",       "d_model"])
														
@@ -2623,6 +2636,82 @@ class JinaBertV2Model(BertModel):
 
															         self.gguf_writer.add_add_eos_token(True)
														
 
															+@Model.register("OpenELMForCausalLM")
														
 
															+class OpenELMModel(Model):
														
 
															+    model_arch = gguf.MODEL_ARCH.OPENELM
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _make_divisible(v: float | int, divisor: int) -> int:
														
 
															+        # ref: https://huggingface.co/apple/OpenELM-270M-Instruct/blob/eb111ff2e6724348e5b905984063d4064d4bc579/configuration_openelm.py#L34-L38
														
 
															+        new_v = max(divisor, int(v + divisor / 2) // divisor * divisor)
														
 
															+        # Make sure that round down does not go down by more than 10%.
														
 
															+        if new_v < 0.9 * v:
														
 
															+            new_v += divisor
														
 
															+        return new_v
														
 
															+
														
 
															+    def __init__(self, *args, **kwargs):
														
 
															+        super().__init__(*args, **kwargs)
														
 
															+
														
 
															+        ffn_multipliers: list[float] = self.hparams["ffn_multipliers"]
														
 
															+        ffn_dim_divisor: int = self.hparams["ffn_dim_divisor"]
														
 
															+        self._n_embd: int = self.hparams["model_dim"]
														
 
															+        self._num_kv_heads: list[int] = self.hparams["num_kv_heads"]
														
 
															+        self._num_query_heads: list[int] = self.hparams["num_query_heads"]
														
 
															+        self._ffn_dims: list[int] = [
														
 
															+            OpenELMModel._make_divisible(multiplier * self._n_embd, ffn_dim_divisor)
														
 
															+            for multiplier in ffn_multipliers
														
 
															+        ]
														
 
															+        assert isinstance(self._num_kv_heads, list) and isinstance(self._num_kv_heads[0], int)
														
 
															+        assert isinstance(self._num_query_heads, list) and isinstance(self._num_query_heads[0], int)
														
 
															+
														
 
															+    # Uses the tokenizer from meta-llama/Llama-2-7b-hf
														
 
															+    def set_vocab(self):
														
 
															+        try:
														
 
															+            self._set_vocab_sentencepiece()
														
 
															+        except FileNotFoundError:
														
 
															+            self._set_vocab_builtin("llama-spm", self.hparams["vocab_size"])
														
 
															+
														
 
															+    def set_gguf_parameters(self):
														
 
															+        n_embd = self._n_embd
														
 
															+        head_dim = self.hparams["head_dim"]
														
 
															+        rot_pct = 1.0
														
 
															+        assert self.block_count == len(self._num_kv_heads)
														
 
															+        assert self.block_count == len(self._num_query_heads)
														
 
															+        assert self.block_count == len(self._ffn_dims)
														
 
															+
														
 
															+        self.gguf_writer.add_name(self.dir_model.name if self.model_name is None else self.model_name)
														
 
															+        self.gguf_writer.add_block_count(self.block_count)
														
 
															+        self.gguf_writer.add_context_length(self.hparams["max_context_length"])
														
 
															+        self.gguf_writer.add_embedding_length(n_embd)
														
 
															+        self.gguf_writer.add_feed_forward_length(self._ffn_dims)
														
 
															+        self.gguf_writer.add_head_count(self._num_query_heads)
														
 
															+        self.gguf_writer.add_head_count_kv(self._num_kv_heads)
														
 
															+        self.gguf_writer.add_rope_freq_base(self.hparams["rope_freq_constant"])
														
 
															+        # https://huggingface.co/apple/OpenELM-270M-Instruct/blob/c401df2/modeling_openelm.py#L30
														
 
															+        self.gguf_writer.add_layer_norm_rms_eps(1e-6)
														
 
															+        self.gguf_writer.add_rope_dimension_count(int(rot_pct * head_dim))
														
 
															+        self.gguf_writer.add_key_length(head_dim)
														
 
															+        self.gguf_writer.add_value_length(head_dim)
														
 
															+        self.gguf_writer.add_file_type(self.ftype)
														
 
															+
														
 
															+    def find_hparam(self, keys: Iterable[str], optional: bool = False) -> Any:
														
 
															+        if "n_layers" in keys:
														
 
															+            return self.hparams["num_transformer_layers"]
														
 
															+
														
 
															+        return super().find_hparam(keys, optional)
														
 
															+
														
 
															+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
														
 
															+
														
 
															+        # split ff
														
 
															+        if bid is not None and name == f"transformer.layers.{bid}.ffn.proj_1.weight":
														
 
															+            ff_dim = self._ffn_dims[bid]
														
 
															+            yield (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_GATE, bid), data_torch[:ff_dim])
														
 
															+            yield (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP, bid), data_torch[ff_dim:])
														
 
															+            return
														
 
															+
														
 
															+        yield (self.map_tensor_name(name), data_torch)
														
 
															+
														
 
															+
														
 
															 @Model.register("ArcticForCausalLM")
														
 
															 class ArcticModel(Model):
														
 
															     model_arch = gguf.MODEL_ARCH.ARCTIC
														
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@@ -160,6 +160,7 @@ class MODEL_ARCH(IntEnum):
 
															     COMMAND_R    = auto()
														
 
															     DBRX         = auto()
														
 
															     OLMO         = auto()
														
 
															+    OPENELM      = auto()
														
 
															     ARCTIC       = auto()
														
 
															     DEEPSEEK2    = auto()
														
 
															     BITNET       = auto()
														
@@ -285,6 +286,7 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
 
															     MODEL_ARCH.COMMAND_R:      "command-r",
														
 
															     MODEL_ARCH.DBRX:           "dbrx",
														
 
															     MODEL_ARCH.OLMO:           "olmo",
														
 
															+    MODEL_ARCH.OPENELM:        "openelm",
														
 
															     MODEL_ARCH.ARCTIC:         "arctic",
														
 
															     MODEL_ARCH.DEEPSEEK2:      "deepseek2",
														
 
															     MODEL_ARCH.BITNET:         "bitnet",
														
@@ -861,6 +863,19 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
 
															         MODEL_TENSOR.FFN_DOWN,
														
 
															         MODEL_TENSOR.FFN_UP,
														
 
															     ],
														
 
															+    MODEL_ARCH.OPENELM: [
														
 
															+        MODEL_TENSOR.TOKEN_EMBD,
														
 
															+        MODEL_TENSOR.OUTPUT_NORM,
														
 
															+        MODEL_TENSOR.ATTN_NORM,
														
 
															+        MODEL_TENSOR.ATTN_QKV,
														
 
															+        MODEL_TENSOR.ATTN_Q_NORM,
														
 
															+        MODEL_TENSOR.ATTN_K_NORM,
														
 
															+        MODEL_TENSOR.ATTN_OUT,
														
 
															+        MODEL_TENSOR.FFN_NORM,
														
 
															+        MODEL_TENSOR.FFN_GATE,
														
 
															+        MODEL_TENSOR.FFN_DOWN,
														
 
															+        MODEL_TENSOR.FFN_UP,
														
 
															+    ],
														
 
															     MODEL_ARCH.ARCTIC: [
														
 
															         MODEL_TENSOR.TOKEN_EMBD,
														
 
															         MODEL_TENSOR.OUTPUT_NORM,
														
--- a/gguf-py/gguf/gguf_writer.py
+++ b/gguf-py/gguf/gguf_writer.py
@@ -480,8 +480,11 @@ class GGUFWriter:
 
															     def add_leading_dense_block_count(self, length: int) -> None:
														
 
															         self.add_uint32(Keys.LLM.LEADING_DENSE_BLOCK_COUNT.format(arch=self.arch), length)
														
 
															-    def add_feed_forward_length(self, length: int) -> None:
														
 
															-        self.add_uint32(Keys.LLM.FEED_FORWARD_LENGTH.format(arch=self.arch), length)
														
 
															+    def add_feed_forward_length(self, length: int | Sequence[int]) -> None:
														
 
															+        if isinstance(length, int):
														
 
															+            self.add_uint32(Keys.LLM.FEED_FORWARD_LENGTH.format(arch=self.arch), length)
														
 
															+        else:
														
 
															+            self.add_array(Keys.LLM.FEED_FORWARD_LENGTH.format(arch=self.arch), length)
														
 
															     def add_expert_feed_forward_length(self, length: int) -> None:
														
 
															         self.add_uint32(Keys.LLM.EXPERT_FEED_FORWARD_LENGTH.format(arch=self.arch), length)
														
@@ -495,11 +498,17 @@ class GGUFWriter:
 
															     def add_decoder_start_token_id(self, id: int) -> None:
														
 
															         self.add_uint32(Keys.LLM.DECODER_START_TOKEN_ID.format(arch=self.arch), id)
														
 
															-    def add_head_count(self, count: int) -> None:
														
 
															-        self.add_uint32(Keys.Attention.HEAD_COUNT.format(arch=self.arch), count)
														
 
															+    def add_head_count(self, count: int | Sequence[int]) -> None:
														
 
															+        if isinstance(count, int):
														
 
															+            self.add_uint32(Keys.Attention.HEAD_COUNT.format(arch=self.arch), count)
														
 
															+        else:
														
 
															+            self.add_array(Keys.Attention.HEAD_COUNT.format(arch=self.arch), count)
														
 
															-    def add_head_count_kv(self, count: int) -> None:
														
 
															-        self.add_uint32(Keys.Attention.HEAD_COUNT_KV.format(arch=self.arch), count)
														
 
															+    def add_head_count_kv(self, count: int | Sequence[int]) -> None:
														
 
															+        if isinstance(count, int):
														
 
															+            self.add_uint32(Keys.Attention.HEAD_COUNT_KV.format(arch=self.arch), count)
														
 
															+        else:
														
 
															+            self.add_array(Keys.Attention.HEAD_COUNT_KV.format(arch=self.arch), count)
														
 
															     def add_key_length(self, length: int) -> None:
														
 
															         self.add_uint32(Keys.Attention.KEY_LENGTH.format(arch=self.arch), length)
														
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@@ -24,6 +24,7 @@ class TensorNameMap:
 
															             "backbone.embedding",                        # mamba
														
 
															             "backbone.embeddings",                       # mamba-hf
														
 
															             "transformer.in_out_embed",                  # Grok
														
 
															+            "transformer.token_embeddings",              # openelm
														
 
															             "shared",                                    # t5
														
 
															         ),
														
@@ -37,6 +38,7 @@ class TensorNameMap:
 
															             "word_embeddings_layernorm",  # bloom
														
 
															             "embeddings.LayerNorm",       # bert
														
 
															             "emb_ln",                     # nomic-bert
														
 
															+            "transformer.norm",           # openelm
														
 
															         ),
														
 
															         # Position embeddings
														
@@ -69,6 +71,7 @@ class TensorNameMap:
 
															             "model.norm_f",                            # mamba-qbert
														
 
															             "backbone.norm_f",                         # mamba
														
 
															             "transformer.rms_norm",                    # Grok
														
 
															+            "transformer.norm",                        # openelm
														
 
															         ),
														
 
															         # Rope frequencies
														
@@ -98,6 +101,7 @@ class TensorNameMap:
 
															             "backbone.layers.{bid}.norm",                           # mamba
														
 
															             "transformer.decoder_layer.{bid}.rms_norm",             # Grok
														
 
															             "transformer.blocks.{bid}.norm_attn_norm.norm_1",       # dbrx
														
 
															+            "transformer.layers.{bid}.attn_norm",                   # openelm
														
 
															         ),
														
 
															         # Attention norm 2
														
@@ -119,7 +123,8 @@ class TensorNameMap:
 
															             "h.{bid}.attn.c_attn",                                                 # gpt2
														
 
															             "transformer.h.{bid}.mixer.Wqkv",                                      # phi2
														
 
															             "encoder.layers.{bid}.attn.Wqkv",                                      # nomic-bert
														
 
															-            "model.layers.{bid}.self_attn.qkv_proj"                                # phi3
														
 
															+            "model.layers.{bid}.self_attn.qkv_proj",                               # phi3
														
 
															+            "transformer.layers.{bid}.attn.qkv_proj",                              # openelm
														
 
															         ),
														
 
															         # Attention query
														
@@ -177,6 +182,7 @@ class TensorNameMap:
 
															             "encoder.layers.{bid}.attn.out_proj",                           # nomic-bert
														
 
															             "transformer.decoder_layer.{bid}.multi_head_attention.linear",  # Grok
														
 
															             "transformer.blocks.{bid}.norm_attn_norm.attn.out_proj",        # dbrx
														
 
															+            "transformer.layers.{bid}.attn.out_proj",                       # openelm
														
 
															         ),
														
 
															         # Attention output norm
														
@@ -212,6 +218,7 @@ class TensorNameMap:
 
															             "h.{bid}.ln_2",                                                  # gpt2
														
 
															             "model.layers.{bid}.ffn_norm",                                   # internlm2
														
 
															             "transformer.decoder_layer.{bid}.rms_norm_2",                    # Grok
														
 
															+            "transformer.layers.{bid}.ffn_norm",                             # openelm
														
 
															         ),
														
 
															         # Post feed-forward norm
														
@@ -327,6 +334,7 @@ class TensorNameMap:
 
															             "encoder.layers.{bid}.mlp.fc2",                           # nomic-bert
														
 
															             "model.layers.{bid}.mlp.c_proj",                          # starcoder2
														
 
															             "encoder.layer.{bid}.mlp.wo",                             # jina-bert-v2
														
 
															+            "transformer.layers.{bid}.ffn.proj_2",                    # openelm
														
 
															             "model.layers.{bid}.residual_mlp.w2",                     # arctic
														
 
															             "encoder.layer.{bid}.mlp.down_layer",                     # jina-bert-v2
														
 
															         ),
														
@@ -348,7 +356,8 @@ class TensorNameMap:
 
															             "model.layers.{bid}.self_attn.q_layernorm",                       # persimmon
														
 
															             "model.layers.{bid}.self_attn.q_norm",                            # cohere
														
 
															             "transformer.blocks.{bid}.attn.q_ln",                             # sea-lion
														
 
															-            "encoder.layer.{bid}.attention.self.layer_norm_q"                 # jina-bert-v2
														
 
															+            "encoder.layer.{bid}.attention.self.layer_norm_q",                # jina-bert-v2
														
 
															+            "transformer.layers.{bid}.attn.q_norm",                           # openelm
														
 
															         ),
														
 
															         MODEL_TENSOR.ATTN_K_NORM: (
														
@@ -356,7 +365,8 @@ class TensorNameMap:
 
															             "model.layers.{bid}.self_attn.k_layernorm",                       # persimmon
														
 
															             "model.layers.{bid}.self_attn.k_norm",                            # cohere
														
 
															             "transformer.blocks.{bid}.attn.k_ln",                             # sea-lion
														
 
															-            "encoder.layer.{bid}.attention.self.layer_norm_k"                 # jina-bert-v2
														
 
															+            "encoder.layer.{bid}.attention.self.layer_norm_k",                # jina-bert-v2
														
 
															+            "transformer.layers.{bid}.attn.k_norm",                           # openelm
														
 
															         ),
														
 
															         MODEL_TENSOR.ROPE_FREQS: (
														
--- a/src/llama.cpp
+++ b/src/llama.cpp