6 месяцев назад · 0aedae00e6
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -4890,6 +4890,9 @@ class Mamba2Model(TextModel):
 
															             with open(dir_model / "config.json", "r", encoding="utf-8") as f:
														
 
															                 hparams = json.load(f)
														
 
															         super().__init__(dir_model, *args, hparams=hparams, **kwargs)
														
 
															+        self.d_model = self.find_hparam(["hidden_size", "d_model", "dim"])
														
 
															+        self.d_inner = self.find_hparam(["mamba_d_ssm", "intermediate_size", "d_inner"], optional=True) or 2 * self.d_model
														
 
															+        self.n_group = self.find_hparam(["n_groups"], optional=True) or 1
														
 
															     def set_vocab(self):
														
 
															         vocab_size = self.hparams["vocab_size"]
														
@@ -4912,12 +4915,9 @@ class Mamba2Model(TextModel):
 
															             self._set_vocab_builtin("gpt-neox", vocab_size)
														
 
															     def set_gguf_parameters(self):
														
 
															-        d_model = self.find_hparam(["hidden_size", "d_model", "dim"])
														
 
															-        d_conv  = self.find_hparam(["conv_kernel",       "d_conv"],  optional=True) or 4
														
 
															-        d_inner = self.find_hparam(["mamba_d_ssm", "intermediate_size", "d_inner"], optional=True) or 2 * d_model
														
 
															-        d_state = self.find_hparam(["state_size",        "d_state"], optional=True) or 128
														
 
															-        head_dim = self.find_hparam(["mamba_d_head", "head_dim"],    optional=True) or 64
														
 
															-        n_group = self.find_hparam(["n_groups"],                     optional=True) or 1
														
 
															+        d_conv  = self.find_hparam(["conv_kernel", "d_conv"],     optional=True) or 4
														
 
															+        d_state = self.find_hparam(["state_size",  "d_state"],    optional=True) or 128
														
 
															+        head_dim = self.find_hparam(["mamba_d_head", "head_dim"], optional=True) or 64
														
 
															         rms_norm_eps = self.find_hparam(["layer_norm_epsilon", "rms_norm_eps"], optional=True) or 1e-5
														
@@ -4925,19 +4925,19 @@ class Mamba2Model(TextModel):
 
															         # TODO: does this really matter?
														
 
															         # skip the assertion for FalconH1 Model
														
 
															         if self.model_arch != gguf.MODEL_ARCH.FALCON_H1:
														
 
															-            assert d_inner == 2 * d_model
														
 
															-            assert d_inner % head_dim == 0
														
 
															+            assert self.d_inner == 2 * self.d_model
														
 
															+            assert self.d_inner % head_dim == 0
														
 
															         self.gguf_writer.add_context_length(2**20)  # arbitrary value; for those who use the default
														
 
															-        self.gguf_writer.add_embedding_length(d_model)
														
 
															+        self.gguf_writer.add_embedding_length(self.d_model)
														
 
															         self.gguf_writer.add_feed_forward_length(0)  # unused, but seemingly required when loading
														
 
															         self.gguf_writer.add_head_count(0)  # unused, but seemingly required when loading
														
 
															         self.gguf_writer.add_block_count(self.block_count)
														
 
															         self.gguf_writer.add_ssm_conv_kernel(d_conv)
														
 
															-        self.gguf_writer.add_ssm_inner_size(d_inner)
														
 
															+        self.gguf_writer.add_ssm_inner_size(self.d_inner)
														
 
															         self.gguf_writer.add_ssm_state_size(d_state)
														
 
															-        self.gguf_writer.add_ssm_time_step_rank(d_inner // head_dim)
														
 
															-        self.gguf_writer.add_ssm_group_count(n_group)
														
 
															+        self.gguf_writer.add_ssm_time_step_rank(self.d_inner // head_dim)
														
 
															+        self.gguf_writer.add_ssm_group_count(self.n_group)
														
 
															         self.gguf_writer.add_layer_norm_rms_eps(rms_norm_eps)
														
 
															         self.gguf_writer.add_file_type(self.ftype)
														
@@ -4962,10 +4962,7 @@ class Mamba2Model(TextModel):
 
															             # (D is also unsqueezed, but for more straightforward broadcast internally)
														
 
															             data_torch = data_torch.reshape((*data_torch.shape, 1))
														
 
															         elif self.match_model_tensor_name(new_name, gguf.MODEL_TENSOR.SSM_NORM, bid):
														
 
															-            d_model = self.find_hparam(["hidden_size", "d_model", "dim"])
														
 
															-            d_inner = self.find_hparam(["mamba_d_ssm", "intermediate_size", "d_inner"], optional=True) or 2 * d_model
														
 
															-            n_group = self.hparams.get("n_groups", 1)
														
 
															-            data_torch = data_torch.reshape((n_group, d_inner // n_group))
														
 
															+            data_torch = data_torch.reshape((self.n_group, self.d_inner // self.n_group))
														
 
															         if name.endswith(".A_log"):
														
 
															             logger.debug("A_log --> A ==> " + new_name)
														
@@ -6452,18 +6449,148 @@ class GraniteMoeModel(GraniteModel):
 
															                 (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP_EXP, bid), up),
														
 
															             ]
														
 
															+        has_experts = bool(self.hparams.get('num_local_experts'))
														
 
															+
														
 
															         if name.endswith("shared_mlp.input_linear.weight"):
														
 
															             ffn_dim = self.hparams["shared_intermediate_size"]
														
 
															             assert data_torch.shape[-2] == 2 * ffn_dim, "Merged FFN tensor size must be 2 * shared_intermediate_size"
														
 
															             gate, up = data_torch.split(ffn_dim, dim=-2)
														
 
															+            if has_experts:
														
 
															+                return [
														
 
															+                    (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_GATE_SHEXP, bid), gate),
														
 
															+                    (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP_SHEXP, bid), up),
														
 
															+                ]
														
 
															             return [
														
 
															-                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_GATE_SHEXP, bid), gate),
														
 
															-                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP_SHEXP, bid), up),
														
 
															+                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_GATE, bid), gate),
														
 
															+                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP, bid), up),
														
 
															+            ]
														
 
															+
														
 
															+        if not has_experts and name.endswith("shared_mlp.output_linear.weight"):
														
 
															+            return [
														
 
															+                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_DOWN, bid), data_torch)
														
 
															             ]
														
 
															         return super().modify_tensors(data_torch, name, bid)
														
 
															+@ModelBase.register("GraniteMoeHybridForCausalLM", "BambaForCausalLM")
														
 
															+class GraniteHybridModel(Mamba2Model, GraniteMoeModel):
														
 
															+    """GraniteHybrid is a hybrid SSM + Attention model that uses Mamba2 SSM
														
 
															+    layers and optionally uses MoE w/ a shared expert"""
														
 
															+    model_arch = gguf.MODEL_ARCH.GRANITE_HYBRID
														
 
															+    undo_permute = True
														
 
															+
														
 
															+    def __init__(self, *args, **kwargs):
														
 
															+
														
 
															+        # Hybrid mamba models use a prefix for the mamba-specific params.
														
 
															+        # TODO: Extend this if the prefix(es) need to be configurable
														
 
															+        self.hparam_prefixes = ["mamba"]
														
 
															+
														
 
															+        super().__init__(*args, **kwargs)
														
 
															+
														
 
															+        # Lists of which layers use ssm vs attention
														
 
															+        self._attn_layers = self.get_attn_layers()
														
 
															+        self._ssm_layers = [
														
 
															+            i for i in range(self.block_count)
														
 
															+            if i not in self._attn_layers
														
 
															+        ]
														
 
															+
														
 
															+        # n_group and d_inner are used during reshape_tensors for mamba2
														
 
															+        self.d_model = self.find_hparam(["hidden_size", "d_model"])
														
 
															+        self.n_group = self.find_hparam(["n_groups"])
														
 
															+        self.d_inner = self.find_hparam(["expand"]) * self.d_model
														
 
															+
														
 
															+    def get_attn_layers(self):
														
 
															+        # Explicit list of layer type names
														
 
															+        if layer_types := self.hparams.get("layer_types"):
														
 
															+            return [
														
 
															+                i for i, typ in enumerate(layer_types)
														
 
															+                if typ == "attention"
														
 
															+            ]
														
 
															+
														
 
															+        # Layer types indicated by index or period
														
 
															+        attn_layers = self.hparams.get("attn_layer_indices", [])
														
 
															+        if not attn_layers:
														
 
															+            attn_period = self.hparams.get("attn_layer_period")
														
 
															+            assert attn_period, "Didn't find attn_layer_indices or attn_layer_period"
														
 
															+            attn_offset = self.hparams.get("attn_layer_offset")
														
 
															+            assert attn_offset is not None, "No attention layer offset set with attn_layer_period"
														
 
															+            attn_layers = [
														
 
															+                i for i in range(self.block_count)
														
 
															+                if i % attn_period == attn_offset
														
 
															+            ]
														
 
															+        return attn_layers
														
 
															+
														
 
															+    def find_hparam(self, keys: Iterable[str], *args, **kwargs) -> Any:
														
 
															+        prefixed = []
														
 
															+        for pfx in self.hparam_prefixes:
														
 
															+            prefixed.extend(
														
 
															+                "_".join([pfx, k])
														
 
															+                for k in keys
														
 
															+            )
														
 
															+        keys = list(keys) + prefixed
														
 
															+        return Mamba2Model.find_hparam(self, keys, *args, **kwargs)
														
 
															+
														
 
															+    def modify_tensors(
														
 
															+        self, data_torch: Tensor, name: str, bid: int | None
														
 
															+    ) -> Iterable[tuple[str, Tensor]]:
														
 
															+        if (
														
 
															+            name.endswith("block_sparse_moe.input_linear.weight")
														
 
															+            or "shared_mlp" in name
														
 
															+        ):
														
 
															+            return GraniteMoeModel.modify_tensors(self, data_torch, name, bid)
														
 
															+
														
 
															+        # Determine whether this is a mamba layer or an attention layer
														
 
															+        if bid in self._ssm_layers:
														
 
															+            return Mamba2Model.modify_tensors(self, data_torch, name, bid)
														
 
															+        elif bid in self._attn_layers:
														
 
															+            return GraniteMoeModel.modify_tensors(self, data_torch, name, bid)
														
 
															+        return [(self.map_tensor_name(name), data_torch)]
														
 
															+
														
 
															+    def set_gguf_parameters(self):
														
 
															+        """This method merges params from both parents and some that are
														
 
															+        specific to this model. The result is some duplication of how the params
														
 
															+        get set. The following warnings are expected during conversion:
														
 
															+
														
 
															+        WARNING:Duplicated key name 'granitehybrid.attention.head_count_kv'
														
 
															+        WARNING:Duplicated key name 'granitehybrid.context_length'
														
 
															+        """
														
 
															+        GraniteMoeModel.set_gguf_parameters(self)
														
 
															+
														
 
															+        ## Mamba mixer params ##
														
 
															+        self.gguf_writer.add_ssm_conv_kernel(self.find_hparam(["conv_kernel", "d_conv"]))
														
 
															+        self.gguf_writer.add_ssm_state_size(self.find_hparam(["state_size", "d_state"]))
														
 
															+        self.gguf_writer.add_ssm_group_count(self.n_group)
														
 
															+        self.gguf_writer.add_ssm_inner_size(self.d_inner)
														
 
															+        # NOTE: The mamba_dt_rank is _not_ the right field for how this is used
														
 
															+        #   in llama.cpp
														
 
															+        self.gguf_writer.add_ssm_time_step_rank(self.find_hparam(["n_heads"]))
														
 
															+
														
 
															+        ## Attention params ##
														
 
															+        head_count_kv = self.find_hparam(["num_key_value_heads", "n_head_kv"])
														
 
															+        head_count_kv_vec = [
														
 
															+            head_count_kv if i in self._attn_layers else 0 for i in range(self.block_count)
														
 
															+        ]
														
 
															+        if rope_dim := self.hparams.get("attn_rotary_emb"):
														
 
															+            self.gguf_writer.add_rope_dimension_count(rope_dim)
														
 
															+        self.gguf_writer.add_head_count_kv(head_count_kv_vec)
														
 
															+
														
 
															+        ## If Bamba, use rope, otherwise don't
														
 
															+        use_rope = "BambaForCausalLM" in self.hparams["architectures"]
														
 
															+        self.gguf_writer.add_rope_scaling_finetuned(use_rope)
														
 
															+        if not use_rope:
														
 
															+            self.gguf_writer.add_context_length(2**20)
														
 
															+
														
 
															+        ## Validation ##
														
 
															+        d_head = self.find_hparam(["d_head"], optional=True) or 64
														
 
															+        assert self.hparams.get("hidden_act") in [None, "silu"], "Only SILU activation supported"
														
 
															+        assert self.d_inner % d_head == 0, f"SSM inner size {self.d_inner} not a multiple of head dim {d_head}"
														
 
															+
														
 
															+    def set_vocab(self):
														
 
															+        self.hparams["pad_vocab_size_multiple"] = 8
														
 
															+        Mamba2Model.set_vocab(self)
														
 
															+
														
 
															+
														
 
															 @ModelBase.register("BailingMoeForCausalLM")
														
 
															 class BailingMoeModel(TextModel):
														
 
															     model_arch = gguf.MODEL_ARCH.BAILINGMOE
														
@@ -6687,7 +6814,7 @@ class FalconH1Model(Mamba2Model):
 
															         # Use Llama conversion for attention
														
 
															         self._transformer_model_class = LlamaModel
														
 
															-        # n_group and d_inner are used during reshape_tensors for mamaba2
														
 
															+        # n_group and d_inner are used during reshape_tensors for mamba2
														
 
															         self.n_group = self.find_hparam(["n_groups"])
														
 
															         self.d_inner = self.find_hparam(["mamba_d_ssm"])
														
 
															         self.d_head = self.find_hparam(["d_head"])
														
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@@ -352,6 +352,7 @@ class MODEL_ARCH(IntEnum):
 
															     EXAONE           = auto()
														
 
															     GRANITE          = auto()
														
 
															     GRANITE_MOE      = auto()
														
 
															+    GRANITE_HYBRID   = auto()
														
 
															     CHAMELEON        = auto()
														
 
															     WAVTOKENIZER_DEC = auto()
														
 
															     PLM              = auto()
														
@@ -661,6 +662,7 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
 
															     MODEL_ARCH.EXAONE:           "exaone",
														
 
															     MODEL_ARCH.GRANITE:          "granite",
														
 
															     MODEL_ARCH.GRANITE_MOE:      "granitemoe",
														
 
															+    MODEL_ARCH.GRANITE_HYBRID:   "granitehybrid",
														
 
															     MODEL_ARCH.CHAMELEON:        "chameleon",
														
 
															     MODEL_ARCH.WAVTOKENIZER_DEC: "wavtokenizer-dec",
														
 
															     MODEL_ARCH.PLM:              "plm",
														
@@ -2143,6 +2145,36 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
 
															         MODEL_TENSOR.FFN_UP_SHEXP,
														
 
															         MODEL_TENSOR.FFN_DOWN_SHEXP,
														
 
															     ],
														
 
															+    MODEL_ARCH.GRANITE_HYBRID: [
														
 
															+        MODEL_TENSOR.TOKEN_EMBD,
														
 
															+        MODEL_TENSOR.OUTPUT_NORM,
														
 
															+        MODEL_TENSOR.OUTPUT,
														
 
															+        MODEL_TENSOR.ATTN_NORM,
														
 
															+        MODEL_TENSOR.SSM_IN,
														
 
															+        MODEL_TENSOR.SSM_CONV1D,
														
 
															+        MODEL_TENSOR.SSM_DT,
														
 
															+        MODEL_TENSOR.SSM_A,
														
 
															+        MODEL_TENSOR.SSM_D,
														
 
															+        MODEL_TENSOR.SSM_NORM,
														
 
															+        MODEL_TENSOR.SSM_OUT,
														
 
															+        MODEL_TENSOR.ATTN_Q,
														
 
															+        MODEL_TENSOR.ATTN_K,
														
 
															+        MODEL_TENSOR.ATTN_V,
														
 
															+        MODEL_TENSOR.ATTN_OUT,
														
 
															+        MODEL_TENSOR.FFN_NORM,
														
 
															+        # MoE
														
 
															+        MODEL_TENSOR.FFN_GATE_INP,
														
 
															+        MODEL_TENSOR.FFN_GATE_EXP,
														
 
															+        MODEL_TENSOR.FFN_DOWN_EXP,
														
 
															+        MODEL_TENSOR.FFN_UP_EXP,
														
 
															+        MODEL_TENSOR.FFN_GATE_SHEXP,
														
 
															+        MODEL_TENSOR.FFN_UP_SHEXP,
														
 
															+        MODEL_TENSOR.FFN_DOWN_SHEXP,
														
 
															+        # Dense
														
 
															+        MODEL_TENSOR.FFN_GATE,
														
 
															+        MODEL_TENSOR.FFN_DOWN,
														
 
															+        MODEL_TENSOR.FFN_UP,
														
 
															+    ],
														
 
															     MODEL_ARCH.CHAMELEON: [
														
 
															         MODEL_TENSOR.TOKEN_EMBD,
														
 
															         MODEL_TENSOR.OUTPUT_NORM,
														
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@@ -13,7 +13,7 @@ class TensorNameMap:
 
															             "transformer.wte",                           # gpt2 gpt-j mpt refact qwen dbrx jais exaone
														
 
															             "transformer.word_embeddings",               # falcon
														
 
															             "word_embeddings",                           # bloom
														
 
															-            "model.embed_tokens",                        # llama-hf nemotron olmoe olmo2 rwkv6qwen2 glm4-0414
														
 
															+            "model.embed_tokens",                        # llama-hf nemotron olmoe olmo2 rwkv6qwen2 glm4-0414 granite-hybrid
														
 
															             "tok_embeddings",                            # llama-pth
														
 
															             "embeddings.word_embeddings",                # bert nomic-bert
														
 
															             "language_model.embedding.word_embeddings",  # persimmon
														
@@ -118,7 +118,7 @@ class TensorNameMap:
 
															             "transformer.h.{bid}.input_layernorm",                  # falcon7b
														
 
															             "h.{bid}.input_layernorm",                              # bloom
														
 
															             "transformer.h.{bid}.ln_mlp",                           # falcon40b
														
 
															-            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe phimoe
														
 
															+            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe phimoe granite-hybrid
														
 
															             "layers.{bid}.attention_norm",                          # llama-pth
														
 
															             "language_model.encoder.layers.{bid}.input_layernorm",  # persimmon
														
 
															             "model.layers.{bid}.ln1",                               # yi
														
@@ -279,7 +279,7 @@ class TensorNameMap:
 
															             "transformer.decoder_layer.{bid}.rms_norm_2",                    # Grok
														
 
															             "encoder.layers.{bid}.post_attention_layernorm",                 # chatglm
														
 
															             "transformer.layers.{bid}.ffn_norm",                             # openelm
														
 
															-            "model.layers.{bid}.pre_ff_layernorm",                           # jamba
														
 
															+            "model.layers.{bid}.pre_ff_layernorm",                           # jamba granite-hybrid
														
 
															             "model.layers.{bid}.pre_moe_layernorm",                          # mini-jamba
														
 
															             "model.layers.{bid}.post_attention_layernorm",                   # llama4
														
 
															             "transformer_encoder.{bid}.ffn_norm",                            # neobert
														
@@ -349,7 +349,7 @@ class TensorNameMap:
 
															             "model.layers.{bid}.residual_mlp.w3",                     # arctic
														
 
															             "encoder.layers.{bid}.mlp.dense_h_to_4h",                 # chatglm
														
 
															             "transformer.h.{bid}.mlp.c_fc_1",                         # exaone
														
 
															-            "model.layers.{bid}.feed_forward.up_proj",                # llama4 jamba
														
 
															+            "model.layers.{bid}.feed_forward.up_proj",                # llama4 jamba granite-hybrid
														
 
															             "transformer_encoder.{bid}.ffn.w12",                      # neobert
														
 
															         ),
														
@@ -389,7 +389,7 @@ class TensorNameMap:
 
															             "transformer.h.{bid}.mlp.linear_1",           # refact
														
 
															             "model.layers.{bid}.residual_mlp.w1",         # arctic
														
 
															             "transformer.h.{bid}.mlp.c_fc_0",             # exaone
														
 
															-            "model.layers.{bid}.feed_forward.gate_proj",  # llama4 jamba
														
 
															+            "model.layers.{bid}.feed_forward.gate_proj",  # llama4 jamba granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.FFN_GATE_EXP: (
														
@@ -435,7 +435,7 @@ class TensorNameMap:
 
															             "encoder.layer.{bid}.mlp.down_layer",                     # jina-bert-v2
														
 
															             "encoder.layers.{bid}.mlp.dense_4h_to_h",                 # chatglm
														
 
															             "model.layers.h.{bid}.mlp.c_proj",                        # exaone
														
 
															-            "model.layers.{bid}.feed_forward.down_proj",              # llama4 jamba
														
 
															+            "model.layers.{bid}.feed_forward.down_proj",              # llama4 jamba granite-hybrid
														
 
															             "transformer_encoder.{bid}.ffn.w3",                       # neobert
														
 
															         ),
														
@@ -558,13 +558,13 @@ class TensorNameMap:
 
															         MODEL_TENSOR.SSM_IN: (
														
 
															             "model.layers.{bid}.in_proj",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.in_proj",  # mamba
														
 
															-            "model.layers.{bid}.mamba.in_proj",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.in_proj",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_CONV1D: (
														
 
															             "model.layers.{bid}.conv1d",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.conv1d",  # mamba
														
 
															-            "model.layers.{bid}.mamba.conv1d",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.conv1d",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_X: (
														
@@ -576,7 +576,7 @@ class TensorNameMap:
 
															         MODEL_TENSOR.SSM_DT: (
														
 
															             "model.layers.{bid}.dt_proj",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.dt_proj",  # mamba
														
 
															-            "model.layers.{bid}.mamba.dt_proj",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.dt_proj",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_DT_NORM: (
														
@@ -586,7 +586,7 @@ class TensorNameMap:
 
															         MODEL_TENSOR.SSM_A: (
														
 
															             "model.layers.{bid}.A_log",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.A_log",  # mamba
														
 
															-            "model.layers.{bid}.mamba.A_log",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.A_log",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_B_NORM: (
														
@@ -602,18 +602,18 @@ class TensorNameMap:
 
															         MODEL_TENSOR.SSM_D: (
														
 
															             "model.layers.{bid}.D",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.D",  # mamba
														
 
															-            "model.layers.{bid}.mamba.D",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.D",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_NORM: (
														
 
															-            "model.layers.{bid}.mamba.norm", # falcon-h1
														
 
															+            "model.layers.{bid}.mamba.norm", # falcon-h1 granite-hybrid
														
 
															             "backbone.layers.{bid}.mixer.norm",  # mamba2
														
 
															         ),
														
 
															         MODEL_TENSOR.SSM_OUT: (
														
 
															             "model.layers.{bid}.out_proj",           # mamba-hf
														
 
															             "backbone.layers.{bid}.mixer.out_proj",  # mamba
														
 
															-            "model.layers.{bid}.mamba.out_proj",     # jamba falcon-h1
														
 
															+            "model.layers.{bid}.mamba.out_proj",     # jamba falcon-h1 granite-hybrid
														
 
															         ),
														
 
															         MODEL_TENSOR.TIME_MIX_W0: (
														
--- a/src/llama-arch.cpp
+++ b/src/llama-arch.cpp
@@ -73,6 +73,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
 
															     { LLM_ARCH_ARWKV7,           "arwkv7"           },
														
 
															     { LLM_ARCH_GRANITE,          "granite"          },
														
 
															     { LLM_ARCH_GRANITE_MOE,      "granitemoe"       },
														
 
															+    { LLM_ARCH_GRANITE_HYBRID,   "granitehybrid"    },
														
 
															     { LLM_ARCH_CHAMELEON,        "chameleon"        },
														
 
															     { LLM_ARCH_WAVTOKENIZER_DEC, "wavtokenizer-dec" },
														
 
															     { LLM_ARCH_PLM,              "plm"              },
														
@@ -154,7 +155,6 @@ static const std::map<llm_kv, const char *> LLM_KV_NAMES = {
 
															     { LLM_KV_ATTENTION_SCALE,                        "%s.attention.scale"                        },
														
 
															     { LLM_KV_ATTENTION_KEY_LENGTH_MLA,               "%s.attention.key_length_mla"               },
														
 
															     { LLM_KV_ATTENTION_VALUE_LENGTH_MLA,             "%s.attention.value_length_mla"             },
														
 
															-    { LLM_KV_ATTENTION_LAYER_INDICES,                "%s.attention.layer_indices"                },
														
 
															     { LLM_KV_ROPE_DIMENSION_COUNT,      "%s.rope.dimension_count"                 },
														
 
															     { LLM_KV_ROPE_DIMENSION_SECTIONS,   "%s.rope.dimension_sections"              },
														
@@ -1641,6 +1641,43 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
 
															             { LLM_TENSOR_FFN_UP_SHEXP,    "blk.%d.ffn_up_shexp" },
														
 
															         },
														
 
															     },
														
 
															+    {
														
 
															+        LLM_ARCH_GRANITE_HYBRID,
														
 
															+        {
														
 
															+            { LLM_TENSOR_TOKEN_EMBD,     "token_embd" },
														
 
															+            { LLM_TENSOR_OUTPUT_NORM,    "output_norm" },
														
 
															+            { LLM_TENSOR_OUTPUT,         "output" },
														
 
															+            { LLM_TENSOR_ATTN_NORM,      "blk.%d.attn_norm" },
														
 
															+            // mamba(2) ssm layers
														
 
															+            { LLM_TENSOR_SSM_IN,         "blk.%d.ssm_in" },
														
 
															+            { LLM_TENSOR_SSM_CONV1D,     "blk.%d.ssm_conv1d" },
														
 
															+            { LLM_TENSOR_SSM_DT,         "blk.%d.ssm_dt" },
														
 
															+            { LLM_TENSOR_SSM_A,          "blk.%d.ssm_a" },
														
 
															+            { LLM_TENSOR_SSM_D,          "blk.%d.ssm_d" },
														
 
															+            { LLM_TENSOR_SSM_NORM,       "blk.%d.ssm_norm" },
														
 
															+            { LLM_TENSOR_SSM_OUT,        "blk.%d.ssm_out" },
														
 
															+            // attention layers
														
 
															+            { LLM_TENSOR_ATTN_Q,         "blk.%d.attn_q" },
														
 
															+            { LLM_TENSOR_ATTN_K,         "blk.%d.attn_k" },
														
 
															+            { LLM_TENSOR_ATTN_V,         "blk.%d.attn_v" },
														
 
															+            { LLM_TENSOR_ATTN_OUT,       "blk.%d.attn_output" },
														
 
															+            // dense FFN
														
 
															+            { LLM_TENSOR_FFN_NORM,       "blk.%d.ffn_norm" },
														
 
															+            { LLM_TENSOR_FFN_GATE,       "blk.%d.ffn_gate" },
														
 
															+            { LLM_TENSOR_FFN_DOWN,       "blk.%d.ffn_down" },
														
 
															+            { LLM_TENSOR_FFN_UP,         "blk.%d.ffn_up" },
														
 
															+            // moe FFN
														
 
															+            { LLM_TENSOR_FFN_NORM,       "blk.%d.ffn_norm" },
														
 
															+            { LLM_TENSOR_FFN_GATE_INP,   "blk.%d.ffn_gate_inp" },
														
 
															+            { LLM_TENSOR_FFN_GATE_EXPS,  "blk.%d.ffn_gate_exps" },
														
 
															+            { LLM_TENSOR_FFN_DOWN_EXPS,  "blk.%d.ffn_down_exps" },
														
 
															+            { LLM_TENSOR_FFN_UP_EXPS,    "blk.%d.ffn_up_exps" },
														
 
															+            // shared expert
														
 
															+            { LLM_TENSOR_FFN_GATE_SHEXP, "blk.%d.ffn_gate_shexp" },
														
 
															+            { LLM_TENSOR_FFN_DOWN_SHEXP, "blk.%d.ffn_down_shexp" },
														
 
															+            { LLM_TENSOR_FFN_UP_SHEXP,   "blk.%d.ffn_up_shexp" },
														
 
															+        },
														
 
															+    },
														
 
															     {
														
 
															         LLM_ARCH_CHAMELEON,
														
 
															         {
														
@@ -2027,10 +2064,10 @@ bool llm_arch_is_recurrent(const llm_arch & arch) {
 
															 }
														
 
															 bool llm_arch_is_hybrid(const llm_arch & arch) {
														
 
															-    // List all mamba-attention hybrid models here
														
 
															     switch (arch) {
														
 
															         case LLM_ARCH_JAMBA:
														
 
															         case LLM_ARCH_FALCON_H1:
														
 
															+        case LLM_ARCH_GRANITE_HYBRID:
														
 
															             return true;
														
 
															         default:
														
 
															             return false;
														
--- a/src/llama-arch.h
+++ b/src/llama-arch.h
@@ -77,6 +77,7 @@ enum llm_arch {
 
															     LLM_ARCH_ARWKV7,
														
 
															     LLM_ARCH_GRANITE,
														
 
															     LLM_ARCH_GRANITE_MOE,
														
 
															+    LLM_ARCH_GRANITE_HYBRID,
														
 
															     LLM_ARCH_CHAMELEON,
														
 
															     LLM_ARCH_WAVTOKENIZER_DEC,
														
 
															     LLM_ARCH_PLM,
														
@@ -158,7 +159,6 @@ enum llm_kv {
 
															     LLM_KV_ATTENTION_SCALE,
														
 
															     LLM_KV_ATTENTION_KEY_LENGTH_MLA,
														
 
															     LLM_KV_ATTENTION_VALUE_LENGTH_MLA,
														
 
															-    LLM_KV_ATTENTION_LAYER_INDICES,
														
 
															     LLM_KV_ROPE_DIMENSION_COUNT,
														
 
															     LLM_KV_ROPE_DIMENSION_SECTIONS,
														
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -1506,6 +1506,11 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
															                 ml.get_key(LLM_KV_EMBEDDING_SCALE,             hparams.f_embedding_scale);
														
 
															                 ml.get_key(LLM_KV_ATTENTION_SCALE,             hparams.f_attention_scale);
														
 
															+                // Granite uses rope_finetuned as a switch for rope, so default to true
														
 
															+                bool rope_finetuned = true;
														
 
															+                ml.get_key(LLM_KV_ROPE_SCALING_FINETUNED, rope_finetuned, false);
														
 
															+                hparams.rope_finetuned = rope_finetuned;
														
 
															+
														
 
															                 switch (hparams.n_layer) {
														
 
															                     case 32: type = LLM_TYPE_3B; break;
														
 
															                     case 40: type = LLM_TYPE_3B; break;
														
@@ -1513,6 +1518,40 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
															                     default: type = LLM_TYPE_UNKNOWN;
														
 
															                 }
														
 
															+                // For Granite MoE Shared
														
 
															+                ml.get_key(LLM_KV_EXPERT_SHARED_FEED_FORWARD_LENGTH, hparams.n_ff_shexp, /* required */ false);
														
 
															+            } break;
														
 
															+        case LLM_ARCH_GRANITE_HYBRID:
														
 
															+            {
														
 
															+                ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
														
 
															+                ml.get_key(LLM_KV_LOGIT_SCALE,                 hparams.f_logit_scale, /* required */ false);
														
 
															+                ml.get_key(LLM_KV_RESIDUAL_SCALE,              hparams.f_residual_scale, /* required */ false);
														
 
															+                ml.get_key(LLM_KV_EMBEDDING_SCALE,             hparams.f_embedding_scale, /* required */ false);
														
 
															+                ml.get_key(LLM_KV_ATTENTION_SCALE,             hparams.f_attention_scale, /* required */ false);
														
 
															+
														
 
															+                ml.get_key(LLM_KV_SSM_CONV_KERNEL,    hparams.ssm_d_conv);
														
 
															+                ml.get_key(LLM_KV_SSM_INNER_SIZE,     hparams.ssm_d_inner);
														
 
															+                ml.get_key(LLM_KV_SSM_STATE_SIZE,     hparams.ssm_d_state);
														
 
															+                ml.get_key(LLM_KV_SSM_TIME_STEP_RANK, hparams.ssm_dt_rank);
														
 
															+                ml.get_key(LLM_KV_SSM_GROUP_COUNT,    hparams.ssm_n_group);
														
 
															+
														
 
															+                // Granite uses rope_finetuned as a switch for rope, so default to true
														
 
															+                bool rope_finetuned = true;
														
 
															+                ml.get_key(LLM_KV_ROPE_SCALING_FINETUNED, rope_finetuned, false);
														
 
															+                hparams.rope_finetuned = rope_finetuned;
														
 
															+
														
 
															+                // A layer is recurrent IFF the n_head_kv value is set to 0
														
 
															+                for (uint32_t i = 0; i < hparams.n_layer; ++i) {
														
 
															+                    hparams.recurrent_layer_arr[i] = hparams.n_head_kv(i) == 0;
														
 
															+                }
														
 
															+
														
 
															+                ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
														
 
															+
														
 
															+                switch (hparams.n_layer) {
														
 
															+                    // TODO: Add llm type label (not sure this is useful)
														
 
															+                    default: type = LLM_TYPE_UNKNOWN;
														
 
															+                }
														
 
															+
														
 
															                 // For Granite MoE Shared
														
 
															                 ml.get_key(LLM_KV_EXPERT_SHARED_FEED_FORWARD_LENGTH, hparams.n_ff_shexp, /* required */ false);
														
 
															             } break;
														
@@ -3364,6 +3403,99 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
 
															                         }
														
 
															                     }
														
 
															                 } break;
														
 
															+            case LLM_ARCH_GRANITE_HYBRID:
														
 
															+                {
														
 
															+                    // mamba2 Mixer SSM params
														
 
															+                    // NOTE: int64_t for tensor dimensions
														
 
															+                    const int64_t d_conv     = hparams.ssm_d_conv;
														
 
															+                    const int64_t d_inner    = hparams.ssm_d_inner;
														
 
															+                    const int64_t d_state    = hparams.ssm_d_state;
														
 
															+                    const int64_t n_ssm_head = hparams.ssm_dt_rank;
														
 
															+                    const int64_t n_group    = hparams.ssm_n_group;
														
 
															+                    const int64_t d_in_proj  = 2*d_inner + 2*n_group*d_state + n_ssm_head;
														
 
															+
														
 
															+                    // only an expansion factor of 2 is supported for now
														
 
															+                    GGML_ASSERT(2 * n_embd == d_inner);
														
 
															+
														
 
															+                    // embeddings
														
 
															+                    tok_embd = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, 0);
														
 
															+
														
 
															+                    // output
														
 
															+                    {
														
 
															+                        output_norm = create_tensor(tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd}, 0);
														
 
															+                        output = create_tensor(tn(LLM_TENSOR_OUTPUT, "weight"), {n_embd, n_vocab}, TENSOR_NOT_REQUIRED);
														
 
															+                        // if output is NULL, init from the input tok embed, duplicated to allow offloading
														
 
															+                        if (output == NULL) {
														
 
															+                            output = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, TENSOR_DUPLICATED);
														
 
															+                        }
														
 
															+                    }
														
 
															+
														
 
															+                    for (int i = 0; i < n_layer; ++i) {
														
 
															+                        auto & layer = layers[i];
														
 
															+
														
 
															+                        // norm
														
 
															+                        layer.attn_norm = create_tensor(tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, 0);
														
 
															+
														
 
															+                        if (hparams.is_recurrent(i)) {
														
 
															+                            // ssm layers
														
 
															+                            layer.ssm_in = create_tensor(tn(LLM_TENSOR_SSM_IN, "weight", i), {n_embd, d_in_proj}, 0);
														
 
															+
														
 
															+                            layer.ssm_conv1d = create_tensor(tn(LLM_TENSOR_SSM_CONV1D, "weight", i), {d_conv, d_inner + 2*n_group*d_state}, 0);
														
 
															+                            layer.ssm_conv1d_b = create_tensor(tn(LLM_TENSOR_SSM_CONV1D, "bias", i), {d_inner + 2*n_group*d_state}, TENSOR_NOT_REQUIRED);
														
 
															+
														
 
															+                            layer.ssm_dt_b = create_tensor(tn(LLM_TENSOR_SSM_DT, "bias", i), {n_ssm_head}, 0);
														
 
															+
														
 
															+                            // no "weight" suffix for these
														
 
															+                            layer.ssm_a = create_tensor(tn(LLM_TENSOR_SSM_A, i), {1, n_ssm_head}, 0);
														
 
															+                            layer.ssm_d = create_tensor(tn(LLM_TENSOR_SSM_D, i), {1, n_ssm_head}, 0);
														
 
															+
														
 
															+                            layer.ssm_norm = create_tensor(tn(LLM_TENSOR_SSM_NORM, "weight", i), {d_inner / n_group, n_group}, 0);
														
 
															+
														
 
															+                            // out_proj
														
 
															+                            layer.ssm_out = create_tensor(tn(LLM_TENSOR_SSM_OUT, "weight", i), {d_inner, n_embd}, 0);
														
 
															+                        } else {
														
 
															+                            // attention layers (with optional bias)
														
 
															+                            const int64_t n_head_i = hparams.n_head(i);
														
 
															+                            const int64_t n_embd_k_gqa_i = hparams.n_embd_k_gqa(i);
														
 
															+                            const int64_t n_embd_v_gqa_i = hparams.n_embd_v_gqa(i);
														
 
															+                            layer.wq = create_tensor(tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd_head_k * n_head_i}, 0);
														
 
															+                            layer.wk = create_tensor(tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_k_gqa_i}, 0);
														
 
															+                            layer.wv = create_tensor(tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_v_gqa_i}, 0);
														
 
															+                            layer.wo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd_head_k * n_head_i, n_embd}, 0);
														
 
															+                            layer.bq = create_tensor(tn(LLM_TENSOR_ATTN_Q,   "bias", i), {n_embd},         TENSOR_NOT_REQUIRED);
														
 
															+                            layer.bk = create_tensor(tn(LLM_TENSOR_ATTN_K,   "bias", i), {n_embd_k_gqa_i}, TENSOR_NOT_REQUIRED);
														
 
															+                            layer.bv = create_tensor(tn(LLM_TENSOR_ATTN_V,   "bias", i), {n_embd_v_gqa_i}, TENSOR_NOT_REQUIRED);
														
 
															+                            layer.bo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "bias", i), {n_embd},         TENSOR_NOT_REQUIRED);
														
 
															+                        }
														
 
															+
														
 
															+                        // feed forward (w/ optional biases)
														
 
															+                        if (n_expert > 0) {
														
 
															+                            // MoE FFN
														
 
															+                            layer.ffn_norm = create_tensor(tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, 0);
														
 
															+                            layer.rope_freqs = create_tensor(tn(LLM_TENSOR_ROPE_FREQS, "weight", i), {n_rot/2}, TENSOR_NOT_REQUIRED | (i != 0 ? TENSOR_DUPLICATED : 0));
														
 
															+                            layer.ffn_gate_inp  = create_tensor(tn(LLM_TENSOR_FFN_GATE_INP,  "weight", i), {n_embd, n_expert}, 0);
														
 
															+                            layer.ffn_gate_exps = create_tensor(tn(LLM_TENSOR_FFN_GATE_EXPS, "weight", i), {n_embd,   n_ff, n_expert}, TENSOR_NOT_REQUIRED);
														
 
															+                            layer.ffn_down_exps = create_tensor(tn(LLM_TENSOR_FFN_DOWN_EXPS, "weight", i), {  n_ff, n_embd, n_expert}, 0);
														
 
															+                            layer.ffn_up_exps   = create_tensor(tn(LLM_TENSOR_FFN_UP_EXPS,   "weight", i), {n_embd,   n_ff, n_expert}, 0);
														
 
															+
														
 
															+                            // For Granite MoE Shared
														
 
															+                            if (hparams.n_ff_shexp > 0) {
														
 
															+                                layer.ffn_gate_shexp = create_tensor(tn(LLM_TENSOR_FFN_GATE_SHEXP, "weight", i), {n_embd, hparams.n_ff_shexp}, 0);
														
 
															+                                layer.ffn_up_shexp   = create_tensor(tn(LLM_TENSOR_FFN_UP_SHEXP,   "weight", i), {n_embd, hparams.n_ff_shexp}, 0);
														
 
															+                                layer.ffn_down_shexp = create_tensor(tn(LLM_TENSOR_FFN_DOWN_SHEXP, "weight", i), {hparams.n_ff_shexp, n_embd}, 0);
														
 
															+                            }
														
 
															+                        } else {
														
 
															+                            layer.ffn_norm = create_tensor(tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, 0);
														
 
															+                            layer.rope_freqs = create_tensor(tn(LLM_TENSOR_ROPE_FREQS, "weight", i), {n_rot/2}, TENSOR_NOT_REQUIRED | (i != 0 ? TENSOR_DUPLICATED : 0));
														
 
															+                            layer.ffn_gate = create_tensor(tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, 0);
														
 
															+                            layer.ffn_down = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, 0);
														
 
															+                            layer.ffn_up   = create_tensor(tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, 0);
														
 
															+                            layer.ffn_gate_b = create_tensor(tn(LLM_TENSOR_FFN_GATE, "bias", i), {n_ff}, TENSOR_NOT_REQUIRED);
														
 
															+                            layer.ffn_down_b = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "bias", i), {n_embd}, TENSOR_NOT_REQUIRED);
														
 
															+                            layer.ffn_up_b   = create_tensor(tn(LLM_TENSOR_FFN_UP,   "bias", i), {n_ff}, TENSOR_NOT_REQUIRED);
														
 
															+                        }
														
 
															+                    }
														
 
															+                } break;
														
 
															             case LLM_ARCH_XVERSE:
														
 
															                 {
														
 
															                     tok_embd = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, 0);
														
@@ -5026,7 +5158,8 @@ void llama_model::print_info() const {
 
															     if (arch == LLM_ARCH_MAMBA ||
														
 
															         arch == LLM_ARCH_MAMBA2 ||
														
 
															         arch == LLM_ARCH_JAMBA ||
														
 
															-        arch == LLM_ARCH_FALCON_H1) {
														
 
															+        arch == LLM_ARCH_FALCON_H1 ||
														
 
															+        arch == LLM_ARCH_GRANITE_HYBRID) {
														
 
															         LLAMA_LOG_INFO("%s: ssm_d_conv       = %u\n",     __func__, hparams.ssm_d_conv);
														
 
															         LLAMA_LOG_INFO("%s: ssm_d_inner      = %u\n",     __func__, hparams.ssm_d_inner);
														
 
															         LLAMA_LOG_INFO("%s: ssm_d_state      = %u\n",     __func__, hparams.ssm_d_state);
														
@@ -5081,7 +5214,8 @@ void llama_model::print_info() const {
 
															     if (arch == LLM_ARCH_MINICPM ||
														
 
															         arch == LLM_ARCH_GRANITE ||
														
 
															-        arch == LLM_ARCH_GRANITE_MOE) {
														
 
															+        arch == LLM_ARCH_GRANITE_MOE ||
														
 
															+        arch == LLM_ARCH_GRANITE_HYBRID) {
														
 
															         LLAMA_LOG_INFO("%s: f_embedding_scale = %f\n", __func__, hparams.f_embedding_scale);
														
 
															         LLAMA_LOG_INFO("%s: f_residual_scale  = %f\n", __func__, hparams.f_residual_scale);
														
 
															         LLAMA_LOG_INFO("%s: f_attention_scale = %f\n", __func__, hparams.f_attention_scale);
														
@@ -13797,13 +13931,11 @@ struct llm_build_arwkv7 : public llm_build_rwkv7_base {
 
															     }
														
 
															 };
														
 
															-
														
 
															 struct llm_build_granite : public llm_graph_context {
														
 
															     llm_build_granite(
														
 
															         const llama_model & model,
														
 
															         const llm_graph_params & params,
														
 
															-        ggml_cgraph * gf,
														
 
															-        const bool use_rope = true)
														
 
															+        ggml_cgraph * gf)
														
 
															         : llm_graph_context(params) {
														
 
															         const int64_t n_embd_head = hparams.n_embd_head_v;
														
@@ -13818,14 +13950,12 @@ struct llm_build_granite : public llm_graph_context {
 
															         // inp_pos - built only if rope enabled
														
 
															         ggml_tensor * inp_pos = nullptr;
														
 
															-        if (use_rope) {
														
 
															+        if (hparams.rope_finetuned) {
														
 
															             inp_pos = build_inp_pos();
														
 
															         }
														
 
															         auto * inp_attn = build_attn_inp_kv_unified();
														
 
															-        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
														
 
															-
														
 
															         ggml_tensor * inp_out_ids = build_inp_out_ids();
														
 
															         for (int il = 0; il < n_layer; ++il) {
														
@@ -13838,128 +13968,237 @@ struct llm_build_granite : public llm_graph_context {
 
															             cb(cur, "attn_norm", il);
														
 
															             // self-attention
														
 
															-            {
														
 
															-                // compute Q and K and (optionally) RoPE them
														
 
															-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
														
 
															-                cb(Qcur, "Qcur", il);
														
 
															-                if (model.layers[il].bq) {
														
 
															-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
														
 
															-                    cb(Qcur, "Qcur", il);
														
 
															-                }
														
 
															+            cur = build_attention_layer(
														
 
															+                gf, cur, inp_pos, inp_attn,
														
 
															+                model, n_embd_head, il);
														
 
															-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
														
 
															-                cb(Kcur, "Kcur", il);
														
 
															-                if (model.layers[il].bk) {
														
 
															-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
														
 
															-                    cb(Kcur, "Kcur", il);
														
 
															-                }
														
 
															+            if (il == n_layer - 1 && inp_out_ids) {
														
 
															+                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
														
 
															+                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
														
 
															+            }
														
 
															-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
														
 
															-                cb(Vcur, "Vcur", il);
														
 
															-                if (model.layers[il].bv) {
														
 
															-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
														
 
															-                    cb(Vcur, "Vcur", il);
														
 
															-                }
														
 
															+            // ffn
														
 
															+            cur = build_layer_ffn(cur, inpSA, model, il);
														
 
															-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
														
 
															-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
														
 
															-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
														
 
															+            // input for next layer
														
 
															+            inpL = cur;
														
 
															+        }
														
 
															-                if (use_rope) {
														
 
															-                    ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
														
 
															-                    Qcur = ggml_rope_ext(
														
 
															-                            ctx0, Qcur, inp_pos, rope_factors,
														
 
															-                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															-                            ext_factor, attn_factor, beta_fast, beta_slow
														
 
															-                            );
														
 
															+        cur = inpL;
														
 
															-                    Kcur = ggml_rope_ext(
														
 
															-                            ctx0, Kcur, inp_pos, rope_factors,
														
 
															-                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															-                            ext_factor, attn_factor, beta_fast, beta_slow
														
 
															-                            );
														
 
															-                }
														
 
															+        cur = build_norm(cur,
														
 
															+                model.output_norm, NULL,
														
 
															+                LLM_NORM_RMS, -1);
														
 
															-                cb(Qcur, "Qcur", il);
														
 
															-                cb(Kcur, "Kcur", il);
														
 
															-                cb(Vcur, "Vcur", il);
														
 
															+        cb(cur, "result_norm", -1);
														
 
															+        res->t_embd = cur;
														
 
															-                cur = build_attn(inp_attn, gf,
														
 
															-                        model.layers[il].wo, model.layers[il].bo,
														
 
															-                        Qcur, Kcur, Vcur, nullptr, nullptr, kq_scale, il);
														
 
															+        // lm_head
														
 
															+        cur = build_lora_mm(model.output, cur);
														
 
															+
														
 
															+        // For Granite architectures - scale logits
														
 
															+        cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_logit_scale);
														
 
															+        cb(cur, "result_output", -1);
														
 
															+        res->t_logits = cur;
														
 
															+
														
 
															+        ggml_build_forward_expand(gf, cur);
														
 
															+    }
														
 
															+
														
 
															+    ggml_tensor * build_attention_layer(
														
 
															+              ggml_cgraph                     * gf,
														
 
															+              ggml_tensor                     * cur,
														
 
															+              ggml_tensor                     * inp_pos,
														
 
															+              llm_graph_input_attn_kv_unified * inp_attn,
														
 
															+        const llama_model                     & model,
														
 
															+        const int64_t                           n_embd_head,
														
 
															+        const int                               il) {
														
 
															+
														
 
															+        // compute Q and K and (optionally) RoPE them
														
 
															+        ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
														
 
															+        cb(Qcur, "Qcur", il);
														
 
															+        if (model.layers[il].bq) {
														
 
															+            Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
														
 
															+            cb(Qcur, "Qcur", il);
														
 
															+        }
														
 
															+
														
 
															+        ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
														
 
															+        cb(Kcur, "Kcur", il);
														
 
															+        if (model.layers[il].bk) {
														
 
															+            Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
														
 
															+            cb(Kcur, "Kcur", il);
														
 
															+        }
														
 
															+
														
 
															+        ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
														
 
															+        cb(Vcur, "Vcur", il);
														
 
															+        if (model.layers[il].bv) {
														
 
															+            Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
														
 
															+            cb(Vcur, "Vcur", il);
														
 
															+        }
														
 
															+
														
 
															+        Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, hparams.n_head(il),    n_tokens);
														
 
															+        Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, hparams.n_head_kv(il), n_tokens);
														
 
															+        Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, hparams.n_head_kv(il), n_tokens);
														
 
															+
														
 
															+        const bool use_rope = hparams.rope_finetuned;
														
 
															+        if (use_rope) {
														
 
															+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
														
 
															+            Qcur = ggml_rope_ext(
														
 
															+                    ctx0, Qcur, inp_pos, rope_factors,
														
 
															+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															+                    ext_factor, attn_factor, beta_fast, beta_slow
														
 
															+                    );
														
 
															+
														
 
															+            Kcur = ggml_rope_ext(
														
 
															+                    ctx0, Kcur, inp_pos, rope_factors,
														
 
															+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															+                    ext_factor, attn_factor, beta_fast, beta_slow
														
 
															+                    );
														
 
															+        }
														
 
															+
														
 
															+        cb(Qcur, "Qcur", il);
														
 
															+        cb(Kcur, "Kcur", il);
														
 
															+        cb(Vcur, "Vcur", il);
														
 
															+
														
 
															+        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
														
 
															+        cur = build_attn(inp_attn, gf,
														
 
															+                model.layers[il].wo, model.layers[il].bo,
														
 
															+                Qcur, Kcur, Vcur, nullptr, nullptr, kq_scale, il);
														
 
															                 cb(cur, "attn_out", il);
														
 
															-            }
														
 
															+        return cur;
														
 
															+    }
														
 
															-            if (il == n_layer - 1 && inp_out_ids) {
														
 
															-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
														
 
															-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
														
 
															-            }
														
 
															+    ggml_tensor * build_layer_ffn(
														
 
															+              ggml_tensor       * cur,
														
 
															+              ggml_tensor       * inpSA,
														
 
															+        const llama_model       & model,
														
 
															+        const int                 il) {
														
 
															-            // For Granite architectures - scale residual
														
 
															+        // For Granite architectures - scale residual
														
 
															+        if (hparams.f_residual_scale) {
														
 
															             cur = ggml_scale(ctx0, cur, hparams.f_residual_scale);
														
 
															-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
														
 
															-            cb(ffn_inp, "ffn_inp", il);
														
 
															+        }
														
 
															+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
														
 
															+        cb(ffn_inp, "ffn_inp", il);
														
 
															-            // feed-forward network (non-MoE)
														
 
															-            if (model.layers[il].ffn_gate_inp == nullptr) {
														
 
															+        // feed-forward network (non-MoE)
														
 
															+        if (model.layers[il].ffn_gate_inp == nullptr) {
														
 
															-                cur = build_norm(ffn_inp,
														
 
															-                        model.layers[il].ffn_norm, NULL,
														
 
															-                        LLM_NORM_RMS, il);
														
 
															-                cb(cur, "ffn_norm", il);
														
 
															+            cur = build_norm(ffn_inp,
														
 
															+                    model.layers[il].ffn_norm, NULL,
														
 
															+                    LLM_NORM_RMS, il);
														
 
															+                    cb(cur, "ffn_norm", il);
														
 
															-                cur = build_ffn(cur,
														
 
															-                        model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
														
 
															-                        model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
														
 
															-                        model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
														
 
															-                        NULL,
														
 
															-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															-                cb(cur, "ffn_out", il);
														
 
															+            cur = build_ffn(cur,
														
 
															+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
														
 
															+                    model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
														
 
															+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
														
 
															+                    NULL,
														
 
															+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															+                    cb(cur, "ffn_out", il);
														
 
															-            } else {
														
 
															-                // MoE branch
														
 
															-                cur = build_norm(ffn_inp,
														
 
															-                        model.layers[il].ffn_norm, NULL,
														
 
															-                        LLM_NORM_RMS, il);
														
 
															-                cb(cur, "ffn_norm", il);
														
 
															+        } else {
														
 
															+            // MoE branch
														
 
															+            cur = build_norm(ffn_inp,
														
 
															+                    model.layers[il].ffn_norm, NULL,
														
 
															+                    LLM_NORM_RMS, il);
														
 
															+                    cb(cur, "ffn_norm", il);
														
 
															-                ggml_tensor * moe_out = build_moe_ffn(cur,
														
 
															-                        model.layers[il].ffn_gate_inp,
														
 
															-                        model.layers[il].ffn_up_exps,
														
 
															-                        model.layers[il].ffn_gate_exps,
														
 
															-                        model.layers[il].ffn_down_exps,
														
 
															-                        nullptr,
														
 
															-                        n_expert, n_expert_used,
														
 
															-                        LLM_FFN_SILU, true,
														
 
															-                        false, 0.0,
														
 
															-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
														
 
															-                        il);
														
 
															-                cb(moe_out, "ffn_moe_out", il);
														
 
															+            ggml_tensor * moe_out = build_moe_ffn(cur,
														
 
															+                    model.layers[il].ffn_gate_inp,
														
 
															+                    model.layers[il].ffn_up_exps,
														
 
															+                    model.layers[il].ffn_gate_exps,
														
 
															+                    model.layers[il].ffn_down_exps,
														
 
															+                    nullptr,
														
 
															+                    n_expert, n_expert_used,
														
 
															+                    LLM_FFN_SILU, true,
														
 
															+                    false, 0.0,
														
 
															+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
														
 
															+                    il);
														
 
															+            cb(moe_out, "ffn_moe_out", il);
														
 
															-                // For Granite MoE Shared
														
 
															-                if (hparams.n_ff_shexp > 0) {
														
 
															-                    ggml_tensor * ffn_shexp = build_ffn(cur,
														
 
															-                        model.layers[il].ffn_up_shexp,   NULL, NULL,
														
 
															-                        model.layers[il].ffn_gate_shexp, NULL, NULL,
														
 
															-                        model.layers[il].ffn_down_shexp, NULL, NULL,
														
 
															-                        NULL,
														
 
															-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															-                    cb(ffn_shexp, "ffn_shexp", il);
														
 
															+            // For Granite MoE Shared
														
 
															+            if (hparams.n_ff_shexp > 0) {
														
 
															+                ggml_tensor * ffn_shexp = build_ffn(cur,
														
 
															+                    model.layers[il].ffn_up_shexp,   NULL, NULL,
														
 
															+                    model.layers[il].ffn_gate_shexp, NULL, NULL,
														
 
															+                    model.layers[il].ffn_down_shexp, NULL, NULL,
														
 
															+                    NULL,
														
 
															+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															+                cb(ffn_shexp, "ffn_shexp", il);
														
 
															-                    cur = ggml_add(ctx0, moe_out, ffn_shexp);
														
 
															-                    cb(cur, "ffn_out", il);
														
 
															-                } else {
														
 
															-                    cur = moe_out;
														
 
															-                }
														
 
															+                cur = ggml_add(ctx0, moe_out, ffn_shexp);
														
 
															+                cb(cur, "ffn_out", il);
														
 
															+            } else {
														
 
															+                cur = moe_out;
														
 
															             }
														
 
															+        }
														
 
															-            // For Granite architectures - scale residual
														
 
															+        // For Granite architectures - scale residual
														
 
															+        if (hparams.f_residual_scale) {
														
 
															             cur = ggml_scale(ctx0, cur, hparams.f_residual_scale);
														
 
															-            cur = ggml_add(ctx0, cur, ffn_inp);
														
 
															-            cb(cur, "ffn_out", il);
														
 
															+        }
														
 
															+        cur = ggml_add(ctx0, cur, ffn_inp);
														
 
															+        cb(cur, "ffn_out", il);
														
 
															-            cur = build_cvec(cur, il);
														
 
															-            cb(cur, "l_out", il);
														
 
															+        cur = build_cvec(cur, il);
														
 
															+        cb(cur, "l_out", il);
														
 
															+
														
 
															+        return cur;
														
 
															+    }
														
 
															+};
														
 
															+
														
 
															+struct llm_build_granite_hybrid : public llm_graph_context_mamba {
														
 
															+
														
 
															+    llm_build_granite_hybrid(
														
 
															+                 const llama_model & model,
														
 
															+            const llm_graph_params & params,
														
 
															+                       ggml_cgraph * gf) :
														
 
															+        llm_graph_context_mamba(params) {
														
 
															+
														
 
															+        const int64_t n_embd_head = hparams.n_embd_head_v;
														
 
															+        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
														
 
															+
														
 
															+        ggml_tensor * cur;
														
 
															+        ggml_tensor * inpL;
														
 
															+
														
 
															+        inpL = build_inp_embd(model.tok_embd);
														
 
															+
														
 
															+        auto * inp = build_inp_mem_hybrid();
														
 
															+
														
 
															+        ggml_tensor * inp_out_ids = build_inp_out_ids();
														
 
															+
														
 
															+        // Positional embeddings populated if rope enabled
														
 
															+        ggml_tensor * inp_pos = nullptr;
														
 
															+        if (hparams.rope_finetuned) {
														
 
															+            inp_pos = build_inp_pos();
														
 
															+        }
														
 
															+
														
 
															+        for (int il = 0; il < n_layer; ++il) {
														
 
															+            struct ggml_tensor * inpSA = inpL;
														
 
															+
														
 
															+            // norm
														
 
															+            cur = build_norm(inpL,
														
 
															+                    model.layers[il].attn_norm, NULL,
														
 
															+                    LLM_NORM_RMS, il);
														
 
															+            cb(cur, "attn_norm", il);
														
 
															+
														
 
															+            if (hparams.is_recurrent(il)) {
														
 
															+                // ssm layer //
														
 
															+                cur = build_mamba2_layer(inp->get_recr(), gf, cur, model, ubatch, il);
														
 
															+            } else {
														
 
															+                // attention layer //
														
 
															+                cur = build_attention_layer(
														
 
															+                    gf, cur, inp_pos, inp->get_attn(), model,
														
 
															+                    n_embd_head, il);
														
 
															+            }
														
 
															+
														
 
															+            if (il == n_layer - 1 && inp_out_ids) {
														
 
															+                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
														
 
															+                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
														
 
															+            }
														
 
															+
														
 
															+            // ffn
														
 
															+            cur = build_layer_ffn(cur, inpSA, model, il);
														
 
															             // input for next layer
														
 
															             inpL = cur;
														
@@ -13978,12 +14217,156 @@ struct llm_build_granite : public llm_graph_context {
 
															         cur = build_lora_mm(model.output, cur);
														
 
															         // For Granite architectures - scale logits
														
 
															-        cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_logit_scale);
														
 
															+        if (hparams.f_logit_scale) {
														
 
															+            cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_logit_scale);
														
 
															+        }
														
 
															         cb(cur, "result_output", -1);
														
 
															         res->t_logits = cur;
														
 
															         ggml_build_forward_expand(gf, cur);
														
 
															     }
														
 
															+
														
 
															+    ggml_tensor * build_attention_layer(
														
 
															+              ggml_cgraph                     * gf,
														
 
															+              ggml_tensor                     * cur,
														
 
															+              ggml_tensor                     * inp_pos,
														
 
															+              llm_graph_input_attn_kv_unified * inp_attn,
														
 
															+        const llama_model                     & model,
														
 
															+        const int64_t                           n_embd_head,
														
 
															+        const int                               il) {
														
 
															+
														
 
															+        // compute Q and K and (optionally) RoPE them
														
 
															+        ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
														
 
															+        cb(Qcur, "Qcur", il);
														
 
															+        if (model.layers[il].bq) {
														
 
															+            Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
														
 
															+            cb(Qcur, "Qcur", il);
														
 
															+        }
														
 
															+
														
 
															+        ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
														
 
															+        cb(Kcur, "Kcur", il);
														
 
															+        if (model.layers[il].bk) {
														
 
															+            Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
														
 
															+            cb(Kcur, "Kcur", il);
														
 
															+        }
														
 
															+
														
 
															+        ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
														
 
															+        cb(Vcur, "Vcur", il);
														
 
															+        if (model.layers[il].bv) {
														
 
															+            Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
														
 
															+            cb(Vcur, "Vcur", il);
														
 
															+        }
														
 
															+
														
 
															+        Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, hparams.n_head(il),    n_tokens);
														
 
															+        Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, hparams.n_head_kv(il), n_tokens);
														
 
															+        Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, hparams.n_head_kv(il), n_tokens);
														
 
															+
														
 
															+        const bool use_rope = hparams.rope_finetuned;
														
 
															+        if (use_rope) {
														
 
															+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
														
 
															+            Qcur = ggml_rope_ext(
														
 
															+                    ctx0, Qcur, inp_pos, rope_factors,
														
 
															+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															+                    ext_factor, attn_factor, beta_fast, beta_slow
														
 
															+                    );
														
 
															+
														
 
															+            Kcur = ggml_rope_ext(
														
 
															+                    ctx0, Kcur, inp_pos, rope_factors,
														
 
															+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
														
 
															+                    ext_factor, attn_factor, beta_fast, beta_slow
														
 
															+                    );
														
 
															+        }
														
 
															+
														
 
															+        cb(Qcur, "Qcur", il);
														
 
															+        cb(Kcur, "Kcur", il);
														
 
															+        cb(Vcur, "Vcur", il);
														
 
															+
														
 
															+        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
														
 
															+        cur = build_attn(inp_attn, gf,
														
 
															+                model.layers[il].wo, model.layers[il].bo,
														
 
															+                Qcur, Kcur, Vcur, nullptr, nullptr, kq_scale, il);
														
 
															+                cb(cur, "attn_out", il);
														
 
															+        return cur;
														
 
															+    }
														
 
															+
														
 
															+    ggml_tensor * build_layer_ffn(
														
 
															+              ggml_tensor       * cur,
														
 
															+              ggml_tensor       * inpSA,
														
 
															+        const llama_model       & model,
														
 
															+        const int                 il) {
														
 
															+
														
 
															+        // For Granite architectures - scale residual
														
 
															+        if (hparams.f_residual_scale) {
														
 
															+            cur = ggml_scale(ctx0, cur, hparams.f_residual_scale);
														
 
															+        }
														
 
															+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
														
 
															+        cb(ffn_inp, "ffn_inp", il);
														
 
															+
														
 
															+        // feed-forward network (non-MoE)
														
 
															+        if (model.layers[il].ffn_gate_inp == nullptr) {
														
 
															+
														
 
															+            cur = build_norm(ffn_inp,
														
 
															+                    model.layers[il].ffn_norm, NULL,
														
 
															+                    LLM_NORM_RMS, il);
														
 
															+                    cb(cur, "ffn_norm", il);
														
 
															+
														
 
															+            cur = build_ffn(cur,
														
 
															+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
														
 
															+                    model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
														
 
															+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
														
 
															+                    NULL,
														
 
															+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															+                    cb(cur, "ffn_out", il);
														
 
															+
														
 
															+        } else {
														
 
															+            // MoE branch
														
 
															+            cur = build_norm(ffn_inp,
														
 
															+                    model.layers[il].ffn_norm, NULL,
														
 
															+                    LLM_NORM_RMS, il);
														
 
															+                    cb(cur, "ffn_norm", il);
														
 
															+
														
 
															+            ggml_tensor * moe_out = build_moe_ffn(cur,
														
 
															+                    model.layers[il].ffn_gate_inp,
														
 
															+                    model.layers[il].ffn_up_exps,
														
 
															+                    model.layers[il].ffn_gate_exps,
														
 
															+                    model.layers[il].ffn_down_exps,
														
 
															+                    nullptr,
														
 
															+                    n_expert, n_expert_used,
														
 
															+                    LLM_FFN_SILU, true,
														
 
															+                    false, 0.0,
														
 
															+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
														
 
															+                    il);
														
 
															+            cb(moe_out, "ffn_moe_out", il);
														
 
															+
														
 
															+            // For Granite MoE Shared
														
 
															+            if (hparams.n_ff_shexp > 0) {
														
 
															+                ggml_tensor * ffn_shexp = build_ffn(cur,
														
 
															+                    model.layers[il].ffn_up_shexp,   NULL, NULL,
														
 
															+                    model.layers[il].ffn_gate_shexp, NULL, NULL,
														
 
															+                    model.layers[il].ffn_down_shexp, NULL, NULL,
														
 
															+                    NULL,
														
 
															+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
														
 
															+                cb(ffn_shexp, "ffn_shexp", il);
														
 
															+
														
 
															+                cur = ggml_add(ctx0, moe_out, ffn_shexp);
														
 
															+                cb(cur, "ffn_out", il);
														
 
															+            } else {
														
 
															+                cur = moe_out;
														
 
															+            }
														
 
															+        }
														
 
															+
														
 
															+        // For Granite architectures - scale residual
														
 
															+        if (hparams.f_residual_scale) {
														
 
															+            cur = ggml_scale(ctx0, cur, hparams.f_residual_scale);
														
 
															+        }
														
 
															+        cur = ggml_add(ctx0, cur, ffn_inp);
														
 
															+        cb(cur, "ffn_out", il);
														
 
															+
														
 
															+        cur = build_cvec(cur, il);
														
 
															+        cb(cur, "l_out", il);
														
 
															+
														
 
															+        return cur;
														
 
															+    }
														
 
															 };
														
 
															 // ref: https://github.com/facebookresearch/chameleon
														
@@ -15834,6 +16217,10 @@ llm_graph_result_ptr llama_model::build_graph(
 
															             {
														
 
															                 llm = std::make_unique<llm_build_granite>(*this, params, gf);
														
 
															             } break;
														
 
															+        case LLM_ARCH_GRANITE_HYBRID:
														
 
															+            {
														
 
															+                llm = std::make_unique<llm_build_granite_hybrid>(*this, params, gf);
														
 
															+            } break;
														
 
															         case LLM_ARCH_CHAMELEON:
														
 
															             {
														
 
															                 llm = std::make_unique<llm_build_chameleon>(*this, params, gf);
														
@@ -16023,6 +16410,7 @@ llama_rope_type llama_model_rope_type(const llama_model * model) {
 
															         case LLM_ARCH_GLM4:
														
 
															         case LLM_ARCH_GRANITE:
														
 
															         case LLM_ARCH_GRANITE_MOE:
														
 
															+        case LLM_ARCH_GRANITE_HYBRID:
														
 
															         case LLM_ARCH_CHAMELEON:
														
 
															         case LLM_ARCH_BAILINGMOE:
														
 
															         case LLM_ARCH_NEO_BERT: