hace 2 meses · b164259bba
--- a/src/models/gemma2-iswa.cpp
+++ b/src/models/gemma2-iswa.cpp
@@ -1,125 +1,125 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_gemma2_iswa::llm_build_gemma2_iswa(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_k;
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        inpL = ggml_scale(ctx0, inpL, sqrtf(n_embd));
			
 
				-        cb(inpL, "inp_scaled", -1);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_scale(ctx0, Qcur, hparams.f_attention_scale);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_post_norm", il);
			
 
				-
			
 
				-            ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
			
 
				-            cb(sa_out, "sa_out", il);
			
 
				-
			
 
				-            cur = build_norm(sa_out,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].ffn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, -1);
			
 
				-            cb(cur, "ffn_post_norm", -1);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, sa_out);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_k;
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    inpL = ggml_scale(ctx0, inpL, sqrtf(n_embd));
			
 
				+    cb(inpL, "inp_scaled", -1);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_scale(ctx0, Qcur, hparams.f_attention_scale);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				+        }
			
 
				         cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				+                model.layers[il].attn_post_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_post_norm", il);
			
 
				+
			
 
				+        ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
			
 
				+        cb(sa_out, "sa_out", il);
			
 
				+
			
 
				+        cur = build_norm(sa_out,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].ffn_post_norm, NULL,
			
 
				                 LLM_NORM_RMS, -1);
			
 
				+        cb(cur, "ffn_post_norm", -1);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, sa_out);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        // final logit soft-capping
			
 
				-        cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_final_logit_softcapping);
			
 
				-        cur = ggml_tanh(ctx0, cur);
			
 
				-        cur = ggml_scale(ctx0, cur, hparams.f_final_logit_softcapping);
			
 
				+    // final logit soft-capping
			
 
				+    cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_final_logit_softcapping);
			
 
				+    cur = ggml_tanh(ctx0, cur);
			
 
				+    cur = ggml_scale(ctx0, cur, hparams.f_final_logit_softcapping);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/gemma3-iswa.cpp
+++ b/src/models/gemma3-iswa.cpp
@@ -1,131 +1,131 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_gemma3_iswa::llm_build_gemma3_iswa(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_k;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_k;
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // important: do not normalize weights for raw embeddings input (i.e. encoded image emdeddings)
			
 
				-        if (ubatch.token) {
			
 
				-            inpL = ggml_scale(ctx0, inpL, sqrtf(n_embd));
			
 
				-            cb(inpL, "inp_scaled", -1);
			
 
				+    // important: do not normalize weights for raw embeddings input (i.e. encoded image emdeddings)
			
 
				+    if (ubatch.token) {
			
 
				+        inpL = ggml_scale(ctx0, inpL, sqrtf(n_embd));
			
 
				+        cb(inpL, "inp_scaled", -1);
			
 
				+    }
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    // TODO: is causal == true correct? might need some changes
			
 
				+    auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            // ref: https://github.com/google/gemma_pytorch/blob/014acb7ac4563a5f77c76d7ff98f31b568c16508/gemma/model.py#L315
			
 
				+            Qcur = ggml_scale(ctx0, Qcur, hparams.f_attention_scale);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				         }
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        // TODO: is causal == true correct? might need some changes
			
 
				-        auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				-            const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                // ref: https://github.com/google/gemma_pytorch/blob/014acb7ac4563a5f77c76d7ff98f31b568c16508/gemma/model.py#L315
			
 
				-                Qcur = ggml_scale(ctx0, Qcur, hparams.f_attention_scale);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_post_norm", il);
			
 
				-
			
 
				-            ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
			
 
				-            cb(sa_out, "sa_out", il);
			
 
				-
			
 
				-            cur = build_norm(sa_out,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].ffn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, -1);
			
 
				-            cb(cur, "ffn_post_norm", -1);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, sa_out);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				-
			
 
				         cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				+                model.layers[il].attn_post_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_post_norm", il);
			
 
				+
			
 
				+        ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
			
 
				+        cb(sa_out, "sa_out", il);
			
 
				+
			
 
				+        cur = build_norm(sa_out,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].ffn_post_norm, NULL,
			
 
				                 LLM_NORM_RMS, -1);
			
 
				+        cb(cur, "ffn_post_norm", -1);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, sa_out);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/glm4-moe.cpp
+++ b/src/models/glm4-moe.cpp
@@ -1,153 +1,153 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_glm4_moe::llm_build_glm4_moe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        // Only process up to last layer (skip final NextN layer)
			
 
				-        // Final layer tensors are loaded but not processed in forward pass
			
 
				-        const int n_transformer_layers = n_layer - hparams.nextn_predict_layers;
			
 
				-        for (int il = 0; il < n_transformer_layers; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // Pre-attention norm
			
 
				-            cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                }
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                }
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                }
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                // Apply Q/K norm if available (GLM-4.5 355B variant)
			
 
				-                if (model.layers[il].attn_q_norm) {
			
 
				-                    Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                    cb(Qcur, "Qcur_normed", il);
			
 
				-                }
			
 
				-                if (model.layers[il].attn_k_norm) {
			
 
				-                    Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                    cb(Kcur, "Kcur_normed", il);
			
 
				-                }
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    // Only process up to last layer (skip final NextN layer)
			
 
				+    // Final layer tensors are loaded but not processed in forward pass
			
 
				+    const int n_transformer_layers = n_layer - hparams.nextn_predict_layers;
			
 
				+    for (int il = 0; il < n_transformer_layers; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // Pre-attention norm
			
 
				+        cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				             }
			
 
				-            if (il == n_transformer_layers - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // Post-attention norm
			
 
				-            cur = build_norm(ffn_inp, model.layers[il].attn_post_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "post_attn_norm", il);
			
 
				-
			
 
				-            // Check if this is a dense layer (n_layer_dense_lead=1, so layer 0 is dense)
			
 
				-            if (static_cast<uint32_t>(il) < hparams.n_layer_dense_lead) {
			
 
				-                // Dense FFN layer
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            } else {
			
 
				-                // Process routed experts using existing MoE infrastructure
			
 
				-                ggml_tensor * routed_out = build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        model.layers[il].ffn_exp_probs_b,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, hparams.expert_weights_norm,
			
 
				-                        true, hparams.expert_weights_scale,
			
 
				-                        (llama_expert_gating_func_type) hparams.expert_gating_func,
			
 
				-                        il);
			
 
				-                cb(routed_out, "ffn_moe_out", il);
			
 
				-
			
 
				-                // Process shared expert on original input
			
 
				-                ggml_tensor * shared_out = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(shared_out, "ffn_shexp_out", il);
			
 
				-
			
 
				-                // Final output: routed_output + shared_output
			
 
				-                cur = ggml_add(ctx0, routed_out, shared_out);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				             }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            // Apply Q/K norm if available (GLM-4.5 355B variant)
			
 
				+            if (model.layers[il].attn_q_norm) {
			
 
				+                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				+                cb(Qcur, "Qcur_normed", il);
			
 
				+            }
			
 
				+            if (model.layers[il].attn_k_norm) {
			
 
				+                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				+                cb(Kcur, "Kcur_normed", il);
			
 
				+            }
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				-        cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				+        if (il == n_transformer_layers - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // Post-attention norm
			
 
				+        cur = build_norm(ffn_inp, model.layers[il].attn_post_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "post_attn_norm", il);
			
 
				+
			
 
				+        // Check if this is a dense layer (n_layer_dense_lead=1, so layer 0 is dense)
			
 
				+        if (static_cast<uint32_t>(il) < hparams.n_layer_dense_lead) {
			
 
				+            // Dense FFN layer
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        } else {
			
 
				+            // Process routed experts using existing MoE infrastructure
			
 
				+            ggml_tensor * routed_out = build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    model.layers[il].ffn_exp_probs_b,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, hparams.expert_weights_norm,
			
 
				+                    true, hparams.expert_weights_scale,
			
 
				+                    (llama_expert_gating_func_type) hparams.expert_gating_func,
			
 
				+                    il);
			
 
				+            cb(routed_out, "ffn_moe_out", il);
			
 
				+
			
 
				+            // Process shared expert on original input
			
 
				+            ggml_tensor * shared_out = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(shared_out, "ffn_shexp_out", il);
			
 
				+
			
 
				+            // Final output: routed_output + shared_output
			
 
				+            cur = ggml_add(ctx0, routed_out, shared_out);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+    cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/grok.cpp
+++ b/src/models/grok.cpp
@@ -1,160 +1,159 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_grok::llm_build_grok(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+                cb(Kcur, "Kcur", il);
			
 
				             }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_out_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_out_norm", il);
			
 
				-
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            ggml_tensor * moe_out = build_moe_ffn(cur,
			
 
				-                    model.layers[il].ffn_gate_inp,
			
 
				-                    model.layers[il].ffn_up_exps,
			
 
				-                    model.layers[il].ffn_gate_exps,
			
 
				-                    model.layers[il].ffn_down_exps,
			
 
				-                    nullptr,
			
 
				-                    n_expert, n_expert_used,
			
 
				-                    LLM_FFN_GELU, true,
			
 
				-                    false, 0.0,
			
 
				-                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                    il);
			
 
				-            cb(moe_out, "ffn_moe_out", il);
			
 
				-
			
 
				-            if (model.layers[il].ffn_up) {
			
 
				-                ggml_tensor * ffn_out = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				-                cb(ffn_out, "ffn_out", il);
			
 
				-
			
 
				-                cur = ggml_scale(ctx0, ggml_add(ctx0, ffn_out, moe_out), std::sqrt(2) / 2);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            } else {
			
 
				-                cur = moe_out;
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].ffn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_post_norm", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].attn_out_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_out_norm", il);
			
 
				+
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        ggml_tensor * moe_out = build_moe_ffn(cur,
			
 
				+                model.layers[il].ffn_gate_inp,
			
 
				+                model.layers[il].ffn_up_exps,
			
 
				+                model.layers[il].ffn_gate_exps,
			
 
				+                model.layers[il].ffn_down_exps,
			
 
				+                nullptr,
			
 
				+                n_expert, n_expert_used,
			
 
				+                LLM_FFN_GELU, true,
			
 
				+                false, 0.0,
			
 
				+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                il);
			
 
				+        cb(moe_out, "ffn_moe_out", il);
			
 
				+
			
 
				+        if (model.layers[il].ffn_up) {
			
 
				+            ggml_tensor * ffn_out = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_GELU, LLM_FFN_PAR, il);
			
 
				+            cb(ffn_out, "ffn_out", il);
			
 
				+
			
 
				+            cur = ggml_scale(ctx0, ggml_add(ctx0, ffn_out, moe_out), std::sqrt(2) / 2);
			
 
				             cb(cur, "ffn_out", il);
			
 
				+        } else {
			
 
				+            cur = moe_out;
			
 
				+        }
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].ffn_post_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_post_norm", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        cur = ggml_scale(ctx0, cur, hparams.f_logit_scale);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        // final logit soft-capping
			
 
				-        if (hparams.f_final_logit_softcapping) {
			
 
				-            cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_final_logit_softcapping);
			
 
				-            cur = ggml_tanh(ctx0, cur);
			
 
				-            cur = ggml_scale(ctx0, cur, hparams.f_final_logit_softcapping);
			
 
				-        }
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cur = ggml_scale(ctx0, cur, hparams.f_logit_scale);
			
 
				+
			
 
				+    // final logit soft-capping
			
 
				+    if (hparams.f_final_logit_softcapping) {
			
 
				+        cur = ggml_scale(ctx0, cur, 1.0f / hparams.f_final_logit_softcapping);
			
 
				+        cur = ggml_tanh(ctx0, cur);
			
 
				+        cur = ggml_scale(ctx0, cur, hparams.f_final_logit_softcapping);
			
 
				+    }
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/hunyuan-dense.cpp
+++ b/src/models/hunyuan-dense.cpp
@@ -1,132 +1,132 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_hunyuan_dense::llm_build_hunyuan_dense(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        const float kq_scale = 1.0f / sqrtf(float(n_embd_head));
			
 
				+    const float kq_scale = 1.0f / sqrtf(float(n_embd_head));
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				-                ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				-
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                         ctx0, Qcur, inp_pos, rope_factors,
			
 
				-                         n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                         ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                         );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				 
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                         ctx0, Kcur, inp_pos, rope_factors,
			
 
				-                         n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                         ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                         );
			
 
				-
			
 
				-                Kcur = build_norm(Kcur,
			
 
				-                         model.layers[il].attn_k_norm, nullptr,
			
 
				-                         LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_norm", il);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur,
			
 
				-                         model.layers[il].attn_q_norm, nullptr,
			
 
				-                         LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_norm", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-            // feed-forward network (non-MoE)
			
 
				-            ggml_tensor * cur_mlp = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur_mlp, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur_mlp, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                        ctx0, Qcur, inp_pos, rope_factors,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                        );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                        ctx0, Kcur, inp_pos, rope_factors,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                        );
			
 
				+
			
 
				+            Kcur = build_norm(Kcur,
			
 
				+                        model.layers[il].attn_k_norm, nullptr,
			
 
				+                        LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_norm", il);
			
 
				+
			
 
				+            Qcur = build_norm(Qcur,
			
 
				+                        model.layers[il].attn_q_norm, nullptr,
			
 
				+                        LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_norm", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+            cb(cur, "attn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				-
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				-
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				-
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+        // feed-forward network (non-MoE)
			
 
				+        ggml_tensor * cur_mlp = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur_mlp, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur_mlp, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/hunyuan-moe.cpp
+++ b/src/models/hunyuan-moe.cpp
@@ -1,154 +1,154 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_hunyuan_moe::llm_build_hunyuan_moe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        const float kq_scale = 1.0f / sqrtf(float(n_embd_head));
			
 
				+    const float kq_scale = 1.0f / sqrtf(float(n_embd_head));
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				-                ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				-
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				+
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = build_norm(Kcur,
			
 
				-                        model.layers[il].attn_k_norm, nullptr,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_norm", il);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur,
			
 
				-                        model.layers[il].attn_q_norm, nullptr,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_norm", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                model.layers[il].ffn_norm, NULL,
			
 
				-                LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network (non-MoE)
			
 
				-            ggml_tensor * cur_mlp = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur_mlp, "ffn_mlp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            ggml_tensor * cur_moe = build_moe_ffn(cur,
			
 
				-                    model.layers[il].ffn_gate_inp,
			
 
				-                    model.layers[il].ffn_up_exps,
			
 
				-                    model.layers[il].ffn_gate_exps,
			
 
				-                    model.layers[il].ffn_down_exps,
			
 
				-                    nullptr,
			
 
				-                    n_expert, n_expert_used,
			
 
				-                    LLM_FFN_SILU,
			
 
				-                    true, // norm_topk_prob
			
 
				-                    false,
			
 
				-                    0.0,
			
 
				-                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                    il);
			
 
				-            cb(cur_moe, "ffn_moe_out", il);
			
 
				-
			
 
				-            ggml_tensor * ffn_out = ggml_add(ctx0, cur_moe, cur_mlp);
			
 
				-            cb(ffn_out, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, ffn_out, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				-
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				-
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = build_norm(Kcur,
			
 
				+                    model.layers[il].attn_k_norm, nullptr,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_norm", il);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+            Qcur = build_norm(Qcur,
			
 
				+                    model.layers[il].attn_q_norm, nullptr,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_norm", il);
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+            cb(cur, "attn_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+            model.layers[il].ffn_norm, NULL,
			
 
				+            LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network (non-MoE)
			
 
				+        ggml_tensor * cur_mlp = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				+                model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur_mlp, "ffn_mlp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        ggml_tensor * cur_moe = build_moe_ffn(cur,
			
 
				+                model.layers[il].ffn_gate_inp,
			
 
				+                model.layers[il].ffn_up_exps,
			
 
				+                model.layers[il].ffn_gate_exps,
			
 
				+                model.layers[il].ffn_down_exps,
			
 
				+                nullptr,
			
 
				+                n_expert, n_expert_used,
			
 
				+                LLM_FFN_SILU,
			
 
				+                true, // norm_topk_prob
			
 
				+                false,
			
 
				+                0.0,
			
 
				+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                il);
			
 
				+        cb(cur_moe, "ffn_moe_out", il);
			
 
				+
			
 
				+        ggml_tensor * ffn_out = ggml_add(ctx0, cur_moe, cur_mlp);
			
 
				+        cb(ffn_out, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, ffn_out, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/internlm2.cpp
+++ b/src/models/internlm2.cpp
@@ -1,121 +1,120 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 llm_build_internlm2::llm_build_internlm2(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/jais.cpp
+++ b/src/models/jais.cpp
@@ -1,86 +1,86 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_jais::llm_build_jais(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm,
			
 
				-                    model.layers[il].attn_norm_b,
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm,
			
 
				+                model.layers[il].attn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				+            cb(cur, "wqkv", il);
			
 
				+
			
 
				+            cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
			
 
				+            cb(cur, "bqkv", il);
			
 
				+
			
 
				+            ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*cur->nb[0]*(n_embd));
			
 
				+            ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*cur->nb[0]*(n_embd));
			
 
				+            ggml_tensor * Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*cur->nb[0]*(n_embd + n_embd_gqa));
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/float(n_embd_head), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				+        }
			
 
				+        // add the input
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // FF
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm,
			
 
				+                    model.layers[il].ffn_norm_b,
			
 
				                     LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				-                cb(cur, "wqkv", il);
			
 
				-
			
 
				-                cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
			
 
				-                cb(cur, "bqkv", il);
			
 
				-
			
 
				-                ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*cur->nb[0]*(n_embd));
			
 
				-                ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*cur->nb[0]*(n_embd));
			
 
				-                ggml_tensor * Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*cur->nb[0]*(n_embd + n_embd_gqa));
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/float(n_embd_head), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            // add the input
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // FF
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm,
			
 
				-                        model.layers[il].ffn_norm_b,
			
 
				-                        LLM_NORM, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                        model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				-                        model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            inpL = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(inpL, "l_out", il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                    model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = build_norm(inpL,
			
 
				-                model.output_norm,
			
 
				-                model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+        inpL = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(inpL, "l_out", il);
			
 
				+    }
			
 
				+    cur = build_norm(inpL,
			
 
				+            model.output_norm,
			
 
				+            model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/jamba.cpp
+++ b/src/models/jamba.cpp
@@ -1,107 +1,106 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 llm_build_jamba::llm_build_jamba(const llama_model & model, const llm_graph_params & params) : llm_graph_context_mamba(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        // {n_embd, n_tokens}
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        auto * inp_hybrid = build_inp_mem_hybrid();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            const int64_t n_head_kv = hparams.n_head_kv(il);
			
 
				-
			
 
				-            cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            if (n_head_kv == 0) {
			
 
				-                cur = build_mamba_layer(inp_hybrid->get_recr(), cur, model, ubatch, il);
			
 
				-            } else {
			
 
				-                // Attention
			
 
				-
			
 
				-                struct ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                struct ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                struct ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                // No RoPE :)
			
 
				-                cur = build_attn(inp_hybrid->get_attn(),
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, NULL, NULL, NULL, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            // residual
			
 
				-            struct ggml_tensor * ffn_inp = ggml_add(ctx0, inpL, cur);
			
 
				-            cb(cur, "ffn_inp", il);
			
 
				-
			
 
				-            cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				-                // FFN
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            } else {
			
 
				-                // MoE branch
			
 
				-                cur = build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, false,
			
 
				-                        false, 0.0,
			
 
				-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                        il);
			
 
				-                cb(cur, "ffn_moe_out", il);
			
 
				-            }
			
 
				-            // residual
			
 
				-            cur = ggml_add(ctx0, ffn_inp, cur);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    // {n_embd, n_tokens}
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    auto * inp_hybrid = build_inp_mem_hybrid();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        const int64_t n_head_kv = hparams.n_head_kv(il);
			
 
				+
			
 
				+        cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        if (n_head_kv == 0) {
			
 
				+            cur = build_mamba_layer(inp_hybrid->get_recr(), cur, model, ubatch, il);
			
 
				+        } else {
			
 
				+            // Attention
			
 
				+
			
 
				+            struct ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            struct ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            struct ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            // No RoPE :)
			
 
				+            cur = build_attn(inp_hybrid->get_attn(),
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, NULL, NULL, NULL, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        // final rmsnorm
			
 
				-        cur = build_norm(inpL, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				+        }
			
 
				+        // residual
			
 
				+        struct ggml_tensor * ffn_inp = ggml_add(ctx0, inpL, cur);
			
 
				+        cb(cur, "ffn_inp", il);
			
 
				+
			
 
				+        cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				+            // FFN
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        } else {
			
 
				+            // MoE branch
			
 
				+            cur = build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, false,
			
 
				+                    false, 0.0,
			
 
				+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                    il);
			
 
				+            cb(cur, "ffn_moe_out", il);
			
 
				+        }
			
 
				+        // residual
			
 
				+        cur = ggml_add(ctx0, ffn_inp, cur);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    // final rmsnorm
			
 
				+    cur = build_norm(inpL, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/llada-moe.cpp
+++ b/src/models/llada-moe.cpp
@@ -1,123 +1,122 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_llada_moe::llm_build_llada_moe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_no_cache();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_moe_ffn(cur,
			
 
				-                    model.layers[il].ffn_gate_inp,
			
 
				-                    model.layers[il].ffn_up_exps,
			
 
				-                    model.layers[il].ffn_gate_exps,
			
 
				-                    model.layers[il].ffn_down_exps,
			
 
				-                    nullptr,
			
 
				-                    n_expert, n_expert_used,
			
 
				-                    LLM_FFN_SILU, false,
			
 
				-                    false, 0.0,
			
 
				-                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                    il);
			
 
				-            cb(cur, "ffn_moe_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				-}
			
 
				+    auto * inp_attn = build_attn_inp_no_cache();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				+
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_moe_ffn(cur,
			
 
				+                model.layers[il].ffn_gate_inp,
			
 
				+                model.layers[il].ffn_up_exps,
			
 
				+                model.layers[il].ffn_gate_exps,
			
 
				+                model.layers[il].ffn_down_exps,
			
 
				+                nullptr,
			
 
				+                n_expert, n_expert_used,
			
 
				+                LLM_FFN_SILU, false,
			
 
				+                false, 0.0,
			
 
				+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                il);
			
 
				+        cb(cur, "ffn_moe_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				+}
			
--- a/src/models/llada.cpp
+++ b/src/models/llada.cpp
@@ -1,101 +1,99 @@
 
				 #include "models.h"
			
 
				 
			
 
				+llm_build_llada::llm_build_llada(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				+    // LLaDA is similar to LLaMA but uses non-causal attention for diffusion
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-llm_build_llada::llm_build_llada(const llama_model & model, const llm_graph_params & params) :
			
 
				-        llm_graph_context(params) {
			
 
				-        // LLaDA is similar to LLaMA but uses non-causal attention for diffusion
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // Non-causal attention for diffusion
			
 
				+    auto * inp_attn = build_attn_inp_no_cache();
			
 
				 
			
 
				-        // Non-causal attention for diffusion
			
 
				-        auto * inp_attn = build_attn_inp_no_cache();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute separate Q, K, V projections without bias, matching LLaDALlamaBlock
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				 
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute separate Q, K, V projections without bias, matching LLaDALlamaBlock
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				-                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+            Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				-                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				 
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up, NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up, NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/llama.cpp
+++ b/src/models/llama.cpp
@@ -1,156 +1,155 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 llm_build_llama::llm_build_llama(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				-                ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // rope freq factors for llama3; may return nullptr for llama2 and other models
			
 
				+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				 
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                if (hparams.use_kq_norm) {
			
 
				-                    // Llama4TextL2Norm
			
 
				-                    Qcur = ggml_rms_norm(ctx0, Qcur, hparams.f_norm_rms_eps);
			
 
				-                    Kcur = ggml_rms_norm(ctx0, Kcur, hparams.f_norm_rms_eps);
			
 
				-                    cb(Qcur, "Qcur_normed", il);
			
 
				-                    cb(Kcur, "Kcur_normed", il);
			
 
				-                }
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network (non-MoE)
			
 
				-            if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				-
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                        model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				-                        model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            } else {
			
 
				-                // MoE branch
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, true,
			
 
				-                        false, 0.0,
			
 
				-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                        il);
			
 
				-                cb(cur, "ffn_moe_out", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            if (hparams.use_kq_norm) {
			
 
				+                // Llama4TextL2Norm
			
 
				+                Qcur = ggml_rms_norm(ctx0, Qcur, hparams.f_norm_rms_eps);
			
 
				+                Kcur = ggml_rms_norm(ctx0, Kcur, hparams.f_norm_rms_eps);
			
 
				+                cb(Qcur, "Qcur_normed", il);
			
 
				+                cb(Kcur, "Kcur_normed", il);
			
 
				             }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+            cb(cur, "attn_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        // feed-forward network (non-MoE)
			
 
				+        if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                    model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        } else {
			
 
				+            // MoE branch
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, true,
			
 
				+                    false, 0.0,
			
 
				+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                    il);
			
 
				+            cb(cur, "ffn_moe_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				-    }
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				+}
			
--- a/src/models/minicpm3.cpp
+++ b/src/models/minicpm3.cpp
@@ -1,200 +1,199 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 llm_build_minicpm3::llm_build_minicpm3(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        //TODO: if the model varies, these parameters need to be read from the model
			
 
				-        const int64_t n_embd_base = 256;
			
 
				-        const float scale_embd  = 12.0f;
			
 
				-        const float scale_depth = 1.4f;
			
 
				-        const float kq_scale = 1.0f / sqrtf(float(hparams.n_embd_head_k));
			
 
				+    //TODO: if the model varies, these parameters need to be read from the model
			
 
				+    const int64_t n_embd_base = 256;
			
 
				+    const float scale_embd  = 12.0f;
			
 
				+    const float scale_depth = 1.4f;
			
 
				+    const float kq_scale = 1.0f / sqrtf(float(hparams.n_embd_head_k));
			
 
				+
			
 
				+    const uint32_t n_embd_head_qk_rope = hparams.n_rot;
			
 
				+    const uint32_t n_embd_head_qk_nope = hparams.n_embd_head_k - hparams.n_rot;
			
 
				+    const uint32_t kv_lora_rank = hparams.n_lora_kv;
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        const uint32_t n_embd_head_qk_rope = hparams.n_rot;
			
 
				-        const uint32_t n_embd_head_qk_nope = hparams.n_embd_head_k - hparams.n_rot;
			
 
				-        const uint32_t kv_lora_rank = hparams.n_lora_kv;
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    // scale the input embeddings
			
 
				+    inpL = ggml_scale(ctx0, inpL, scale_embd);
			
 
				+    cb(inpL, "inp_scaled", -1);
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        // scale the input embeddings
			
 
				-        inpL = ggml_scale(ctx0, inpL, scale_embd);
			
 
				-        cb(inpL, "inp_scaled", -1);
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+        ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            ggml_tensor * q = NULL;
			
 
				+            // {n_embd, q_lora_rank} * {n_embd, n_tokens} -> {q_lora_rank, n_tokens}
			
 
				+            q = ggml_mul_mat(ctx0, model.layers[il].wq_a, cur);
			
 
				+            cb(q, "q", il);
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				+            q = build_norm(q,
			
 
				+                    model.layers[il].attn_q_a_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(q, "q", il);
			
 
				+
			
 
				+            // {q_lora_rank, n_head * hparams.n_embd_head_k} * {q_lora_rank, n_tokens} -> {n_head * hparams.n_embd_head_k, n_tokens}
			
 
				+            q = ggml_mul_mat(ctx0, model.layers[il].wq_b, q);
			
 
				+            cb(q, "q", il);
			
 
				+
			
 
				+            // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				+            ggml_tensor * q_nope = ggml_view_3d(ctx0, q, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				+                    0);
			
 
				+            cb(q_nope, "q_nope", il);
			
 
				+
			
 
				+            // and {n_head * n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * q_pe = ggml_view_3d(ctx0, q, n_embd_head_qk_rope, n_head, n_tokens,
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				+                    ggml_row_size(q->type, n_embd_head_qk_nope));
			
 
				+            cb(q_pe, "q_pe", il);
			
 
				+
			
 
				+            // {n_embd, kv_lora_rank + n_embd_head_qk_rope} * {n_embd, n_tokens} -> {kv_lora_rank + n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * kv_pe_compresseed = ggml_mul_mat(ctx0, model.layers[il].wkv_a_mqa, cur);
			
 
				+            cb(kv_pe_compresseed, "kv_pe_compresseed", il);
			
 
				+
			
 
				+            // split into {kv_lora_rank, n_tokens}
			
 
				+            ggml_tensor * kv_compressed = ggml_view_2d(ctx0, kv_pe_compresseed, kv_lora_rank, n_tokens,
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    0);
			
 
				+            cb(kv_compressed, "kv_compressed", il);
			
 
				+
			
 
				+            // and {n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * k_pe = ggml_view_3d(ctx0, kv_pe_compresseed, n_embd_head_qk_rope, 1, n_tokens,
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    ggml_row_size(kv_pe_compresseed->type, kv_lora_rank));
			
 
				+            cb(k_pe, "k_pe", il);
			
 
				+
			
 
				+            kv_compressed = build_norm(kv_compressed,
			
 
				+                    model.layers[il].attn_kv_a_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(kv_compressed, "kv_compressed", il);
			
 
				+
			
 
				+            // {kv_lora_rank, n_head * (n_embd_head_qk_nope + n_embd_head_v)} * {kv_lora_rank, n_tokens} -> {n_head * (n_embd_head_qk_nope + n_embd_head_v), n_tokens}
			
 
				+            ggml_tensor * kv = ggml_mul_mat(ctx0, model.layers[il].wkv_b, kv_compressed);
			
 
				+            cb(kv, "kv", il);
			
 
				+
			
 
				+            // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				+            ggml_tensor * k_nope = ggml_view_3d(ctx0, kv, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				+                    ggml_row_size(kv->type, n_embd_head_qk_nope + hparams.n_embd_head_v),
			
 
				+                    ggml_row_size(kv->type, n_head * (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				+                    0);
			
 
				+            cb(k_nope, "k_nope", il);
			
 
				+
			
 
				+            // and {n_head * n_embd_head_v, n_tokens}
			
 
				+            ggml_tensor * v_states = ggml_view_3d(ctx0, kv, hparams.n_embd_head_v, n_head, n_tokens,
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)*n_head),
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope)));
			
 
				+            cb(v_states, "v_states", il);
			
 
				+
			
 
				+            v_states = ggml_cont(ctx0, v_states);
			
 
				+            cb(v_states, "v_states", il);
			
 
				+
			
 
				+            q_pe = ggml_rope_ext(
			
 
				+                    ctx0, q_pe, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            cb(q_pe, "q_pe", il);
			
 
				+
			
 
				+            // shared RoPE key
			
 
				+            k_pe = ggml_rope_ext(
			
 
				+                    ctx0, k_pe, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            cb(k_pe, "k_pe", il);
			
 
				+
			
 
				+            ggml_tensor * q_states = ggml_concat(ctx0, q_nope, q_pe, 0);
			
 
				+            cb(q_states, "q_states", il);
			
 
				+
			
 
				+            ggml_tensor * k_states = ggml_concat(ctx0, k_nope, ggml_repeat(ctx0, k_pe, q_pe), 0);
			
 
				+            cb(k_states, "k_states", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    q_states, k_states, v_states, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        // scale_res - scale the hidden states for residual connection
			
 
				+        const float scale_res = scale_depth/sqrtf(float(n_layer)); // TODO: is this correct?
			
 
				+        cur = ggml_scale(ctx0, cur, scale_res);
			
 
				+        cb(cur, "hidden_scaled", il);
			
 
				+
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                ggml_tensor * q = NULL;
			
 
				-                // {n_embd, q_lora_rank} * {n_embd, n_tokens} -> {q_lora_rank, n_tokens}
			
 
				-                q = ggml_mul_mat(ctx0, model.layers[il].wq_a, cur);
			
 
				-                cb(q, "q", il);
			
 
				-
			
 
				-                q = build_norm(q,
			
 
				-                        model.layers[il].attn_q_a_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(q, "q", il);
			
 
				-
			
 
				-                // {q_lora_rank, n_head * hparams.n_embd_head_k} * {q_lora_rank, n_tokens} -> {n_head * hparams.n_embd_head_k, n_tokens}
			
 
				-                q = ggml_mul_mat(ctx0, model.layers[il].wq_b, q);
			
 
				-                cb(q, "q", il);
			
 
				-
			
 
				-                // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				-                ggml_tensor * q_nope = ggml_view_3d(ctx0, q, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				-                        0);
			
 
				-                cb(q_nope, "q_nope", il);
			
 
				-
			
 
				-                // and {n_head * n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * q_pe = ggml_view_3d(ctx0, q, n_embd_head_qk_rope, n_head, n_tokens,
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				-                        ggml_row_size(q->type, n_embd_head_qk_nope));
			
 
				-                cb(q_pe, "q_pe", il);
			
 
				-
			
 
				-                // {n_embd, kv_lora_rank + n_embd_head_qk_rope} * {n_embd, n_tokens} -> {kv_lora_rank + n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * kv_pe_compresseed = ggml_mul_mat(ctx0, model.layers[il].wkv_a_mqa, cur);
			
 
				-                cb(kv_pe_compresseed, "kv_pe_compresseed", il);
			
 
				-
			
 
				-                // split into {kv_lora_rank, n_tokens}
			
 
				-                ggml_tensor * kv_compressed = ggml_view_2d(ctx0, kv_pe_compresseed, kv_lora_rank, n_tokens,
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        0);
			
 
				-                cb(kv_compressed, "kv_compressed", il);
			
 
				-
			
 
				-                // and {n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * k_pe = ggml_view_3d(ctx0, kv_pe_compresseed, n_embd_head_qk_rope, 1, n_tokens,
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        ggml_row_size(kv_pe_compresseed->type, kv_lora_rank));
			
 
				-                cb(k_pe, "k_pe", il);
			
 
				-
			
 
				-                kv_compressed = build_norm(kv_compressed,
			
 
				-                        model.layers[il].attn_kv_a_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(kv_compressed, "kv_compressed", il);
			
 
				-
			
 
				-                // {kv_lora_rank, n_head * (n_embd_head_qk_nope + n_embd_head_v)} * {kv_lora_rank, n_tokens} -> {n_head * (n_embd_head_qk_nope + n_embd_head_v), n_tokens}
			
 
				-                ggml_tensor * kv = ggml_mul_mat(ctx0, model.layers[il].wkv_b, kv_compressed);
			
 
				-                cb(kv, "kv", il);
			
 
				-
			
 
				-                // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				-                ggml_tensor * k_nope = ggml_view_3d(ctx0, kv, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				-                        ggml_row_size(kv->type, n_embd_head_qk_nope + hparams.n_embd_head_v),
			
 
				-                        ggml_row_size(kv->type, n_head * (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				-                        0);
			
 
				-                cb(k_nope, "k_nope", il);
			
 
				-
			
 
				-                // and {n_head * n_embd_head_v, n_tokens}
			
 
				-                ggml_tensor * v_states = ggml_view_3d(ctx0, kv, hparams.n_embd_head_v, n_head, n_tokens,
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)*n_head),
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope)));
			
 
				-                cb(v_states, "v_states", il);
			
 
				-
			
 
				-                v_states = ggml_cont(ctx0, v_states);
			
 
				-                cb(v_states, "v_states", il);
			
 
				-
			
 
				-                q_pe = ggml_rope_ext(
			
 
				-                        ctx0, q_pe, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                cb(q_pe, "q_pe", il);
			
 
				-
			
 
				-                // shared RoPE key
			
 
				-                k_pe = ggml_rope_ext(
			
 
				-                        ctx0, k_pe, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                cb(k_pe, "k_pe", il);
			
 
				-
			
 
				-                ggml_tensor * q_states = ggml_concat(ctx0, q_nope, q_pe, 0);
			
 
				-                cb(q_states, "q_states", il);
			
 
				-
			
 
				-                ggml_tensor * k_states = ggml_concat(ctx0, k_nope, ggml_repeat(ctx0, k_pe, q_pe), 0);
			
 
				-                cb(k_states, "k_states", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        q_states, k_states, v_states, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            // scale_res - scale the hidden states for residual connection
			
 
				-            const float scale_res = scale_depth/sqrtf(float(n_layer)); // TODO: is this correct?
			
 
				-            cur = ggml_scale(ctx0, cur, scale_res);
			
 
				-            cb(cur, "hidden_scaled", il);
			
 
				-
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            // scale the hidden states for residual connection
			
 
				-            cur = ggml_scale(ctx0, cur, scale_res);
			
 
				-            cb(cur, "hidden_scaled_ffn", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        // scale the hidden states for residual connection
			
 
				+        cur = ggml_scale(ctx0, cur, scale_res);
			
 
				+        cb(cur, "hidden_scaled_ffn", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head scaling
			
 
				-        const float scale_lmhead = float(n_embd_base)/float(n_embd);
			
 
				-        cur = ggml_scale(ctx0, cur, scale_lmhead);
			
 
				-        cb(cur, "lmhead_scaling", -1);
			
 
				+    // lm_head scaling
			
 
				+    const float scale_lmhead = float(n_embd_base)/float(n_embd);
			
 
				+    cur = ggml_scale(ctx0, cur, scale_lmhead);
			
 
				+    cb(cur, "lmhead_scaling", -1);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/nemotron.cpp
+++ b/src/models/nemotron.cpp
@@ -1,122 +1,122 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_nemotron::llm_build_nemotron(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        //GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    //GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm,
			
 
				-                    model.layers[il].attn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm,
			
 
				+                model.layers[il].attn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm,
			
 
				-                    model.layers[il].ffn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                    NULL,                      NULL,                        NULL,
			
 
				-                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_RELU_SQR, LLM_FFN_SEQ, il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm,
			
 
				+                model.layers[il].ffn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                NULL,                      NULL,                        NULL,
			
 
				+                model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_RELU_SQR, LLM_FFN_SEQ, il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/neo-bert.cpp
+++ b/src/models/neo-bert.cpp
@@ -1,104 +1,104 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_neo_bert::llm_build_neo_bert(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        // construct input embeddings (token, type, position)
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-        cb(inpL, "inp_embd", -1);
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_no_cache();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * cur = inpL;
			
 
				-
			
 
				-            // pre-norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-
			
 
				-            {
			
 
				-                ggml_tensor * Qcur;
			
 
				-                ggml_tensor * Kcur;
			
 
				-                ggml_tensor * Vcur;
			
 
				-
			
 
				-                // self-attention
			
 
				-                cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				-                cb(cur, "wqkv", il);
			
 
				-
			
 
				-                Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*sizeof(float)*(n_embd));
			
 
				-                Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd));
			
 
				-                Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa));
			
 
				-
			
 
				-                // RoPE
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, nullptr,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-                cb(cur, "kqv_out", il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            // re-add the layer input
			
 
				-            cur = ggml_add(ctx0, cur, inpL);
			
 
				-
			
 
				-            ggml_tensor * ffn_inp = cur;
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // pre-norm
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,
			
 
				-                    NULL, NULL, NULL, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down,
			
 
				-                    NULL, NULL, NULL,
			
 
				-                    LLM_FFN_SWIGLU, LLM_FFN_SEQ, il);
			
 
				-
			
 
				-            // attentions bypass the intermediate layer
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    // construct input embeddings (token, type, position)
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+    cb(inpL, "inp_embd", -1);
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_no_cache();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm_enc, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        // pre-norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				 
			
 
				-        cb(cur, "result_embd", -1);
			
 
				-        res->t_embd = cur;
			
 
				+        {
			
 
				+            ggml_tensor * Qcur;
			
 
				+            ggml_tensor * Kcur;
			
 
				+            ggml_tensor * Vcur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+            // self-attention
			
 
				+            cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				+            cb(cur, "wqkv", il);
			
 
				+
			
 
				+            Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*sizeof(float)*(n_embd));
			
 
				+            Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd));
			
 
				+            Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa));
			
 
				+
			
 
				+            // RoPE
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, nullptr,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+            cb(cur, "kqv_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				+        }
			
 
				+        // re-add the layer input
			
 
				+        cur = ggml_add(ctx0, cur, inpL);
			
 
				+
			
 
				+        ggml_tensor * ffn_inp = cur;
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // pre-norm
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,
			
 
				+                NULL, NULL, NULL, NULL, NULL,
			
 
				+                model.layers[il].ffn_down,
			
 
				+                NULL, NULL, NULL,
			
 
				+                LLM_FFN_SWIGLU, LLM_FFN_SEQ, il);
			
 
				+
			
 
				+        // attentions bypass the intermediate layer
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm_enc, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_embd", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/olmo.cpp
+++ b/src/models/olmo.cpp
@@ -1,121 +1,121 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_olmo::llm_build_olmo(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    NULL, NULL,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (hparams.f_clamp_kqv > 0.0f) {
			
 
				-                    Qcur = ggml_clamp(ctx0, Qcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (hparams.f_clamp_kqv > 0.0f) {
			
 
				-                    Kcur = ggml_clamp(ctx0, Kcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (hparams.f_clamp_kqv > 0.0f) {
			
 
				-                    Vcur = ggml_clamp(ctx0, Vcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                NULL, NULL,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (hparams.f_clamp_kqv > 0.0f) {
			
 
				+                Qcur = ggml_clamp(ctx0, Qcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (hparams.f_clamp_kqv > 0.0f) {
			
 
				+                Kcur = ggml_clamp(ctx0, Kcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, nullptr,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (hparams.f_clamp_kqv > 0.0f) {
			
 
				+                Vcur = ggml_clamp(ctx0, Vcur, -hparams.f_clamp_kqv, hparams.f_clamp_kqv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    NULL, NULL,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, nullptr,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				                 NULL, NULL,
			
 
				-                LLM_NORM, -1);
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            NULL, NULL,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/olmo2.cpp
+++ b/src/models/olmo2.cpp
@@ -1,150 +1,149 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 template <bool iswa>
			
 
				 llm_build_olmo2<iswa>::llm_build_olmo2(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				-        inp_attn_type * inp_attn = nullptr;
			
 
				+    using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				+    inp_attn_type * inp_attn = nullptr;
			
 
				 
			
 
				-        if constexpr (iswa) {
			
 
				-            inp_attn = build_attn_inp_kv_iswa();
			
 
				-        } else {
			
 
				-            inp_attn = build_attn_inp_kv();
			
 
				-        }
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            cur = inpL;
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                const bool is_swa = hparams.is_swa(il);
			
 
				-
			
 
				-                if (is_swa) {
			
 
				-                    // For sliding window layers, Olmo3 use regular rope with no yarn rope scaling.
			
 
				-                    // This is achieved here by setting freq_scale and attn_factor to 1.
			
 
				-                    // We also set ext_factor to 0 to avoid a few unnecessary computations.
			
 
				-                    Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, 1.0,
			
 
				-                        0.0, 1.0, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                    Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, 1.0,
			
 
				-                        0.0, 1.0, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                } else {
			
 
				-                    Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                    Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                }
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_post_norm", il);
			
 
				+    if constexpr (iswa) {
			
 
				+        inp_attn = build_attn_inp_kv_iswa();
			
 
				+    } else {
			
 
				+        inp_attn = build_attn_inp_kv();
			
 
				+    }
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // feed-forward network
			
 
				-            cur = build_ffn(ffn_inp,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+        cur = inpL;
			
 
				+
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].ffn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, -1);
			
 
				-            cb(cur, "ffn_post_norm", -1);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				 
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            const bool is_swa = hparams.is_swa(il);
			
 
				+
			
 
				+            if (is_swa) {
			
 
				+                // For sliding window layers, Olmo3 use regular rope with no yarn rope scaling.
			
 
				+                // This is achieved here by setting freq_scale and attn_factor to 1.
			
 
				+                // We also set ext_factor to 0 to avoid a few unnecessary computations.
			
 
				+                Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, 1.0,
			
 
				+                    0.0, 1.0, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+                Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, 1.0,
			
 
				+                    0.0, 1.0, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            } else {
			
 
				+                Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+                Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            }
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].attn_post_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_post_norm", il);
			
 
				+
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_ffn(ffn_inp,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				         cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				+                model.layers[il].ffn_post_norm, NULL,
			
 
				                 LLM_NORM_RMS, -1);
			
 
				+        cb(cur, "ffn_post_norm", -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				-
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				     }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				+}
			
 
				 
			
 
				 // Explicit template instantiations
			
 
				 template struct llm_build_olmo2<false>;
			
--- a/src/models/olmoe.cpp
+++ b/src/models/olmoe.cpp
@@ -1,124 +1,124 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_olmoe::llm_build_olmoe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_moe_ffn(cur,
			
 
				-                    model.layers[il].ffn_gate_inp,
			
 
				-                    model.layers[il].ffn_up_exps,
			
 
				-                    model.layers[il].ffn_gate_exps,
			
 
				-                    model.layers[il].ffn_down_exps,
			
 
				-                    nullptr,
			
 
				-                    n_expert, n_expert_used,
			
 
				-                    LLM_FFN_SILU, false,
			
 
				-                    false, 0.0,
			
 
				-                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                    il);
			
 
				-            cb(cur, "ffn_moe_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_moe_ffn(cur,
			
 
				+                model.layers[il].ffn_gate_inp,
			
 
				+                model.layers[il].ffn_up_exps,
			
 
				+                model.layers[il].ffn_gate_exps,
			
 
				+                model.layers[il].ffn_down_exps,
			
 
				+                nullptr,
			
 
				+                n_expert, n_expert_used,
			
 
				+                LLM_FFN_SILU, false,
			
 
				+                false, 0.0,
			
 
				+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                il);
			
 
				+        cb(cur, "ffn_moe_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/openai-moe-iswa.cpp
+++ b/src/models/openai-moe-iswa.cpp
@@ -1,123 +1,123 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_openai_moe_iswa::llm_build_openai_moe_iswa(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				+    auto * inp_attn = build_attn_inp_kv_iswa();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, nullptr,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_rot, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_rot, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_rot, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, nullptr,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, model.layers[il].attn_sinks, nullptr, 1.0f/sqrtf(float(n_rot)), il);
			
 
				-
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1) {
			
 
				-                // skip computing output for unused tokens
			
 
				-                ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            cur = ffn_inp;
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_post_norm, nullptr,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_post_norm", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_moe_ffn(cur,
			
 
				-                    model.layers[il].ffn_gate_inp,  model.layers[il].ffn_gate_inp_b,
			
 
				-                    model.layers[il].ffn_up_exps,   model.layers[il].ffn_up_exps_b,
			
 
				-                    model.layers[il].ffn_gate_exps, model.layers[il].ffn_gate_exps_b,
			
 
				-                    model.layers[il].ffn_down_exps, model.layers[il].ffn_down_exps_b,
			
 
				-                    nullptr,
			
 
				-                    n_expert, n_expert_used,
			
 
				-                    LLM_FFN_SWIGLU_OAI_MOE, false,
			
 
				-                    false, 0.0,
			
 
				-                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX_WEIGHT,
			
 
				-                    il);
			
 
				-            cb(cur, "ffn_moe_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_rot, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_rot, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_rot, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, model.layers[il].attn_sinks, nullptr, 1.0f/sqrtf(float(n_rot)), il);
			
 
				+
			
 
				+            cb(cur, "attn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1) {
			
 
				+            // skip computing output for unused tokens
			
 
				+            ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				+        cur = ffn_inp;
			
 
				         cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				-
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				-
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				-
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				-
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+                model.layers[il].attn_post_norm, nullptr,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_post_norm", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_moe_ffn(cur,
			
 
				+                model.layers[il].ffn_gate_inp,  model.layers[il].ffn_gate_inp_b,
			
 
				+                model.layers[il].ffn_up_exps,   model.layers[il].ffn_up_exps_b,
			
 
				+                model.layers[il].ffn_gate_exps, model.layers[il].ffn_gate_exps_b,
			
 
				+                model.layers[il].ffn_down_exps, model.layers[il].ffn_down_exps_b,
			
 
				+                nullptr,
			
 
				+                n_expert, n_expert_used,
			
 
				+                LLM_FFN_SWIGLU_OAI_MOE, false,
			
 
				+                false, 0.0,
			
 
				+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX_WEIGHT,
			
 
				+                il);
			
 
				+        cb(cur, "ffn_moe_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/openelm.cpp
+++ b/src/models/openelm.cpp
@@ -1,124 +1,124 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_openelm::llm_build_openelm(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            const int64_t n_head    = hparams.n_head(il);
			
 
				-            const int64_t n_head_kv = hparams.n_head_kv(il);
			
 
				-            const int64_t n_head_qkv = 2*n_head_kv + n_head;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        const int64_t n_head    = hparams.n_head(il);
			
 
				+        const int64_t n_head_kv = hparams.n_head_kv(il);
			
 
				+        const int64_t n_head_qkv = 2*n_head_kv + n_head;
			
 
				 
			
 
				-            cur = inpL;
			
 
				-            ggml_tensor * residual = cur;
			
 
				+        cur = inpL;
			
 
				+        ggml_tensor * residual = cur;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				+            cb(cur, "wqkv", il);
			
 
				+
			
 
				+            cur = ggml_reshape_3d(ctx0, cur, n_embd_head_k, n_head_qkv, n_tokens);
			
 
				+
			
 
				+            ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, cur->nb[1], cur->nb[2], 0);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, cur->nb[1], cur->nb[2], cur->nb[1]*n_head);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = ggml_cont(ctx0, ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, cur->nb[1], cur->nb[2], cur->nb[1]*(n_head+n_head_kv)));
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = build_norm(Qcur,
			
 
				+                    model.layers[il].attn_q_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				+            Kcur = build_norm(Kcur,
			
 
				+                    model.layers[il].attn_k_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				-                cb(cur, "wqkv", il);
			
 
				-
			
 
				-                cur = ggml_reshape_3d(ctx0, cur, n_embd_head_k, n_head_qkv, n_tokens);
			
 
				-
			
 
				-                ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, cur->nb[1], cur->nb[2], 0);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, cur->nb[1], cur->nb[2], cur->nb[1]*n_head);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = ggml_cont(ctx0, ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, cur->nb[1], cur->nb[2], cur->nb[1]*(n_head+n_head_kv)));
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur,
			
 
				-                        model.layers[il].attn_q_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                Kcur = build_norm(Kcur,
			
 
				-                        model.layers[il].attn_k_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, NULL,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, NULL,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Qcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                residual = ggml_get_rows(ctx0, residual, inp_out_ids);
			
 
				-                cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, residual, cur);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            inpL = cur;
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, NULL,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, NULL,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Qcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            residual = ggml_get_rows(ctx0, residual, inp_out_ids);
			
 
				+            cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, residual, cur);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-        // norm
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    // norm
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/orion.cpp
+++ b/src/models/orion.cpp
@@ -1,123 +1,123 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_orion::llm_build_orion(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                // if (model.layers[il].bq) {
			
 
				-                //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                //     cb(Qcur, "Qcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                // if (model.layers[il].bk) {
			
 
				-                //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                //     cb(Kcur, "Kcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                // if (model.layers[il].bv) {
			
 
				-                //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                //     cb(Vcur, "Vcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            // if (model.layers[il].bq) {
			
 
				+            //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				+            //     cb(Qcur, "Qcur", il);
			
 
				+            // }
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            // if (model.layers[il].bk) {
			
 
				+            //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+            //     cb(Kcur, "Kcur", il);
			
 
				+            // }
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            // if (model.layers[il].bv) {
			
 
				+            //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+            //     cb(Vcur, "Vcur", il);
			
 
				+            // }
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/phi3.cpp
+++ b/src/models/phi3.cpp
@@ -1,152 +1,151 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 template<bool iswa>
			
 
				 llm_build_phi3<iswa>::llm_build_phi3(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        const int64_t n_embd_gqa = hparams.n_embd_v_gqa();
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_gqa = hparams.n_embd_v_gqa();
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				-        inp_attn_type * inp_attn = nullptr;
			
 
				+    using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				+    inp_attn_type * inp_attn = nullptr;
			
 
				 
			
 
				-        if constexpr (iswa) {
			
 
				-            inp_attn = build_attn_inp_kv_iswa();
			
 
				-        } else {
			
 
				-            inp_attn = build_attn_inp_kv();
			
 
				-        }
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            auto * residual = inpL;
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // rope freq factors for 128k context
			
 
				-                ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				-
			
 
				-                ggml_tensor* attn_norm_output = build_norm(inpL,
			
 
				-                        model.layers[il].attn_norm,
			
 
				-                        model.layers[il].attn_norm_b,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(attn_norm_output, "attn_norm", il);
			
 
				-
			
 
				-                ggml_tensor * Qcur = nullptr;
			
 
				-                ggml_tensor * Kcur = nullptr;
			
 
				-                ggml_tensor * Vcur = nullptr;
			
 
				-
			
 
				-                if (model.layers[il].wqkv) {
			
 
				-                    cur = build_lora_mm(model.layers[il].wqkv, attn_norm_output);
			
 
				-                    cb(cur, "wqkv", il);
			
 
				-
			
 
				-                    Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head * sizeof(float), cur->nb[1], 0 * sizeof(float) * (n_embd));
			
 
				-                    Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head * sizeof(float), cur->nb[1], 1 * sizeof(float) * (n_embd));
			
 
				-                    Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head * sizeof(float), cur->nb[1], 1 * sizeof(float) * (n_embd + n_embd_gqa));
			
 
				-                    }
			
 
				-                    else {
			
 
				-                    Qcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wq, attn_norm_output), model.layers[il].bq);
			
 
				-                    Kcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wk, attn_norm_output), model.layers[il].bk);
			
 
				-                    Vcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wv, attn_norm_output), model.layers[il].bv);
			
 
				-
			
 
				-                    Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                    Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                    Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                }
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_scale(ctx0, Qcur, 1.0f / sqrtf(float(n_embd_head)));
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
			
 
				-                residual = ggml_get_rows(ctx0, residual, inp_out_ids);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, residual);
			
 
				-            residual = cur;
			
 
				+    if constexpr (iswa) {
			
 
				+        inp_attn = build_attn_inp_kv_iswa();
			
 
				+    } else {
			
 
				+        inp_attn = build_attn_inp_kv();
			
 
				+    }
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        auto * residual = inpL;
			
 
				 
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // rope freq factors for 128k context
			
 
				+            ggml_tensor * rope_factors = model.get_rope_factors(cparams, il);
			
 
				+
			
 
				+            ggml_tensor* attn_norm_output = build_norm(inpL,
			
 
				+                    model.layers[il].attn_norm,
			
 
				+                    model.layers[il].attn_norm_b,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        NULL,                      NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SWIGLU, LLM_FFN_SEQ, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            } else {
			
 
				-                // MoE branch
			
 
				-                cur = build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, true,
			
 
				-                        false, 0.0,
			
 
				-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                        il);
			
 
				-                cb(cur, "ffn_moe_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, residual, cur);
			
 
				+            cb(attn_norm_output, "attn_norm", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+            ggml_tensor * Qcur = nullptr;
			
 
				+            ggml_tensor * Kcur = nullptr;
			
 
				+            ggml_tensor * Vcur = nullptr;
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            if (model.layers[il].wqkv) {
			
 
				+                cur = build_lora_mm(model.layers[il].wqkv, attn_norm_output);
			
 
				+                cb(cur, "wqkv", il);
			
 
				+
			
 
				+                Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head * sizeof(float), cur->nb[1], 0 * sizeof(float) * (n_embd));
			
 
				+                Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head * sizeof(float), cur->nb[1], 1 * sizeof(float) * (n_embd));
			
 
				+                Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head * sizeof(float), cur->nb[1], 1 * sizeof(float) * (n_embd + n_embd_gqa));
			
 
				+                }
			
 
				+                else {
			
 
				+                Qcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wq, attn_norm_output), model.layers[il].bq);
			
 
				+                Kcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wk, attn_norm_output), model.layers[il].bk);
			
 
				+                Vcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wv, attn_norm_output), model.layers[il].bv);
			
 
				+
			
 
				+                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            }
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, rope_factors,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_scale(ctx0, Qcur, 1.0f / sqrtf(float(n_embd_head)));
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
			
 
				+            residual = ggml_get_rows(ctx0, residual, inp_out_ids);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, residual);
			
 
				+        residual = cur;
			
 
				+
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        if (model.layers[il].ffn_gate_inp == nullptr) {
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    NULL,                      NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SWIGLU, LLM_FFN_SEQ, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+        } else {
			
 
				+            // MoE branch
			
 
				+            cur = build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, true,
			
 
				+                    false, 0.0,
			
 
				+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                    il);
			
 
				+            cb(cur, "ffn_moe_out", il);
			
 
				         }
			
 
				-        cur = build_norm(inpL,
			
 
				-                model.output_norm,
			
 
				-                model.output_norm_b,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        cur = ggml_add(ctx0, residual, cur);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = build_norm(inpL,
			
 
				+            model.output_norm,
			
 
				+            model.output_norm_b,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        if (model.output_b != nullptr) {
			
 
				-            cb(cur, "result_output_no_bias", -1);
			
 
				-            cur = ggml_add(ctx0, cur, model.output_b);
			
 
				-        }
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    if (model.output_b != nullptr) {
			
 
				+        cb(cur, "result_output_no_bias", -1);
			
 
				+        cur = ggml_add(ctx0, cur, model.output_b);
			
 
				     }
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				+}
			
 
				 
			
 
				 // Explicit template instantiations
			
 
				 template struct llm_build_phi3<false>;
			
--- a/src/models/plamo.cpp
+++ b/src/models/plamo.cpp
@@ -1,110 +1,110 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_plamo::llm_build_plamo(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            ggml_tensor * sa_inp = cur;
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_embd_head, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_embd_head, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur    = ggml_get_rows(ctx0,    cur, inp_out_ids);
			
 
				-                sa_inp = ggml_get_rows(ctx0, sa_inp, inp_out_ids);
			
 
				-                inpL   = ggml_get_rows(ctx0,   inpL, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * sa_out = cur;
			
 
				-
			
 
				-            cur = sa_inp;
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, sa_out);
			
 
				-            cur = ggml_add(ctx0, cur, inpL);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        ggml_tensor * sa_inp = cur;
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_embd_head, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_embd_head, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur    = ggml_get_rows(ctx0,    cur, inp_out_ids);
			
 
				+            sa_inp = ggml_get_rows(ctx0, sa_inp, inp_out_ids);
			
 
				+            inpL   = ggml_get_rows(ctx0,   inpL, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * sa_out = cur;
			
 
				+
			
 
				+        cur = sa_inp;
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        cur = ggml_add(ctx0, cur, sa_out);
			
 
				+        cur = ggml_add(ctx0, cur, inpL);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/plm.cpp
+++ b/src/models/plm.cpp
@@ -1,168 +1,168 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_plm::llm_build_plm(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const float kq_scale = 1.0f/sqrtf(float(hparams.n_embd_head_k));
			
 
				-
			
 
				-        const uint32_t n_embd_head_qk_rope = hparams.n_rot;
			
 
				-        const uint32_t n_embd_head_qk_nope = hparams.n_embd_head_k - hparams.n_rot;
			
 
				-        const uint32_t kv_lora_rank = hparams.n_lora_kv;
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        // {n_embd, n_tokens}
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                ggml_tensor * q = NULL;
			
 
				-                q = ggml_mul_mat(ctx0, model.layers[il].wq, cur);
			
 
				-                cb(q, "q", il);
			
 
				-
			
 
				-                // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				-                ggml_tensor * q_nope = ggml_view_3d(ctx0, q, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				-                        0);
			
 
				-                cb(q_nope, "q_nope", il);
			
 
				-
			
 
				-                // and {n_head * n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * q_pe = ggml_view_3d(ctx0, q, n_embd_head_qk_rope, n_head, n_tokens,
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				-                        ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				-                        ggml_row_size(q->type, n_embd_head_qk_nope));
			
 
				-                cb(q_pe, "q_pe", il);
			
 
				-
			
 
				-                // {n_embd, kv_lora_rank + n_embd_head_qk_rope} * {n_embd, n_tokens} -> {kv_lora_rank + n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * kv_pe_compresseed = ggml_mul_mat(ctx0, model.layers[il].wkv_a_mqa, cur);
			
 
				-                cb(kv_pe_compresseed, "kv_pe_compresseed", il);
			
 
				-
			
 
				-                // split into {kv_lora_rank, n_tokens}
			
 
				-                ggml_tensor * kv_compressed = ggml_view_2d(ctx0, kv_pe_compresseed, kv_lora_rank, n_tokens,
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        0);
			
 
				-                cb(kv_compressed, "kv_compressed", il);
			
 
				-
			
 
				-                // and {n_embd_head_qk_rope, n_tokens}
			
 
				-                ggml_tensor * k_pe = ggml_view_3d(ctx0, kv_pe_compresseed, n_embd_head_qk_rope, 1, n_tokens,
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        kv_pe_compresseed->nb[1],
			
 
				-                        ggml_row_size(kv_pe_compresseed->type, kv_lora_rank));
			
 
				-                cb(k_pe, "k_pe", il);
			
 
				-
			
 
				-                kv_compressed = build_norm(kv_compressed,
			
 
				-                        model.layers[il].attn_kv_a_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(kv_compressed, "kv_compressed", il);
			
 
				-
			
 
				-                // {kv_lora_rank, n_head * (n_embd_head_qk_nope + n_embd_head_v)} * {kv_lora_rank, n_tokens} -> {n_head * (n_embd_head_qk_nope + n_embd_head_v), n_tokens}
			
 
				-                ggml_tensor * kv = ggml_mul_mat(ctx0, model.layers[il].wkv_b, kv_compressed);
			
 
				-                cb(kv, "kv", il);
			
 
				-
			
 
				-                // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				-                ggml_tensor * k_nope = ggml_view_3d(ctx0, kv, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				-                        ggml_row_size(kv->type, n_embd_head_qk_nope + hparams.n_embd_head_v),
			
 
				-                        ggml_row_size(kv->type, n_head * (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				-                        0);
			
 
				-                cb(k_nope, "k_nope", il);
			
 
				-
			
 
				-                // and {n_head * n_embd_head_v, n_tokens}
			
 
				-                ggml_tensor * v_states = ggml_view_3d(ctx0, kv, hparams.n_embd_head_v, n_head, n_tokens,
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)*n_head),
			
 
				-                        ggml_row_size(kv->type, (n_embd_head_qk_nope)));
			
 
				-                cb(v_states, "v_states", il);
			
 
				-
			
 
				-                v_states = ggml_cont(ctx0, v_states);
			
 
				-                cb(v_states, "v_states", il);
			
 
				-
			
 
				-                v_states = ggml_view_2d(ctx0, v_states, hparams.n_embd_head_v * n_head, n_tokens,
			
 
				-                        ggml_row_size(kv->type, hparams.n_embd_head_v * n_head),
			
 
				-                        0);
			
 
				-                cb(v_states, "v_states", il);
			
 
				-
			
 
				-                q_pe = ggml_rope_ext(
			
 
				-                        ctx0, q_pe, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                cb(q_pe, "q_pe", il);
			
 
				-
			
 
				-                // shared RoPE key
			
 
				-                k_pe = ggml_rope_ext(
			
 
				-                        ctx0, k_pe, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-                cb(k_pe, "k_pe", il);
			
 
				-
			
 
				-                ggml_tensor * q_states = ggml_concat(ctx0, q_nope, q_pe, 0);
			
 
				-                cb(q_states, "q_states", il);
			
 
				-
			
 
				-                ggml_tensor * k_states = ggml_concat(ctx0, k_nope, ggml_repeat(ctx0, k_pe, q_pe), 0);
			
 
				-                cb(k_states, "k_states", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        q_states, k_states, v_states, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				+    const float kq_scale = 1.0f/sqrtf(float(hparams.n_embd_head_k));
			
 
				+
			
 
				+    const uint32_t n_embd_head_qk_rope = hparams.n_rot;
			
 
				+    const uint32_t n_embd_head_qk_nope = hparams.n_embd_head_k - hparams.n_rot;
			
 
				+    const uint32_t kv_lora_rank = hparams.n_lora_kv;
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    // {n_embd, n_tokens}
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            ggml_tensor * q = NULL;
			
 
				+            q = ggml_mul_mat(ctx0, model.layers[il].wq, cur);
			
 
				+            cb(q, "q", il);
			
 
				+
			
 
				+            // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				+            ggml_tensor * q_nope = ggml_view_3d(ctx0, q, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				+                    0);
			
 
				+            cb(q_nope, "q_nope", il);
			
 
				+
			
 
				+            // and {n_head * n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * q_pe = ggml_view_3d(ctx0, q, n_embd_head_qk_rope, n_head, n_tokens,
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k),
			
 
				+                    ggml_row_size(q->type, hparams.n_embd_head_k * n_head),
			
 
				+                    ggml_row_size(q->type, n_embd_head_qk_nope));
			
 
				+            cb(q_pe, "q_pe", il);
			
 
				+
			
 
				+            // {n_embd, kv_lora_rank + n_embd_head_qk_rope} * {n_embd, n_tokens} -> {kv_lora_rank + n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * kv_pe_compresseed = ggml_mul_mat(ctx0, model.layers[il].wkv_a_mqa, cur);
			
 
				+            cb(kv_pe_compresseed, "kv_pe_compresseed", il);
			
 
				+
			
 
				+            // split into {kv_lora_rank, n_tokens}
			
 
				+            ggml_tensor * kv_compressed = ggml_view_2d(ctx0, kv_pe_compresseed, kv_lora_rank, n_tokens,
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    0);
			
 
				+            cb(kv_compressed, "kv_compressed", il);
			
 
				+
			
 
				+            // and {n_embd_head_qk_rope, n_tokens}
			
 
				+            ggml_tensor * k_pe = ggml_view_3d(ctx0, kv_pe_compresseed, n_embd_head_qk_rope, 1, n_tokens,
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    kv_pe_compresseed->nb[1],
			
 
				+                    ggml_row_size(kv_pe_compresseed->type, kv_lora_rank));
			
 
				+            cb(k_pe, "k_pe", il);
			
 
				+
			
 
				+            kv_compressed = build_norm(kv_compressed,
			
 
				+                    model.layers[il].attn_kv_a_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				+            cb(kv_compressed, "kv_compressed", il);
			
 
				+
			
 
				+            // {kv_lora_rank, n_head * (n_embd_head_qk_nope + n_embd_head_v)} * {kv_lora_rank, n_tokens} -> {n_head * (n_embd_head_qk_nope + n_embd_head_v), n_tokens}
			
 
				+            ggml_tensor * kv = ggml_mul_mat(ctx0, model.layers[il].wkv_b, kv_compressed);
			
 
				+            cb(kv, "kv", il);
			
 
				+
			
 
				+            // split into {n_head * n_embd_head_qk_nope, n_tokens}
			
 
				+            ggml_tensor * k_nope = ggml_view_3d(ctx0, kv, n_embd_head_qk_nope, n_head, n_tokens,
			
 
				+                    ggml_row_size(kv->type, n_embd_head_qk_nope + hparams.n_embd_head_v),
			
 
				+                    ggml_row_size(kv->type, n_head * (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				+                    0);
			
 
				+            cb(k_nope, "k_nope", il);
			
 
				+
			
 
				+            // and {n_head * n_embd_head_v, n_tokens}
			
 
				+            ggml_tensor * v_states = ggml_view_3d(ctx0, kv, hparams.n_embd_head_v, n_head, n_tokens,
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)),
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope + hparams.n_embd_head_v)*n_head),
			
 
				+                    ggml_row_size(kv->type, (n_embd_head_qk_nope)));
			
 
				+            cb(v_states, "v_states", il);
			
 
				+
			
 
				+            v_states = ggml_cont(ctx0, v_states);
			
 
				+            cb(v_states, "v_states", il);
			
 
				+
			
 
				+            v_states = ggml_view_2d(ctx0, v_states, hparams.n_embd_head_v * n_head, n_tokens,
			
 
				+                    ggml_row_size(kv->type, hparams.n_embd_head_v * n_head),
			
 
				+                    0);
			
 
				+            cb(v_states, "v_states", il);
			
 
				+
			
 
				+            q_pe = ggml_rope_ext(
			
 
				+                    ctx0, q_pe, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            cb(q_pe, "q_pe", il);
			
 
				+
			
 
				+            // shared RoPE key
			
 
				+            k_pe = ggml_rope_ext(
			
 
				+                    ctx0, k_pe, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+            cb(k_pe, "k_pe", il);
			
 
				+
			
 
				+            ggml_tensor * q_states = ggml_concat(ctx0, q_nope, q_pe, 0);
			
 
				+            cb(q_states, "q_states", il);
			
 
				+
			
 
				+            ggml_tensor * k_states = ggml_concat(ctx0, k_nope, ggml_repeat(ctx0, k_pe, q_pe), 0);
			
 
				+            cb(k_states, "k_states", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    q_states, k_states, v_states, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    NULL, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_RELU_SQR, LLM_FFN_SEQ, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				 
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                NULL, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_RELU_SQR, LLM_FFN_SEQ, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/qwen2.cpp
+++ b/src/models/qwen2.cpp
@@ -1,118 +1,117 @@
 
				 #include "models.h"
			
 
				 
			
 
				-
			
 
				 llm_build_qwen2::llm_build_qwen2(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        if (model.output_b != nullptr) {
			
 
				-            cur = ggml_add(ctx0, cur, model.output_b);
			
 
				-        }
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    if (model.output_b != nullptr) {
			
 
				+        cur = ggml_add(ctx0, cur, model.output_b);
			
 
				+    }
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/qwen2moe.cpp
+++ b/src/models/qwen2moe.cpp
@@ -1,151 +1,151 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_qwen2moe::llm_build_qwen2moe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+                cb(Kcur, "Kcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            ggml_tensor * moe_out =
			
 
				-                build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, false,
			
 
				-                        false, 0.0,
			
 
				-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                        il);
			
 
				-            cb(moe_out, "ffn_moe_out", il);
			
 
				-
			
 
				-            // FFN shared expert
			
 
				-            {
			
 
				-                ggml_tensor * cur_gate_inp = build_lora_mm(model.layers[il].ffn_gate_inp_shexp, cur);
			
 
				-                cb(cur_gate_inp, "ffn_shexp_gate_inp", il);
			
 
				-
			
 
				-                // sigmoid
			
 
				-                ggml_tensor * cur_gate = ggml_div(ctx0, ggml_silu(ctx0, cur_gate_inp), cur_gate_inp);
			
 
				-                cb(cur_gate, "ffn_shexp_gate", il);
			
 
				-
			
 
				-                ggml_tensor * cur_ffn = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur_ffn, "ffn_shexp", il);
			
 
				-
			
 
				-                ggml_tensor * ffn_shexp_out = ggml_mul(ctx0, cur_ffn, cur_gate);
			
 
				-                cb(ffn_shexp_out, "ffn_shexp_out", il);
			
 
				-
			
 
				-                moe_out = ggml_add(ctx0, moe_out, ffn_shexp_out);
			
 
				-                cb(moe_out, "ffn_out", il);
			
 
				-
			
 
				-                cur = moe_out;
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        ggml_tensor * moe_out =
			
 
				+            build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, false,
			
 
				+                    false, 0.0,
			
 
				+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                    il);
			
 
				+        cb(moe_out, "ffn_moe_out", il);
			
 
				+
			
 
				+        // FFN shared expert
			
 
				+        {
			
 
				+            ggml_tensor * cur_gate_inp = build_lora_mm(model.layers[il].ffn_gate_inp_shexp, cur);
			
 
				+            cb(cur_gate_inp, "ffn_shexp_gate_inp", il);
			
 
				+
			
 
				+            // sigmoid
			
 
				+            ggml_tensor * cur_gate = ggml_div(ctx0, ggml_silu(ctx0, cur_gate_inp), cur_gate_inp);
			
 
				+            cb(cur_gate, "ffn_shexp_gate", il);
			
 
				+
			
 
				+            ggml_tensor * cur_ffn = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up_shexp,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate_shexp, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down_shexp, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur_ffn, "ffn_shexp", il);
			
 
				+
			
 
				+            ggml_tensor * ffn_shexp_out = ggml_mul(ctx0, cur_ffn, cur_gate);
			
 
				+            cb(ffn_shexp_out, "ffn_shexp_out", il);
			
 
				+
			
 
				+            moe_out = ggml_add(ctx0, moe_out, ffn_shexp_out);
			
 
				+            cb(moe_out, "ffn_out", il);
			
 
				+
			
 
				+            cur = moe_out;
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/qwen2vl.cpp
+++ b/src/models/qwen2vl.cpp
@@ -1,117 +1,117 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_qwen2vl::llm_build_qwen2vl(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        int sections[4];
			
 
				-        std::copy(std::begin(hparams.rope_sections), std::begin(hparams.rope_sections) + 4, sections);
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_multi(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, sections, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_multi(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, sections, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    int sections[4];
			
 
				+    std::copy(std::begin(hparams.rope_sections), std::begin(hparams.rope_sections) + 4, sections);
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_multi(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, sections, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_multi(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, sections, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/qwen3.cpp
+++ b/src/models/qwen3.cpp
@@ -1,117 +1,117 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_qwen3::llm_build_qwen3(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/qwen3moe.cpp
+++ b/src/models/qwen3moe.cpp
@@ -1,124 +1,124 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_qwen3moe::llm_build_qwen3moe(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				-
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				-
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Qcur, "Qcur_normed", il);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				-                cb(Kcur, "Kcur_normed", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            ggml_tensor * moe_out =
			
 
				-                build_moe_ffn(cur,
			
 
				-                        model.layers[il].ffn_gate_inp,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_SILU, true,
			
 
				-                        false, 0.0,
			
 
				-                        LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				-                        il);
			
 
				-            cb(moe_out, "ffn_moe_out", il);
			
 
				-            cur = moe_out;
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				+
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				+
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				+
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				+
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = build_norm(Qcur, model.layers[il].attn_q_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Qcur, "Qcur_normed", il);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = build_norm(Kcur, model.layers[il].attn_k_norm, NULL, LLM_NORM_RMS, il);
			
 
				+            cb(Kcur, "Kcur_normed", il);
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        ggml_tensor * moe_out =
			
 
				+            build_moe_ffn(cur,
			
 
				+                    model.layers[il].ffn_gate_inp,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_SILU, true,
			
 
				+                    false, 0.0,
			
 
				+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
			
 
				+                    il);
			
 
				+        cb(moe_out, "ffn_moe_out", il);
			
 
				+        cur = moe_out;
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				+
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				+
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				+
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/refact.cpp
+++ b/src/models/refact.cpp
@@ -1,94 +1,94 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_refact::llm_build_refact(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/seed-oss.cpp
+++ b/src/models/seed-oss.cpp
@@ -1,124 +1,124 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_seed_oss::llm_build_seed_oss(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				+    const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].attn_post_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_post_norm", il);
			
 
				-
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+            cb(cur, "attn_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].attn_post_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_post_norm", il);
			
 
				+
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                model.layers[il].ffn_down, NULL, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/smallthinker.cpp
+++ b/src/models/smallthinker.cpp
@@ -2,118 +2,118 @@
 
				 
			
 
				 template <bool iswa>
			
 
				 llm_build_smallthinker<iswa>::llm_build_smallthinker(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params){
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				-        inp_attn_type * inp_attn = nullptr;
			
 
				+    using inp_attn_type = std::conditional_t<iswa, llm_graph_input_attn_kv_iswa, llm_graph_input_attn_kv>;
			
 
				+    inp_attn_type * inp_attn = nullptr;
			
 
				 
			
 
				-        if constexpr (iswa) {
			
 
				-            inp_attn = build_attn_inp_kv_iswa();
			
 
				-        } else {
			
 
				-            inp_attn = build_attn_inp_kv();
			
 
				-        }
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA  = inpL;
			
 
				-            ggml_tensor * probs  = nullptr;
			
 
				+    if constexpr (iswa) {
			
 
				+        inp_attn = build_attn_inp_kv_iswa();
			
 
				+    } else {
			
 
				+        inp_attn = build_attn_inp_kv();
			
 
				+    }
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-            probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
			
 
				-            cb(probs, "ffn_moe_logits", il);
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA  = inpL;
			
 
				+        ggml_tensor * probs  = nullptr;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+        probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
			
 
				+        cb(probs, "ffn_moe_logits", il);
			
 
				 
			
 
				-            // self_attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                struct ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,model.layers[il].attn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-                struct ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				+        // self_attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            struct ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-                struct ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				+            struct ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				 
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            struct ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-                if (hparams.n_no_rope_layer_step == n_layer || il % hparams.n_no_rope_layer_step != 0) {
			
 
				-                    Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				-                    Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				-                }
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				+            if (hparams.n_no_rope_layer_step == n_layer || il % hparams.n_no_rope_layer_step != 0) {
			
 
				+                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-                probs = ggml_get_rows(ctx0, probs, inp_out_ids);
			
 
				+                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                                    ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // MoE branch
			
 
				-            cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            ggml_tensor * ffn_out =
			
 
				-                build_moe_ffn(cur,
			
 
				-                        nullptr,
			
 
				-                        model.layers[il].ffn_up_exps,
			
 
				-                        model.layers[il].ffn_gate_exps,
			
 
				-                        model.layers[il].ffn_down_exps,
			
 
				-                        nullptr,
			
 
				-                        n_expert, n_expert_used,
			
 
				-                        LLM_FFN_RELU, true,
			
 
				-                        false, 0.0,
			
 
				-                        static_cast<llama_expert_gating_func_type>(hparams.expert_gating_func),
			
 
				-                        il, probs);
			
 
				-
			
 
				-            cb(ffn_out, "ffn_out", il);
			
 
				-            cur = ffn_out;
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur = ggml_get_rows(ctx0, cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            probs = ggml_get_rows(ctx0, probs, inp_out_ids);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // MoE branch
			
 
				+        cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+        ggml_tensor * ffn_out =
			
 
				+            build_moe_ffn(cur,
			
 
				+                    nullptr,
			
 
				+                    model.layers[il].ffn_up_exps,
			
 
				+                    model.layers[il].ffn_gate_exps,
			
 
				+                    model.layers[il].ffn_down_exps,
			
 
				+                    nullptr,
			
 
				+                    n_expert, n_expert_used,
			
 
				+                    LLM_FFN_RELU, true,
			
 
				+                    false, 0.0,
			
 
				+                    static_cast<llama_expert_gating_func_type>(hparams.expert_gating_func),
			
 
				+                    il, probs);
			
 
				+
			
 
				+        cb(ffn_out, "ffn_out", il);
			
 
				+        cur = ffn_out;
			
 
				+
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				-    }
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				+}
			
 
				 
			
 
				 // Explicit template instantiations
			
 
				 template struct llm_build_smallthinker<false>;
			
--- a/src/models/smollm3.cpp
+++ b/src/models/smollm3.cpp
@@ -1,128 +1,128 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_smollm3::llm_build_smollm3(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				+    const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            const bool use_rope = (il + 1) % hparams.n_no_rope_layer_step != 0;
			
 
				+        const bool use_rope = (il + 1) % hparams.n_no_rope_layer_step != 0;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                if (use_rope) {
			
 
				-                    Qcur = ggml_rope_ext(
			
 
				-                            ctx0, Qcur, inp_pos, nullptr,
			
 
				-                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                            ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                            );
			
 
				-
			
 
				-                    Kcur = ggml_rope_ext(
			
 
				-                            ctx0, Kcur, inp_pos, nullptr,
			
 
				-                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                            ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                            );
			
 
				-                }
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				-                cb(cur, "attn_out", il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                        model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				-                        model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            if (use_rope) {
			
 
				+                Qcur = ggml_rope_ext(
			
 
				+                        ctx0, Qcur, inp_pos, nullptr,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                        );
			
 
				+
			
 
				+                Kcur = ggml_rope_ext(
			
 
				+                        ctx0, Kcur, inp_pos, nullptr,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                        );
			
 
				             }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
			
 
				+            cb(cur, "attn_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				+                    LLM_NORM_RMS, il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                    model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
			
 
				+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				             cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/starcoder.cpp
+++ b/src/models/starcoder.cpp
@@ -1,100 +1,100 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_starcoder::llm_build_starcoder(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * pos = ggml_get_rows(ctx0, model.pos_embd, inp_pos);
			
 
				-        cb(pos, "pos_embd", -1);
			
 
				+    ggml_tensor * pos = ggml_get_rows(ctx0, model.pos_embd, inp_pos);
			
 
				+    cb(pos, "pos_embd", -1);
			
 
				 
			
 
				-        inpL = ggml_add(ctx0, inpL, pos);
			
 
				-        cb(inpL, "inpL", -1);
			
 
				+    inpL = ggml_add(ctx0, inpL, pos);
			
 
				+    cb(inpL, "inpL", -1);
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm,
			
 
				-                    model.layers[il].attn_norm_b,
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm,
			
 
				+                model.layers[il].attn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				+            cb(cur, "wqkv", il);
			
 
				+
			
 
				+            cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
			
 
				+            cb(cur, "bqkv", il);
			
 
				+
			
 
				+            ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*sizeof(float)*(n_embd));
			
 
				+            ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd));
			
 
				+            ggml_tensor * Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa));
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				+            inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				+        }
			
 
				+        // add the input
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // FF
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm,
			
 
				+                    model.layers[il].ffn_norm_b,
			
 
				                     LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                cur = build_lora_mm(model.layers[il].wqkv, cur);
			
 
				-                cb(cur, "wqkv", il);
			
 
				-
			
 
				-                cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
			
 
				-                cb(cur, "bqkv", il);
			
 
				-
			
 
				-                ggml_tensor * Qcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head,    n_tokens, n_embd_head*sizeof(float), cur->nb[1], 0*sizeof(float)*(n_embd));
			
 
				-                ggml_tensor * Kcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd));
			
 
				-                ggml_tensor * Vcur = ggml_view_3d(ctx0, cur, n_embd_head, n_head_kv, n_tokens, n_embd_head*sizeof(float), cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa));
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
			
 
				-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
			
 
				-            }
			
 
				-            // add the input
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // FF
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm,
			
 
				-                        model.layers[il].ffn_norm_b,
			
 
				-                        LLM_NORM, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                        NULL,                      NULL,                        NULL,
			
 
				-                        model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                    NULL,                      NULL,                        NULL,
			
 
				+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = build_norm(inpL,
			
 
				-                model.output_norm,
			
 
				-                model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = build_norm(inpL,
			
 
				+            model.output_norm,
			
 
				+            model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/starcoder2.cpp
+++ b/src/models/starcoder2.cpp
@@ -1,121 +1,121 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_starcoder2::llm_build_starcoder2(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                if (model.layers[il].bq) {
			
 
				-                    Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                    cb(Qcur, "Qcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                if (model.layers[il].bk) {
			
 
				-                    Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                    cb(Kcur, "Kcur", il);
			
 
				-                }
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                if (model.layers[il].bv) {
			
 
				-                    Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                    cb(Vcur, "Vcur", il);
			
 
				-                }
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				 
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            // compute Q and K and RoPE them
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            if (model.layers[il].bq) {
			
 
				+                Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				                 cb(Qcur, "Qcur", il);
			
 
				+            }
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            if (model.layers[il].bk) {
			
 
				+                Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				                 cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				             }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+            if (model.layers[il].bv) {
			
 
				+                Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				             }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				 
			
 
				-            // feed-forward network
			
 
				+        // feed-forward network
			
 
				 
			
 
				-            cur = build_norm(ffn_inp,
			
 
				-                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				-                    LLM_NORM, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				+        cur = build_norm(ffn_inp,
			
 
				+                model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				+                LLM_NORM, il);
			
 
				+        cb(cur, "ffn_norm", il);
			
 
				 
			
 
				-            cur = build_ffn(cur,
			
 
				-                    model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				-                    NULL,                      NULL,                        NULL,
			
 
				-                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				+        cur = build_ffn(cur,
			
 
				+                model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
			
 
				+                NULL,                      NULL,                        NULL,
			
 
				+                model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/t5-dec.cpp
+++ b/src/models/t5-dec.cpp
@@ -1,166 +1,166 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_t5_dec::llm_build_t5_dec(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        //const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    //const int64_t n_embd_gqa  = hparams.n_embd_v_gqa();
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        ggml_tensor * embd_enc       = build_inp_cross_embd();
			
 
				-        ggml_tensor * pos_bucket_dec = build_inp_pos_bucket_dec();
			
 
				+    ggml_tensor * embd_enc       = build_inp_cross_embd();
			
 
				+    ggml_tensor * pos_bucket_dec = build_inp_pos_bucket_dec();
			
 
				 
			
 
				-        const int64_t n_outputs_enc = embd_enc->ne[1];
			
 
				+    const int64_t n_outputs_enc = embd_enc->ne[1];
			
 
				 
			
 
				-        auto * inp_attn_self  = build_attn_inp_kv();
			
 
				-        auto * inp_attn_cross = build_attn_inp_cross();
			
 
				+    auto * inp_attn_self  = build_attn_inp_kv();
			
 
				+    auto * inp_attn_cross = build_attn_inp_cross();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        const int64_t dec_n_layer = hparams.dec_n_layer;
			
 
				+    const int64_t dec_n_layer = hparams.dec_n_layer;
			
 
				 
			
 
				-        for (int il = 0; il < dec_n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < dec_n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				-                    LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            ggml_tensor * attn_rel_b = model.layers[il].attn_rel_b ? model.layers[il].attn_rel_b : model.layers[0].attn_rel_b;
			
 
				+            ggml_tensor * kq_b = build_pos_bias(pos_bucket_dec, attn_rel_b);
			
 
				+
			
 
				+            cur = build_attn(inp_attn_self,
			
 
				+                    model.layers[il].wo, model.layers[il].bo,
			
 
				+                    Qcur, Kcur, Vcur, kq_b, nullptr, nullptr, 1.0f, il);
			
 
				+            cb(cur, "kqv_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(cur, "cross_inp", il);
			
 
				+
			
 
				+        ggml_tensor * inpCA = cur;
			
 
				+
			
 
				+        // norm
			
 
				+        cur = build_norm(cur,
			
 
				+                model.layers[il].attn_norm_cross, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm_cross", il);
			
 
				+
			
 
				+        // cross-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq_cross, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				 
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk_cross, embd_enc);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				 
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv_cross, embd_enc);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				 
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_outputs_enc);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_outputs_enc);
			
 
				 
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            cur = build_attn(inp_attn_cross,
			
 
				+                    model.layers[il].wo_cross, nullptr,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				+            cb(cur, "kqv_out", il);
			
 
				 
			
 
				-                ggml_tensor * attn_rel_b = model.layers[il].attn_rel_b ? model.layers[il].attn_rel_b : model.layers[0].attn_rel_b;
			
 
				-                ggml_tensor * kq_b = build_pos_bias(pos_bucket_dec, attn_rel_b);
			
 
				+            //ggml_tensor * q =                 ggml_permute(ctx0, Qcur, 0, 2, 1, 3);
			
 
				+            //ggml_tensor * k = ggml_cont(ctx0, ggml_permute(ctx0, Kcur, 0, 2, 1, 3));
			
 
				 
			
 
				-                cur = build_attn(inp_attn_self,
			
 
				-                        model.layers[il].wo, model.layers[il].bo,
			
 
				-                        Qcur, Kcur, Vcur, kq_b, nullptr, nullptr, 1.0f, il);
			
 
				-                cb(cur, "kqv_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(cur, "cross_inp", il);
			
 
				+            //ggml_tensor * kq = ggml_mul_mat(ctx0, k, q);
			
 
				+            //cb(kq, "kq", il);
			
 
				 
			
 
				-            ggml_tensor * inpCA = cur;
			
 
				+            //kq = ggml_soft_max_ext(ctx0, kq, KQ_mask_cross, 1.0f, hparams.f_max_alibi_bias);
			
 
				+            //cb(kq, "kq_soft_max_ext", il);
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(cur,
			
 
				-                    model.layers[il].attn_norm_cross, NULL,
			
 
				+            //ggml_tensor * v = ggml_cont(ctx0, ggml_transpose(ctx0, ggml_reshape_2d(ctx0, Vcur, n_embd_gqa, n_outputs_enc)));
			
 
				+            //cb(v, "v", il);
			
 
				+
			
 
				+            //ggml_tensor * kqv = ggml_mul_mat(ctx0, ggml_reshape_3d(ctx0, v, n_outputs_enc, n_embd_head, n_head_kv), kq);
			
 
				+            //cb(kqv, "kqv", il);
			
 
				+
			
 
				+            //ggml_tensor * kqv_merged = ggml_permute(ctx0, kqv, 0, 2, 1, 3);
			
 
				+            //cb(kqv_merged, "kqv_merged", il);
			
 
				+
			
 
				+            //cur = ggml_cont_2d(ctx0, kqv_merged, n_embd_gqa, n_tokens);
			
 
				+            //cb(cur, "kqv_merged_cont", il);
			
 
				+
			
 
				+            //ggml_build_forward_expand(gf, cur);
			
 
				+
			
 
				+            //cur = build_lora_mm(model.layers[il].wo_cross, cur);
			
 
				+            //cb(cur, "kqv_out", il);
			
 
				+        }
			
 
				+        if (il == dec_n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpCA = ggml_get_rows(ctx0, inpCA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpCA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm_cross", il);
			
 
				-
			
 
				-            // cross-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq_cross, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk_cross, embd_enc);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv_cross, embd_enc);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_outputs_enc);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_outputs_enc);
			
 
				-
			
 
				-                cur = build_attn(inp_attn_cross,
			
 
				-                        model.layers[il].wo_cross, nullptr,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f, il);
			
 
				-                cb(cur, "kqv_out", il);
			
 
				-
			
 
				-                //ggml_tensor * q =                 ggml_permute(ctx0, Qcur, 0, 2, 1, 3);
			
 
				-                //ggml_tensor * k = ggml_cont(ctx0, ggml_permute(ctx0, Kcur, 0, 2, 1, 3));
			
 
				-
			
 
				-                //ggml_tensor * kq = ggml_mul_mat(ctx0, k, q);
			
 
				-                //cb(kq, "kq", il);
			
 
				-
			
 
				-                //kq = ggml_soft_max_ext(ctx0, kq, KQ_mask_cross, 1.0f, hparams.f_max_alibi_bias);
			
 
				-                //cb(kq, "kq_soft_max_ext", il);
			
 
				-
			
 
				-                //ggml_tensor * v = ggml_cont(ctx0, ggml_transpose(ctx0, ggml_reshape_2d(ctx0, Vcur, n_embd_gqa, n_outputs_enc)));
			
 
				-                //cb(v, "v", il);
			
 
				-
			
 
				-                //ggml_tensor * kqv = ggml_mul_mat(ctx0, ggml_reshape_3d(ctx0, v, n_outputs_enc, n_embd_head, n_head_kv), kq);
			
 
				-                //cb(kqv, "kqv", il);
			
 
				-
			
 
				-                //ggml_tensor * kqv_merged = ggml_permute(ctx0, kqv, 0, 2, 1, 3);
			
 
				-                //cb(kqv_merged, "kqv_merged", il);
			
 
				-
			
 
				-                //cur = ggml_cont_2d(ctx0, kqv_merged, n_embd_gqa, n_tokens);
			
 
				-                //cb(cur, "kqv_merged_cont", il);
			
 
				-
			
 
				-                //ggml_build_forward_expand(gf, cur);
			
 
				-
			
 
				-                //cur = build_lora_mm(model.layers[il].wo_cross, cur);
			
 
				-                //cb(cur, "kqv_out", il);
			
 
				-            }
			
 
				-            if (il == dec_n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpCA = ggml_get_rows(ctx0, inpCA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpCA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                // T5 uses relu, flan-T5 uses gelu-gated
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        model.layers[il].ffn_gate ? LLM_FFN_GELU : LLM_FFN_RELU,
			
 
				-                        model.layers[il].ffn_gate ? LLM_FFN_PAR : LLM_FFN_SEQ,
			
 
				-                        il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            // T5 uses relu, flan-T5 uses gelu-gated
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    model.layers[il].ffn_gate ? LLM_FFN_GELU : LLM_FFN_RELU,
			
 
				+                    model.layers[il].ffn_gate ? LLM_FFN_PAR : LLM_FFN_SEQ,
			
 
				+                    il);
			
 
				             cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				-        cb(cur, "result_embd", -1);
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+    cb(cur, "result_embd", -1);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/t5-enc.cpp
+++ b/src/models/t5-enc.cpp
@@ -1,96 +1,96 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_t5_enc::llm_build_t5_enc(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        ggml_tensor * pos_bucket_enc = build_inp_pos_bucket_enc();
			
 
				+    ggml_tensor * pos_bucket_enc = build_inp_pos_bucket_enc();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_no_cache();
			
 
				+    auto * inp_attn = build_attn_inp_no_cache();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            // norm
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm_enc, NULL,
			
 
				+        // norm
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm_enc, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq_enc, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk_enc, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv_enc, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            ggml_tensor * attn_rel_b = model.layers[il].attn_rel_b_enc ? model.layers[il].attn_rel_b_enc : model.layers[0].attn_rel_b_enc;
			
 
				+            ggml_tensor * kq_b = build_pos_bias(pos_bucket_enc, attn_rel_b);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo_enc, nullptr,
			
 
				+                    Qcur, Kcur, Vcur, kq_b, nullptr, nullptr, 1.0f, il);
			
 
				+            cb(cur, "kqv_out", il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm_enc, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq_enc, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk_enc, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv_enc, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                ggml_tensor * attn_rel_b = model.layers[il].attn_rel_b_enc ? model.layers[il].attn_rel_b_enc : model.layers[0].attn_rel_b_enc;
			
 
				-                ggml_tensor * kq_b = build_pos_bias(pos_bucket_enc, attn_rel_b);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo_enc, nullptr,
			
 
				-                        Qcur, Kcur, Vcur, kq_b, nullptr, nullptr, 1.0f, il);
			
 
				-                cb(cur, "kqv_out", il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm_enc, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                // T5 uses relu, flan-T5 uses gelu-gated
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up_enc,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate_enc, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down_enc, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        model.layers[il].ffn_gate_enc ? LLM_FFN_GELU : LLM_FFN_RELU,
			
 
				-                        model.layers[il].ffn_gate_enc ? LLM_FFN_PAR  : LLM_FFN_SEQ,
			
 
				-                        il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            // T5 uses relu, flan-T5 uses gelu-gated
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up_enc,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate_enc, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down_enc, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    model.layers[il].ffn_gate_enc ? LLM_FFN_GELU : LLM_FFN_RELU,
			
 
				+                    model.layers[il].ffn_gate_enc ? LLM_FFN_PAR  : LLM_FFN_SEQ,
			
 
				+                    il);
			
 
				             cb(cur, "ffn_out", il);
			
 
				+        }
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+        cb(cur, "ffn_out", il);
			
 
				 
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				 
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				-        cb(cur, "result_embd", -1);
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				+    cb(cur, "result_embd", -1);
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm_enc, NULL,
			
 
				-                LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm_enc, NULL,
			
 
				+            LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/wavtokenizer-dec.cpp
+++ b/src/models/wavtokenizer-dec.cpp
@@ -1,149 +1,149 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_wavtokenizer_dec::llm_build_wavtokenizer_dec(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        cur = ggml_cont(ctx0, ggml_transpose(ctx0, inpL));
			
 
				+    cur = ggml_cont(ctx0, ggml_transpose(ctx0, inpL));
			
 
				 
			
 
				-        cur = ggml_conv_1d_ph(ctx0, model.conv1d, cur, 1, 1);
			
 
				-        cur = ggml_add(ctx0, cur, model.conv1d_b);
			
 
				+    cur = ggml_conv_1d_ph(ctx0, model.conv1d, cur, 1, 1);
			
 
				+    cur = ggml_add(ctx0, cur, model.conv1d_b);
			
 
				 
			
 
				-        // posnet
			
 
				-        for (uint32_t il = 0; il < hparams.posnet.n_layer; ++il) {
			
 
				-            const auto & layer = model.layers[il].posnet;
			
 
				+    // posnet
			
 
				+    for (uint32_t il = 0; il < hparams.posnet.n_layer; ++il) {
			
 
				+        const auto & layer = model.layers[il].posnet;
			
 
				 
			
 
				-            inpL = cur;
			
 
				+        inpL = cur;
			
 
				 
			
 
				-            switch (il) {
			
 
				-                case 0:
			
 
				-                case 1:
			
 
				-                case 3:
			
 
				-                case 4:
			
 
				-                    {
			
 
				-                        cur = build_norm(cur,
			
 
				-                                layer.norm1,
			
 
				-                                layer.norm1_b,
			
 
				-                                LLM_NORM_GROUP, 0);
			
 
				+        switch (il) {
			
 
				+            case 0:
			
 
				+            case 1:
			
 
				+            case 3:
			
 
				+            case 4:
			
 
				+                {
			
 
				+                    cur = build_norm(cur,
			
 
				+                            layer.norm1,
			
 
				+                            layer.norm1_b,
			
 
				+                            LLM_NORM_GROUP, 0);
			
 
				 
			
 
				-                        cur = ggml_mul(ctx0, ggml_sigmoid(ctx0, cur), cur);
			
 
				+                    cur = ggml_mul(ctx0, ggml_sigmoid(ctx0, cur), cur);
			
 
				 
			
 
				-                        cur = ggml_conv_1d_ph(ctx0, layer.conv1, cur, 1, 1);
			
 
				-                        cur = ggml_add(ctx0, cur, layer.conv1_b);
			
 
				+                    cur = ggml_conv_1d_ph(ctx0, layer.conv1, cur, 1, 1);
			
 
				+                    cur = ggml_add(ctx0, cur, layer.conv1_b);
			
 
				 
			
 
				-                        cur = build_norm(cur,
			
 
				-                                layer.norm2,
			
 
				-                                layer.norm2_b,
			
 
				-                                LLM_NORM_GROUP, 0);
			
 
				+                    cur = build_norm(cur,
			
 
				+                            layer.norm2,
			
 
				+                            layer.norm2_b,
			
 
				+                            LLM_NORM_GROUP, 0);
			
 
				 
			
 
				-                        cur = ggml_mul(ctx0, ggml_sigmoid(ctx0, cur), cur);
			
 
				+                    cur = ggml_mul(ctx0, ggml_sigmoid(ctx0, cur), cur);
			
 
				 
			
 
				-                        cur = ggml_conv_1d_ph(ctx0, layer.conv2, cur, 1, 1);
			
 
				-                        cur = ggml_add(ctx0, cur, layer.conv2_b);
			
 
				+                    cur = ggml_conv_1d_ph(ctx0, layer.conv2, cur, 1, 1);
			
 
				+                    cur = ggml_add(ctx0, cur, layer.conv2_b);
			
 
				 
			
 
				-                        cur = ggml_add(ctx0, cur, inpL);
			
 
				-                    } break;
			
 
				-                case 2:
			
 
				-                    {
			
 
				-                        cur = build_norm(cur,
			
 
				-                                layer.attn_norm,
			
 
				-                                layer.attn_norm_b,
			
 
				-                                LLM_NORM_GROUP, 0);
			
 
				+                    cur = ggml_add(ctx0, cur, inpL);
			
 
				+                } break;
			
 
				+            case 2:
			
 
				+                {
			
 
				+                    cur = build_norm(cur,
			
 
				+                            layer.attn_norm,
			
 
				+                            layer.attn_norm_b,
			
 
				+                            LLM_NORM_GROUP, 0);
			
 
				 
			
 
				-                        ggml_tensor * q;
			
 
				-                        ggml_tensor * k;
			
 
				-                        ggml_tensor * v;
			
 
				+                    ggml_tensor * q;
			
 
				+                    ggml_tensor * k;
			
 
				+                    ggml_tensor * v;
			
 
				 
			
 
				-                        q = ggml_conv_1d_ph(ctx0, layer.attn_q, cur, 1, 1);
			
 
				-                        k = ggml_conv_1d_ph(ctx0, layer.attn_k, cur, 1, 1);
			
 
				-                        v = ggml_conv_1d_ph(ctx0, layer.attn_v, cur, 1, 1);
			
 
				+                    q = ggml_conv_1d_ph(ctx0, layer.attn_q, cur, 1, 1);
			
 
				+                    k = ggml_conv_1d_ph(ctx0, layer.attn_k, cur, 1, 1);
			
 
				+                    v = ggml_conv_1d_ph(ctx0, layer.attn_v, cur, 1, 1);
			
 
				 
			
 
				-                        q = ggml_add(ctx0, q, layer.attn_q_b);
			
 
				-                        k = ggml_add(ctx0, k, layer.attn_k_b);
			
 
				-                        v = ggml_add(ctx0, v, layer.attn_v_b);
			
 
				+                    q = ggml_add(ctx0, q, layer.attn_q_b);
			
 
				+                    k = ggml_add(ctx0, k, layer.attn_k_b);
			
 
				+                    v = ggml_add(ctx0, v, layer.attn_v_b);
			
 
				 
			
 
				-                        q = ggml_cont(ctx0, ggml_transpose(ctx0, q));
			
 
				-                        k = ggml_cont(ctx0, ggml_transpose(ctx0, k));
			
 
				+                    q = ggml_cont(ctx0, ggml_transpose(ctx0, q));
			
 
				+                    k = ggml_cont(ctx0, ggml_transpose(ctx0, k));
			
 
				 
			
 
				-                        ggml_tensor * kq = ggml_mul_mat(ctx0, k, q);
			
 
				+                    ggml_tensor * kq = ggml_mul_mat(ctx0, k, q);
			
 
				 
			
 
				-                        kq = ggml_soft_max_ext(ctx0, kq, nullptr, 1.0f/sqrtf(float(hparams.posnet.n_embd)), 0.0f);
			
 
				+                    kq = ggml_soft_max_ext(ctx0, kq, nullptr, 1.0f/sqrtf(float(hparams.posnet.n_embd)), 0.0f);
			
 
				 
			
 
				-                        cur = ggml_mul_mat(ctx0, kq, v);
			
 
				+                    cur = ggml_mul_mat(ctx0, kq, v);
			
 
				 
			
 
				-                        cur = ggml_conv_1d_ph(ctx0, layer.attn_o, cur, 1, 1);
			
 
				-                        cur = ggml_add(ctx0, cur, layer.attn_o_b);
			
 
				+                    cur = ggml_conv_1d_ph(ctx0, layer.attn_o, cur, 1, 1);
			
 
				+                    cur = ggml_add(ctx0, cur, layer.attn_o_b);
			
 
				 
			
 
				-                        cur = ggml_add(ctx0, cur, inpL);
			
 
				-                    } break;
			
 
				-                case 5:
			
 
				-                    {
			
 
				-                        cur = build_norm(cur,
			
 
				-                                layer.norm,
			
 
				-                                layer.norm_b,
			
 
				-                                LLM_NORM_GROUP, 0);
			
 
				-                    } break;
			
 
				-                default: GGML_ABORT("unknown posnet layer");
			
 
				-            };
			
 
				-        }
			
 
				-        cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				+                    cur = ggml_add(ctx0, cur, inpL);
			
 
				+                } break;
			
 
				+            case 5:
			
 
				+                {
			
 
				+                    cur = build_norm(cur,
			
 
				+                            layer.norm,
			
 
				+                            layer.norm_b,
			
 
				+                            LLM_NORM_GROUP, 0);
			
 
				+                } break;
			
 
				+            default: GGML_ABORT("unknown posnet layer");
			
 
				+        };
			
 
				+    }
			
 
				+    cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.tok_norm,
			
 
				-                model.tok_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.tok_norm,
			
 
				+            model.tok_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				+    cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				 
			
 
				-        inpL = cur;
			
 
				+    inpL = cur;
			
 
				 
			
 
				-        // convnext
			
 
				-        for (uint32_t il = 0; il < hparams.convnext.n_layer; ++il) {
			
 
				-            const auto & layer = model.layers[il].convnext;
			
 
				+    // convnext
			
 
				+    for (uint32_t il = 0; il < hparams.convnext.n_layer; ++il) {
			
 
				+        const auto & layer = model.layers[il].convnext;
			
 
				 
			
 
				-            cur = inpL;
			
 
				+        cur = inpL;
			
 
				 
			
 
				-            cur = ggml_conv_1d_dw_ph(ctx0, layer.dw, cur, 1, 1);
			
 
				-            cur = ggml_add(ctx0, cur, layer.dw_b);
			
 
				+        cur = ggml_conv_1d_dw_ph(ctx0, layer.dw, cur, 1, 1);
			
 
				+        cur = ggml_add(ctx0, cur, layer.dw_b);
			
 
				 
			
 
				-            cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				+        cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				 
			
 
				-            cur = build_norm(cur,
			
 
				-                    layer.norm,
			
 
				-                    layer.norm_b,
			
 
				-                    LLM_NORM, -1);
			
 
				+        cur = build_norm(cur,
			
 
				+                layer.norm,
			
 
				+                layer.norm_b,
			
 
				+                LLM_NORM, -1);
			
 
				 
			
 
				-            cur = build_ffn(cur,
			
 
				-                    layer.pw1, layer.pw1_b, NULL,
			
 
				-                    NULL,      NULL,        NULL,
			
 
				-                    layer.pw2, layer.pw2_b, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				+        cur = build_ffn(cur,
			
 
				+                layer.pw1, layer.pw1_b, NULL,
			
 
				+                NULL,      NULL,        NULL,
			
 
				+                layer.pw2, layer.pw2_b, NULL,
			
 
				+                NULL,
			
 
				+                LLM_FFN_GELU, LLM_FFN_SEQ, il);
			
 
				 
			
 
				-            cur = ggml_mul(ctx0, cur, layer.gamma);
			
 
				+        cur = ggml_mul(ctx0, cur, layer.gamma);
			
 
				 
			
 
				-            cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				+        cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				 
			
 
				-            inpL = ggml_add(ctx0, cur, inpL);
			
 
				-        }
			
 
				-        cur = inpL;
			
 
				+        inpL = ggml_add(ctx0, cur, inpL);
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				+    cur = ggml_cont(ctx0, ggml_transpose(ctx0, cur));
			
 
				 
			
 
				-        cur = build_norm(cur,
			
 
				-                model.output_norm,
			
 
				-                model.output_norm_b,
			
 
				-                LLM_NORM, -1);
			
 
				+    cur = build_norm(cur,
			
 
				+            model.output_norm,
			
 
				+            model.output_norm_b,
			
 
				+            LLM_NORM, -1);
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cur = ggml_add(ctx0, cur, model.output_b);
			
 
				+    cur = ggml_add(ctx0, cur, model.output_b);
			
 
				 
			
 
				-        cb(cur, "result_embd", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_embd", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }
			
--- a/src/models/xverse.cpp
+++ b/src/models/xverse.cpp
@@ -1,108 +1,108 @@
 
				 #include "models.h"
			
 
				 
			
 
				 llm_build_xverse::llm_build_xverse(const llama_model & model, const llm_graph_params & params) : llm_graph_context(params) {
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+    const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				 
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+    GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				 
			
 
				-        ggml_tensor * cur;
			
 
				-        ggml_tensor * inpL;
			
 
				+    ggml_tensor * cur;
			
 
				+    ggml_tensor * inpL;
			
 
				 
			
 
				-        inpL = build_inp_embd(model.tok_embd);
			
 
				+    inpL = build_inp_embd(model.tok_embd);
			
 
				 
			
 
				-        // inp_pos - contains the positions
			
 
				-        ggml_tensor * inp_pos = build_inp_pos();
			
 
				+    // inp_pos - contains the positions
			
 
				+    ggml_tensor * inp_pos = build_inp_pos();
			
 
				 
			
 
				-        auto * inp_attn = build_attn_inp_kv();
			
 
				+    auto * inp_attn = build_attn_inp_kv();
			
 
				 
			
 
				-        ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				+    ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            ggml_tensor * inpSA = inpL;
			
 
				+    for (int il = 0; il < n_layer; ++il) {
			
 
				+        ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				-            cur = build_norm(inpL,
			
 
				-                    model.layers[il].attn_norm, NULL,
			
 
				+        cur = build_norm(inpL,
			
 
				+                model.layers[il].attn_norm, NULL,
			
 
				+                LLM_NORM_RMS, il);
			
 
				+        cb(cur, "attn_norm", il);
			
 
				+
			
 
				+        // self-attention
			
 
				+        {
			
 
				+            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				+            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				+
			
 
				+            Qcur = ggml_rope_ext(
			
 
				+                    ctx0, Qcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            Kcur = ggml_rope_ext(
			
 
				+                    ctx0, Kcur, inp_pos, nullptr,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                    );
			
 
				+
			
 
				+            cb(Qcur, "Qcur", il);
			
 
				+            cb(Kcur, "Kcur", il);
			
 
				+            cb(Vcur, "Vcur", il);
			
 
				+
			
 
				+            cur = build_attn(inp_attn,
			
 
				+                    model.layers[il].wo, NULL,
			
 
				+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				+        }
			
 
				+        if (il == n_layer - 1 && inp_out_ids) {
			
 
				+            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				+            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				+        }
			
 
				+        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+        cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+        // feed-forward network
			
 
				+        {
			
 
				+            cur = build_norm(ffn_inp,
			
 
				+                    model.layers[il].ffn_norm, NULL,
			
 
				                     LLM_NORM_RMS, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
			
 
				-                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				-
			
 
				-                Qcur = ggml_rope_ext(
			
 
				-                        ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                Kcur = ggml_rope_ext(
			
 
				-                        ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				-                        ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                        );
			
 
				-
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-
			
 
				-                cur = build_attn(inp_attn,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
			
 
				-            }
			
 
				-            if (il == n_layer - 1 && inp_out_ids) {
			
 
				-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
			
 
				-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
			
 
				-            }
			
 
				-            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            {
			
 
				-                cur = build_norm(ffn_inp,
			
 
				-                        model.layers[il].ffn_norm, NULL,
			
 
				-                        LLM_NORM_RMS, il);
			
 
				-                cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-                cur = build_ffn(cur,
			
 
				-                        model.layers[il].ffn_up,   NULL, NULL,
			
 
				-                        model.layers[il].ffn_gate, NULL, NULL,
			
 
				-                        model.layers[il].ffn_down, NULL, NULL,
			
 
				-                        NULL,
			
 
				-                        LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				-                cb(cur, "ffn_out", il);
			
 
				-            }
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-
			
 
				-            cur = build_cvec(cur, il);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = build_ffn(cur,
			
 
				+                    model.layers[il].ffn_up,   NULL, NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				         }
			
 
				-        cur = inpL;
			
 
				+        cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+
			
 
				+        cur = build_cvec(cur, il);
			
 
				+        cb(cur, "l_out", il);
			
 
				+
			
 
				+        // input for next layer
			
 
				+        inpL = cur;
			
 
				+    }
			
 
				+    cur = inpL;
			
 
				 
			
 
				-        cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				+    cur = build_norm(cur, model.output_norm, NULL, LLM_NORM_RMS, -1);
			
 
				 
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-        res->t_embd = cur;
			
 
				+    cb(cur, "result_norm", -1);
			
 
				+    res->t_embd = cur;
			
 
				 
			
 
				-        // lm_head
			
 
				-        cur = build_lora_mm(model.output, cur);
			
 
				+    // lm_head
			
 
				+    cur = build_lora_mm(model.output, cur);
			
 
				 
			
 
				-        cb(cur, "result_output", -1);
			
 
				-        res->t_logits = cur;
			
 
				+    cb(cur, "result_output", -1);
			
 
				+    res->t_logits = cur;
			
 
				 
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				+    ggml_build_forward_expand(gf, cur);
			
 
				 }