1 год назад · d3bac7d584
--- a/llama.cpp
+++ b/llama.cpp
@@ -4666,126 +4666,6 @@ struct llm_build_context {
 
				             ctx0 = nullptr;
			
 
				         }
			
 
				     }
			
 
				-    struct ggml_cgraph * build_orion() {
			
 
				-        struct ggml_cgraph * gf = ggml_new_graph_custom(ctx0, LLAMA_MAX_NODES, false);
			
 
				-
			
 
				-        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				-        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				-
			
 
				-        struct ggml_tensor * cur;
			
 
				-        struct ggml_tensor * inpL;
			
 
				-
			
 
				-        inpL = llm_build_inp_embd(ctx0, hparams, batch, model.tok_embd, lctx.inp_tokens, lctx.inp_embd, cb);
			
 
				-        cb(inpL, "inp_embd", -1);
			
 
				-
			
 
				-        // inp_pos - contains the positions
			
 
				-        struct ggml_tensor * inp_pos = ggml_view_1d(ctx0, lctx.inp_pos, n_tokens, 0);
			
 
				-        cb(inp_pos, "inp_pos", -1);
			
 
				-
			
 
				-        // KQ_mask (mask for 1 head, it will be broadcasted to all heads)
			
 
				-        struct ggml_tensor * KQ_mask = ggml_view_2d(ctx0, lctx.inp_KQ_mask, n_kv, n_tokens, n_kv*ggml_type_size(lctx.inp_KQ_mask->type), 0);
			
 
				-        cb(KQ_mask, "KQ_mask", -1);
			
 
				-
			
 
				-        // shift the entire K-cache if needed
			
 
				-        if (do_rope_shift) {
			
 
				-            llm_build_k_shift(ctx0, hparams, cparams, kv_self, gf, lctx.inp_K_shift, LLM_ROPE, n_ctx, freq_base, freq_scale, cb);
			
 
				-        }
			
 
				-
			
 
				-        for (int il = 0; il < n_layer; ++il) {
			
 
				-            struct ggml_tensor * inpSA = inpL;
			
 
				-
			
 
				-            // norm
			
 
				-            cur = llm_build_norm(ctx0, inpL, hparams,
			
 
				-                    model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				-                    LLM_NORM, cb, il);
			
 
				-            cb(cur, "attn_norm", il);
			
 
				-
			
 
				-            // self-attention
			
 
				-            {
			
 
				-                // compute Q and K and RoPE them
			
 
				-                struct ggml_tensor * Qcur = ggml_mul_mat(ctx0, model.layers[il].wq, cur);
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-                // if (model.layers[il].bq) {
			
 
				-                //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				-                //     cb(Qcur, "Qcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                struct ggml_tensor * Kcur = ggml_mul_mat(ctx0, model.layers[il].wk, cur);
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-                // if (model.layers[il].bk) {
			
 
				-                //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				-                //     cb(Kcur, "Kcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                struct ggml_tensor * Vcur = ggml_mul_mat(ctx0, model.layers[il].wv, cur);
			
 
				-                cb(Vcur, "Vcur", il);
			
 
				-                // if (model.layers[il].bv) {
			
 
				-                //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				-                //     cb(Vcur, "Vcur", il);
			
 
				-                // }
			
 
				-
			
 
				-                Qcur = ggml_rope_custom(
			
 
				-                    ctx0, ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens), inp_pos,
			
 
				-                    hparams.n_rot, 2, 0, n_orig_ctx, freq_base, freq_scale,
			
 
				-                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                );
			
 
				-                cb(Qcur, "Qcur", il);
			
 
				-
			
 
				-                Kcur = ggml_rope_custom(
			
 
				-                    ctx0, ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens), inp_pos,
			
 
				-                    hparams.n_rot, 2, 0, n_orig_ctx, freq_base, freq_scale,
			
 
				-                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				-                );
			
 
				-                cb(Kcur, "Kcur", il);
			
 
				-
			
 
				-                cur = llm_build_kv(ctx0, model, hparams, kv_self, gf,
			
 
				-                        model.layers[il].wo, NULL,
			
 
				-                        Kcur, Vcur, Qcur, KQ_mask, n_ctx, n_tokens, kv_head, n_kv, -1.0f, 1.0f/sqrtf(float(n_embd_head)), cb, il);
			
 
				-                cb(cur, "kqv_out", il);
			
 
				-            }
			
 
				-
			
 
				-            struct ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				-            cb(ffn_inp, "ffn_inp", il);
			
 
				-
			
 
				-            // feed-forward network
			
 
				-            cur = llm_build_norm(ctx0, ffn_inp, hparams,
			
 
				-                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				-                    LLM_NORM, cb, il);
			
 
				-            cb(cur, "ffn_norm", il);
			
 
				-
			
 
				-            cur = llm_build_ffn(ctx0, cur,
			
 
				-                    model.layers[il].ffn_up,   NULL,
			
 
				-                    model.layers[il].ffn_gate, NULL,
			
 
				-                    model.layers[il].ffn_down, NULL,
			
 
				-                    NULL,
			
 
				-                    LLM_FFN_SILU, LLM_FFN_PAR, cb, il);
			
 
				-            cb(cur, "ffn_out", il);
			
 
				-
			
 
				-            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				-            cb(cur, "l_out", il);
			
 
				-
			
 
				-            // input for next layer
			
 
				-            inpL = cur;
			
 
				-        }
			
 
				-
			
 
				-        cur = inpL;
			
 
				-
			
 
				-        cur = llm_build_norm(ctx0, cur, hparams,
			
 
				-                model.output_norm, model.output_norm_b,
			
 
				-                LLM_NORM, cb, -1);
			
 
				-        cb(cur, "result_norm", -1);
			
 
				-
			
 
				-        // lm_head
			
 
				-        cur = ggml_mul_mat(ctx0, model.output, cur);
			
 
				-        cb(cur, "result_output", -1);
			
 
				-
			
 
				-        ggml_build_forward_expand(gf, cur);
			
 
				-
			
 
				-        return gf;
			
 
				-    }
			
 
				-
			
 
				-
			
 
				 
			
 
				     struct ggml_cgraph * build_llama() {
			
 
				         struct ggml_cgraph * gf = ggml_new_graph_custom(ctx0, LLAMA_MAX_NODES, false);
			
@@ -6589,6 +6469,125 @@ struct llm_build_context {
 
				 
			
 
				         return gf;
			
 
				     }
			
 
				+
			
 
				+    struct ggml_cgraph * build_orion() {
			
 
				+        struct ggml_cgraph * gf = ggml_new_graph_custom(ctx0, LLAMA_MAX_NODES, false);
			
 
				+
			
 
				+        const int64_t n_embd_head = hparams.n_embd_head_v;
			
 
				+        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
			
 
				+        GGML_ASSERT(n_embd_head == hparams.n_rot);
			
 
				+
			
 
				+        struct ggml_tensor * cur;
			
 
				+        struct ggml_tensor * inpL;
			
 
				+
			
 
				+        inpL = llm_build_inp_embd(ctx0, hparams, batch, model.tok_embd, lctx.inp_tokens, lctx.inp_embd, cb);
			
 
				+        cb(inpL, "inp_embd", -1);
			
 
				+
			
 
				+        // inp_pos - contains the positions
			
 
				+        struct ggml_tensor * inp_pos = ggml_view_1d(ctx0, lctx.inp_pos, n_tokens, 0);
			
 
				+        cb(inp_pos, "inp_pos", -1);
			
 
				+
			
 
				+        // KQ_mask (mask for 1 head, it will be broadcasted to all heads)
			
 
				+        struct ggml_tensor * KQ_mask = ggml_view_2d(ctx0, lctx.inp_KQ_mask, n_kv, n_tokens, n_kv*ggml_type_size(lctx.inp_KQ_mask->type), 0);
			
 
				+        cb(KQ_mask, "KQ_mask", -1);
			
 
				+
			
 
				+        // shift the entire K-cache if needed
			
 
				+        if (do_rope_shift) {
			
 
				+            llm_build_k_shift(ctx0, hparams, cparams, kv_self, gf, lctx.inp_K_shift, LLM_ROPE, n_ctx, freq_base, freq_scale, cb);
			
 
				+        }
			
 
				+
			
 
				+        for (int il = 0; il < n_layer; ++il) {
			
 
				+            struct ggml_tensor * inpSA = inpL;
			
 
				+
			
 
				+            // norm
			
 
				+            cur = llm_build_norm(ctx0, inpL, hparams,
			
 
				+                    model.layers[il].attn_norm, model.layers[il].attn_norm_b,
			
 
				+                    LLM_NORM, cb, il);
			
 
				+            cb(cur, "attn_norm", il);
			
 
				+
			
 
				+            // self-attention
			
 
				+            {
			
 
				+                // compute Q and K and RoPE them
			
 
				+                struct ggml_tensor * Qcur = ggml_mul_mat(ctx0, model.layers[il].wq, cur);
			
 
				+                cb(Qcur, "Qcur", il);
			
 
				+                // if (model.layers[il].bq) {
			
 
				+                //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
			
 
				+                //     cb(Qcur, "Qcur", il);
			
 
				+                // }
			
 
				+
			
 
				+                struct ggml_tensor * Kcur = ggml_mul_mat(ctx0, model.layers[il].wk, cur);
			
 
				+                cb(Kcur, "Kcur", il);
			
 
				+                // if (model.layers[il].bk) {
			
 
				+                //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
			
 
				+                //     cb(Kcur, "Kcur", il);
			
 
				+                // }
			
 
				+
			
 
				+                struct ggml_tensor * Vcur = ggml_mul_mat(ctx0, model.layers[il].wv, cur);
			
 
				+                cb(Vcur, "Vcur", il);
			
 
				+                // if (model.layers[il].bv) {
			
 
				+                //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
			
 
				+                //     cb(Vcur, "Vcur", il);
			
 
				+                // }
			
 
				+
			
 
				+                Qcur = ggml_rope_custom(
			
 
				+                    ctx0, ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens), inp_pos,
			
 
				+                    hparams.n_rot, 2, 0, n_orig_ctx, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                );
			
 
				+                cb(Qcur, "Qcur", il);
			
 
				+
			
 
				+                Kcur = ggml_rope_custom(
			
 
				+                    ctx0, ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens), inp_pos,
			
 
				+                    hparams.n_rot, 2, 0, n_orig_ctx, freq_base, freq_scale,
			
 
				+                    ext_factor, attn_factor, beta_fast, beta_slow
			
 
				+                );
			
 
				+                cb(Kcur, "Kcur", il);
			
 
				+
			
 
				+                cur = llm_build_kv(ctx0, model, hparams, kv_self, gf,
			
 
				+                        model.layers[il].wo, NULL,
			
 
				+                        Kcur, Vcur, Qcur, KQ_mask, n_ctx, n_tokens, kv_head, n_kv, -1.0f, 1.0f/sqrtf(float(n_embd_head)), cb, il);
			
 
				+                cb(cur, "kqv_out", il);
			
 
				+            }
			
 
				+
			
 
				+            struct ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
			
 
				+            cb(ffn_inp, "ffn_inp", il);
			
 
				+
			
 
				+            // feed-forward network
			
 
				+            cur = llm_build_norm(ctx0, ffn_inp, hparams,
			
 
				+                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
			
 
				+                    LLM_NORM, cb, il);
			
 
				+            cb(cur, "ffn_norm", il);
			
 
				+
			
 
				+            cur = llm_build_ffn(ctx0, cur,
			
 
				+                    model.layers[il].ffn_up,   NULL,
			
 
				+                    model.layers[il].ffn_gate, NULL,
			
 
				+                    model.layers[il].ffn_down, NULL,
			
 
				+                    NULL,
			
 
				+                    LLM_FFN_SILU, LLM_FFN_PAR, cb, il);
			
 
				+            cb(cur, "ffn_out", il);
			
 
				+
			
 
				+            cur = ggml_add(ctx0, cur, ffn_inp);
			
 
				+            cb(cur, "l_out", il);
			
 
				+
			
 
				+            // input for next layer
			
 
				+            inpL = cur;
			
 
				+        }
			
 
				+
			
 
				+        cur = inpL;
			
 
				+
			
 
				+        cur = llm_build_norm(ctx0, cur, hparams,
			
 
				+                model.output_norm, model.output_norm_b,
			
 
				+                LLM_NORM, cb, -1);
			
 
				+        cb(cur, "result_norm", -1);
			
 
				+
			
 
				+        // lm_head
			
 
				+        cur = ggml_mul_mat(ctx0, model.output, cur);
			
 
				+        cb(cur, "result_output", -1);
			
 
				+
			
 
				+        ggml_build_forward_expand(gf, cur);
			
 
				+
			
 
				+        return gf;
			
 
				+    }
			
 
				 };
			
 
				 
			
 
				 static struct ggml_cgraph * llama_build_graph(