1 week ago · ad8d85bd94
--- a/src/CMakeLists.txt
+++ b/src/CMakeLists.txt
@@ -24,6 +24,7 @@ add_library(llama
 
															             llama-kv-cache-iswa.cpp
														
 
															             llama-memory.cpp
														
 
															             llama-memory-hybrid.cpp
														
 
															+            llama-memory-hybrid-iswa.cpp
														
 
															             llama-memory-recurrent.cpp
														
 
															             llama-mmap.cpp
														
 
															             llama-model-loader.cpp
														
--- a/src/llama-graph.cpp
+++ b/src/llama-graph.cpp
@@ -7,6 +7,7 @@
 
															 #include "llama-kv-cache.h"
														
 
															 #include "llama-kv-cache-iswa.h"
														
 
															 #include "llama-memory-hybrid.h"
														
 
															+#include "llama-memory-hybrid-iswa.h"
														
 
															 #include "llama-memory-recurrent.h"
														
 
															 #include <cassert>
														
@@ -510,6 +511,76 @@ bool llm_graph_input_mem_hybrid::can_reuse(const llm_graph_params & params) {
 
															     return res;
														
 
															 }
														
 
															+void llm_graph_input_mem_hybrid_iswa::set_input(const llama_ubatch * ubatch) {
														
 
															+    const auto * attn_ctx = mctx->get_attn();
														
 
															+
														
 
															+    // base tensors may not be allocated if there are no non-SWA attention layers
														
 
															+    if (inp_attn->self_k_idxs && inp_attn->self_k_idxs->buffer) {
														
 
															+        attn_ctx->get_base()->set_input_k_idxs(inp_attn->self_k_idxs, ubatch);
														
 
															+        attn_ctx->get_base()->set_input_v_idxs(inp_attn->self_v_idxs, ubatch);
														
 
															+
														
 
															+        attn_ctx->get_base()->set_input_kq_mask(inp_attn->self_kq_mask, ubatch, cparams.causal_attn);
														
 
															+    }
														
 
															+
														
 
															+    // swa tensors may not be allocated if there are no SWA attention layers
														
 
															+    if (inp_attn->self_k_idxs_swa && inp_attn->self_k_idxs_swa->buffer) {
														
 
															+        attn_ctx->get_swa()->set_input_k_idxs(inp_attn->self_k_idxs_swa, ubatch);
														
 
															+        attn_ctx->get_swa()->set_input_v_idxs(inp_attn->self_v_idxs_swa, ubatch);
														
 
															+
														
 
															+        attn_ctx->get_swa()->set_input_kq_mask(inp_attn->self_kq_mask_swa, ubatch, cparams.causal_attn);
														
 
															+    }
														
 
															+
														
 
															+    const int64_t n_rs = mctx->get_recr()->get_n_rs();
														
 
															+
														
 
															+    if (inp_rs->s_copy) {
														
 
															+        GGML_ASSERT(ggml_backend_buffer_is_host(inp_rs->s_copy->buffer));
														
 
															+        int32_t * data = (int32_t *) inp_rs->s_copy->data;
														
 
															+
														
 
															+        // assuming copy destinations ALWAYS happen ONLY on the cells between head and head+n
														
 
															+        for (uint32_t i = 0; i < n_rs; ++i) {
														
 
															+            data[i] = mctx->get_recr()->s_copy(i);
														
 
															+        }
														
 
															+    }
														
 
															+}
														
 
															+
														
 
															+bool llm_graph_input_mem_hybrid_iswa::can_reuse(const llm_graph_params & params) {
														
 
															+    const auto * mctx = static_cast<const llama_memory_hybrid_iswa_context *>(params.mctx);
														
 
															+
														
 
															+    this->mctx = mctx;
														
 
															+
														
 
															+    bool res = true;
														
 
															+
														
 
															+    const auto * attn_ctx = mctx->get_attn();
														
 
															+
														
 
															+    // base tensors may not be allocated if there are no non-SWA attention layers
														
 
															+    if (inp_attn->self_k_idxs && inp_attn->self_k_idxs->buffer) {
														
 
															+        res &= inp_attn->self_k_idxs->ne[0] == params.ubatch.n_tokens;
														
 
															+      //res &= inp_attn->self_v_idxs->ne[0] == params.ubatch.n_tokens; // TODO: need to move this to the unified cache and check there
														
 
															+
														
 
															+        res &= inp_attn->self_kq_mask->ne[0] == attn_ctx->get_base()->get_n_kv();
														
 
															+        res &= inp_attn->self_kq_mask->ne[1] == params.ubatch.n_tokens;
														
 
															+    }
														
 
															+
														
 
															+    // swa tensors may not be allocated if there are no SWA attention layers
														
 
															+    if (inp_attn->self_k_idxs_swa && inp_attn->self_k_idxs_swa->buffer) {
														
 
															+        res &= inp_attn->self_k_idxs_swa->ne[0] == params.ubatch.n_tokens;
														
 
															+      //res &= inp_attn->self_v_idxs_swa->ne[0] == params.ubatch.n_tokens; // TODO: need to move this to the unified cache and check there
														
 
															+
														
 
															+        res &= inp_attn->self_kq_mask_swa->ne[0] == attn_ctx->get_swa()->get_n_kv();
														
 
															+        res &= inp_attn->self_kq_mask_swa->ne[1] == params.ubatch.n_tokens;
														
 
															+    }
														
 
															+
														
 
															+    res &= inp_rs->s_copy->ne[0] == mctx->get_recr()->get_n_rs();
														
 
															+
														
 
															+    res &= inp_rs->s_copy_main->ne[0]  == params.ubatch.n_seqs;
														
 
															+    res &= inp_rs->s_copy_extra->ne[0] == mctx->get_recr()->get_n_rs() - params.ubatch.n_seqs;
														
 
															+
														
 
															+    res &= inp_rs->head == mctx->get_recr()->get_head();
														
 
															+    res &= inp_rs->rs_z == mctx->get_recr()->get_rs_z();
														
 
															+
														
 
															+    return res;
														
 
															+}
														
 
															+
														
 
															 void llm_graph_input_sampling::set_input(const llama_ubatch * ubatch) {
														
 
															     // set the inputs only for the active samplers in the current ubatch
														
 
															     std::unordered_set<llama_seq_id> active_samplers;
														
@@ -2056,6 +2127,47 @@ llm_graph_input_mem_hybrid * llm_graph_context::build_inp_mem_hybrid() const {
 
															     return (llm_graph_input_mem_hybrid *) res->add_input(std::move(inp));
														
 
															 }
														
 
															+llm_graph_input_mem_hybrid_iswa * llm_graph_context::build_inp_mem_hybrid_iswa() const {
														
 
															+    const auto * mctx_cur = static_cast<const llama_memory_hybrid_iswa_context *>(mctx);
														
 
															+
														
 
															+    auto inp_rs = build_rs_inp_impl(ctx0, ubatch, mctx_cur->get_recr());
														
 
															+
														
 
															+    // build iswa attention input
														
 
															+    const auto * attn_ctx = mctx_cur->get_attn();
														
 
															+
														
 
															+    auto inp_attn = std::make_unique<llm_graph_input_attn_kv_iswa>(hparams, cparams, attn_ctx);
														
 
															+
														
 
															+    const auto n_stream = cparams.kv_unified ? 1 : ubatch.n_seqs_unq;
														
 
															+
														
 
															+    {
														
 
															+        const auto n_kv = attn_ctx->get_base()->get_n_kv();
														
 
															+
														
 
															+        inp_attn->self_k_idxs = attn_ctx->get_base()->build_input_k_idxs(ctx0, ubatch);
														
 
															+        inp_attn->self_v_idxs = attn_ctx->get_base()->build_input_v_idxs(ctx0, ubatch);
														
 
															+
														
 
															+        inp_attn->self_kq_mask = ggml_new_tensor_4d(ctx0, GGML_TYPE_F32, n_kv, n_tokens/n_stream, 1, n_stream);
														
 
															+        ggml_set_input(inp_attn->self_kq_mask);
														
 
															+
														
 
															+        inp_attn->self_kq_mask_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp_attn->self_kq_mask, GGML_TYPE_F16) : inp_attn->self_kq_mask;
														
 
															+    }
														
 
															+
														
 
															+    {
														
 
															+        const auto n_kv = attn_ctx->get_swa()->get_n_kv();
														
 
															+
														
 
															+        inp_attn->self_k_idxs_swa = attn_ctx->get_swa()->build_input_k_idxs(ctx0, ubatch);
														
 
															+        inp_attn->self_v_idxs_swa = attn_ctx->get_swa()->build_input_v_idxs(ctx0, ubatch);
														
 
															+
														
 
															+        inp_attn->self_kq_mask_swa = ggml_new_tensor_4d(ctx0, GGML_TYPE_F32, n_kv, n_tokens/n_stream, 1, n_stream);
														
 
															+        ggml_set_input(inp_attn->self_kq_mask_swa);
														
 
															+
														
 
															+        inp_attn->self_kq_mask_swa_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp_attn->self_kq_mask_swa, GGML_TYPE_F16) : inp_attn->self_kq_mask_swa;
														
 
															+    }
														
 
															+
														
 
															+    auto inp = std::make_unique<llm_graph_input_mem_hybrid_iswa>(cparams, std::move(inp_attn), std::move(inp_rs), mctx_cur);
														
 
															+
														
 
															+    return (llm_graph_input_mem_hybrid_iswa *) res->add_input(std::move(inp));
														
 
															+}
														
 
															+
														
 
															 void llm_graph_context::build_dense_out(
														
 
															     ggml_tensor * dense_2,
														
 
															     ggml_tensor * dense_3) const {
														
--- a/src/llama-graph.h
+++ b/src/llama-graph.h
@@ -24,6 +24,7 @@ class llama_kv_cache_context;
 
															 class llama_kv_cache_iswa_context;
														
 
															 class llama_memory_recurrent_context;
														
 
															 class llama_memory_hybrid_context;
														
 
															+class llama_memory_hybrid_iswa_context;
														
 
															 // certain models (typically multi-modal) can produce different types of graphs
														
 
															 enum llm_graph_type {
														
@@ -397,6 +398,34 @@ public:
 
															     const llama_memory_hybrid_context * mctx;
														
 
															 };
														
 
															+class llm_graph_input_mem_hybrid_iswa : public llm_graph_input_i {
														
 
															+public:
														
 
															+    llm_graph_input_mem_hybrid_iswa(
														
 
															+            const llama_cparams & cparams,
														
 
															+            std::unique_ptr<llm_graph_input_attn_kv_iswa> inp_attn,
														
 
															+            std::unique_ptr<llm_graph_input_rs>          inp_rs,
														
 
															+            const llama_memory_hybrid_iswa_context *     mctx) :
														
 
															+        inp_attn(std::move(inp_attn)),
														
 
															+        inp_rs(std::move(inp_rs)),
														
 
															+        cparams(cparams),
														
 
															+        mctx(mctx) { }
														
 
															+    virtual ~llm_graph_input_mem_hybrid_iswa() = default;
														
 
															+
														
 
															+    void set_input(const llama_ubatch * ubatch) override;
														
 
															+
														
 
															+    bool can_reuse(const llm_graph_params & params) override;
														
 
															+
														
 
															+    std::unique_ptr<llm_graph_input_attn_kv_iswa> inp_attn;
														
 
															+    std::unique_ptr<llm_graph_input_rs>          inp_rs;
														
 
															+
														
 
															+    llm_graph_input_attn_kv_iswa * get_attn() const { return inp_attn.get(); }
														
 
															+    llm_graph_input_rs           * get_recr() const { return inp_rs.get(); }
														
 
															+
														
 
															+    const llama_cparams cparams;
														
 
															+
														
 
															+    const llama_memory_hybrid_iswa_context * mctx;
														
 
															+};
														
 
															+
														
 
															 class llm_graph_input_sampling : public llm_graph_input_i {
														
 
															 public:
														
 
															     llm_graph_input_sampling(std::map<llama_seq_id, llama_sampler *> samplers) :
														
@@ -881,6 +910,8 @@ struct llm_graph_context {
 
															     llm_graph_input_mem_hybrid * build_inp_mem_hybrid() const;
														
 
															+    llm_graph_input_mem_hybrid_iswa * build_inp_mem_hybrid_iswa() const;
														
 
															+
														
 
															     //
														
 
															     // pooling
														
 
															     //
														
--- a/src/llama-memory-hybrid-iswa.cpp
+++ b/src/llama-memory-hybrid-iswa.cpp
@@ -0,0 +1,275 @@
 
															+#include "llama-memory-hybrid-iswa.h"
														
 
															+
														
 
															+#include "llama-impl.h"
														
 
															+#include "llama-model.h"
														
 
															+#include "llama-context.h"
														
 
															+
														
 
															+//
														
 
															+// llama_memory_hybrid_iswa
														
 
															+//
														
 
															+
														
 
															+llama_memory_hybrid_iswa::llama_memory_hybrid_iswa(
														
 
															+        const llama_model & model,
														
 
															+                            /* attn */
														
 
															+                ggml_type   type_k,
														
 
															+                ggml_type   type_v,
														
 
															+                     bool   v_trans,
														
 
															+                     bool   swa_full,
														
 
															+                 uint32_t   kv_size,
														
 
															+                 uint32_t   n_ubatch,
														
 
															+                 uint32_t   n_pad,
														
 
															+                            /* recurrent */
														
 
															+                ggml_type   type_r,
														
 
															+                ggml_type   type_s,
														
 
															+                 uint32_t   rs_size,
														
 
															+                            /* common */
														
 
															+                 uint32_t   n_seq_max,
														
 
															+                     bool   offload,
														
 
															+                     bool   unified,
														
 
															+                            /* layer filters */
														
 
															+    const layer_filter_cb & filter_attn,
														
 
															+    const layer_filter_cb & filter_recr) :
														
 
															+    hparams(model.hparams),
														
 
															+    mem_attn(new llama_kv_cache_iswa(
														
 
															+        model,
														
 
															+        type_k,
														
 
															+        type_v,
														
 
															+        v_trans,
														
 
															+        offload,
														
 
															+        swa_full,
														
 
															+        unified,
														
 
															+        kv_size,
														
 
															+        n_seq_max,
														
 
															+        n_ubatch,
														
 
															+        n_pad,
														
 
															+        filter_attn == nullptr ?
														
 
															+            [&](int32_t il) { return !hparams.is_recurrent(il); }
														
 
															+            : filter_attn,
														
 
															+        nullptr
														
 
															+    )),
														
 
															+    mem_recr(new llama_memory_recurrent(
														
 
															+        model,
														
 
															+        type_r,
														
 
															+        type_s,
														
 
															+        offload,
														
 
															+        rs_size,
														
 
															+        n_seq_max,
														
 
															+        filter_recr == nullptr ?
														
 
															+            [&](int32_t il) { return hparams.is_recurrent(il); }
														
 
															+            : filter_recr
														
 
															+    )) {}
														
 
															+
														
 
															+llama_memory_context_ptr llama_memory_hybrid_iswa::init_batch(llama_batch_allocr & balloc, uint32_t n_ubatch, bool embd_all) {
														
 
															+    do {
														
 
															+        balloc.split_reset();
														
 
															+
														
 
															+        // follow the recurrent pattern for creating the ubatch splits
														
 
															+        std::vector<llama_ubatch> ubatches;
														
 
															+
														
 
															+        while (true) {
														
 
															+            llama_ubatch ubatch;
														
 
															+
														
 
															+            if (embd_all) {
														
 
															+                // if all tokens are output, split by sequence
														
 
															+                ubatch = balloc.split_seq(n_ubatch);
														
 
															+            } else {
														
 
															+                // TODO: non-sequential equal split can be done if using unified KV cache
														
 
															+                //       for simplicity, we always use sequential equal split for now
														
 
															+                ubatch = balloc.split_equal(n_ubatch, true);
														
 
															+            }
														
 
															+
														
 
															+            if (ubatch.n_tokens == 0) {
														
 
															+                break;
														
 
															+            }
														
 
															+
														
 
															+            ubatches.push_back(std::move(ubatch)); // NOLINT
														
 
															+        }
														
 
															+
														
 
															+        if (balloc.get_n_used() < balloc.get_n_tokens()) {
														
 
															+            // failed to find a suitable split
														
 
															+            break;
														
 
															+        }
														
 
															+
														
 
															+        // prepare the recurrent batches first
														
 
															+        if (!mem_recr->prepare(ubatches)) {
														
 
															+            // TODO: will the recurrent cache be in an undefined context at this point?
														
 
															+            LLAMA_LOG_ERROR("%s: failed to prepare recurrent ubatches\n", __func__);
														
 
															+            return std::make_unique<llama_memory_hybrid_iswa_context>(LLAMA_MEMORY_STATUS_FAILED_PREPARE);
														
 
															+        }
														
 
															+
														
 
															+        // prepare the attention cache (iswa version returns both base and swa slot infos)
														
 
															+        auto sinfos_base = mem_attn->get_base()->prepare(ubatches);
														
 
															+        if (sinfos_base.empty()) {
														
 
															+            LLAMA_LOG_ERROR("%s: failed to prepare attention base ubatches\n", __func__);
														
 
															+            return std::make_unique<llama_memory_hybrid_iswa_context>(LLAMA_MEMORY_STATUS_FAILED_PREPARE);
														
 
															+        }
														
 
															+
														
 
															+        auto sinfos_swa = mem_attn->get_swa()->prepare(ubatches);
														
 
															+        if (sinfos_swa.empty()) {
														
 
															+            LLAMA_LOG_ERROR("%s: failed to prepare attention swa ubatches\n", __func__);
														
 
															+            return std::make_unique<llama_memory_hybrid_iswa_context>(LLAMA_MEMORY_STATUS_FAILED_PREPARE);
														
 
															+        }
														
 
															+
														
 
															+        return std::make_unique<llama_memory_hybrid_iswa_context>(
														
 
															+                this, std::move(sinfos_base), std::move(sinfos_swa), std::move(ubatches));
														
 
															+    } while(false);
														
 
															+
														
 
															+    return std::make_unique<llama_memory_hybrid_iswa_context>(LLAMA_MEMORY_STATUS_FAILED_PREPARE);
														
 
															+}
														
 
															+
														
 
															+llama_memory_context_ptr llama_memory_hybrid_iswa::init_full() {
														
 
															+    return std::make_unique<llama_memory_hybrid_iswa_context>(this);
														
 
															+}
														
 
															+
														
 
															+llama_memory_context_ptr llama_memory_hybrid_iswa::init_update(llama_context * lctx, bool optimize) {
														
 
															+    return std::make_unique<llama_memory_hybrid_iswa_context>(this, lctx, optimize);
														
 
															+}
														
 
															+
														
 
															+bool llama_memory_hybrid_iswa::get_can_shift() const {
														
 
															+    // Shifting is trivially supported for recurrent
														
 
															+    return mem_attn->get_can_shift();
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::clear(bool data) {
														
 
															+    mem_attn->clear(data);
														
 
															+    mem_recr->clear(data);
														
 
															+}
														
 
															+
														
 
															+bool llama_memory_hybrid_iswa::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos p1) {
														
 
															+    // Try removing from the recurrent cache first since it may fail. If it does
														
 
															+    // fail, the cache will not have been mutated.
														
 
															+    if (!mem_recr->seq_rm(seq_id, p0, p1)) {
														
 
															+        return false;
														
 
															+    }
														
 
															+    return mem_attn->seq_rm(seq_id, p0, p1);
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::seq_cp(llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) {
														
 
															+    mem_attn->seq_cp(seq_id_src, seq_id_dst, p0, p1);
														
 
															+    mem_recr->seq_cp(seq_id_src, seq_id_dst, p0, p1);
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::seq_keep(llama_seq_id seq_id) {
														
 
															+    mem_attn->seq_keep(seq_id);
														
 
															+    mem_recr->seq_keep(seq_id);
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
														
 
															+    mem_attn->seq_add(seq_id, p0, p1, shift);
														
 
															+    mem_recr->seq_add(seq_id, p0, p1, shift);
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::seq_div(llama_seq_id seq_id, llama_pos p0, llama_pos p1, int d) {
														
 
															+    mem_attn->seq_div(seq_id, p0, p1, d);
														
 
															+    mem_recr->seq_div(seq_id, p0, p1, d);
														
 
															+}
														
 
															+
														
 
															+llama_pos llama_memory_hybrid_iswa::seq_pos_min(llama_seq_id seq_id) const {
														
 
															+    // the min of the total cache is the max of the two caches' min values
														
 
															+    return std::max(mem_attn->seq_pos_min(seq_id), mem_recr->seq_pos_min(seq_id));
														
 
															+}
														
 
															+
														
 
															+llama_pos llama_memory_hybrid_iswa::seq_pos_max(llama_seq_id seq_id) const {
														
 
															+    // the max of the total cache is the min of the two caches' max values
														
 
															+    return std::min(mem_attn->seq_pos_max(seq_id), mem_recr->seq_pos_max(seq_id));
														
 
															+}
														
 
															+
														
 
															+std::map<ggml_backend_buffer_type_t, size_t> llama_memory_hybrid_iswa::memory_breakdown() const {
														
 
															+    std::map<ggml_backend_buffer_type_t, size_t> mb = mem_attn->memory_breakdown();
														
 
															+    for (const auto & buft_size : mem_recr->memory_breakdown()) {
														
 
															+        mb[buft_size.first] += buft_size.second;
														
 
															+    }
														
 
															+    return mb;
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::state_write(llama_io_write_i & io, llama_seq_id seq_id, llama_state_seq_flags flags) const {
														
 
															+    mem_attn->state_write(io, seq_id, flags);
														
 
															+    mem_recr->state_write(io, seq_id, flags);
														
 
															+}
														
 
															+
														
 
															+void llama_memory_hybrid_iswa::state_read(llama_io_read_i & io, llama_seq_id seq_id, llama_state_seq_flags flags) {
														
 
															+    mem_attn->state_read(io, seq_id, flags);
														
 
															+    mem_recr->state_read(io, seq_id, flags);
														
 
															+}
														
 
															+
														
 
															+llama_kv_cache_iswa * llama_memory_hybrid_iswa::get_mem_attn() const {
														
 
															+    return mem_attn.get();
														
 
															+}
														
 
															+
														
 
															+llama_memory_recurrent * llama_memory_hybrid_iswa::get_mem_recr() const {
														
 
															+    return mem_recr.get();
														
 
															+}
														
 
															+
														
 
															+//
														
 
															+// llama_memory_hybrid_iswa_context
														
 
															+//
														
 
															+
														
 
															+llama_memory_hybrid_iswa_context::llama_memory_hybrid_iswa_context(llama_memory_status status) : status(status) {}
														
 
															+
														
 
															+llama_memory_hybrid_iswa_context::llama_memory_hybrid_iswa_context(llama_memory_hybrid_iswa * mem) :
														
 
															+    ctx_attn(mem->get_mem_attn()->init_full()),
														
 
															+    ctx_recr(mem->get_mem_recr()->init_full()),
														
 
															+    status(llama_memory_status_combine(ctx_attn->get_status(), ctx_recr->get_status())) {
														
 
															+}
														
 
															+
														
 
															+llama_memory_hybrid_iswa_context::llama_memory_hybrid_iswa_context(
														
 
															+        llama_memory_hybrid_iswa * mem,
														
 
															+                   llama_context * lctx,
														
 
															+                            bool   optimize) :
														
 
															+    ctx_attn(mem->get_mem_attn()->init_update(lctx, optimize)),
														
 
															+    ctx_recr(mem->get_mem_recr()->init_update(lctx, optimize)),
														
 
															+    status(llama_memory_status_combine(ctx_attn->get_status(), ctx_recr->get_status())) {
														
 
															+}
														
 
															+
														
 
															+llama_memory_hybrid_iswa_context::llama_memory_hybrid_iswa_context(
														
 
															+           llama_memory_hybrid_iswa * mem,
														
 
															+                    slot_info_vec_t   sinfos_base,
														
 
															+                    slot_info_vec_t   sinfos_swa,
														
 
															+          std::vector<llama_ubatch>   ubatches) :
														
 
															+    ubatches(std::move(ubatches)),
														
 
															+    // note: here we copy the ubatches. not sure if this is ideal
														
 
															+    ctx_attn(new llama_kv_cache_iswa_context(mem->get_mem_attn(), std::move(sinfos_base), std::move(sinfos_swa), this->ubatches)),
														
 
															+    ctx_recr(new llama_memory_recurrent_context(mem->get_mem_recr(), this->ubatches)),
														
 
															+    status(llama_memory_status_combine(ctx_attn->get_status(), ctx_recr->get_status())) {
														
 
															+}
														
 
															+
														
 
															+bool llama_memory_hybrid_iswa_context::next() {
														
 
															+    assert(status == LLAMA_MEMORY_STATUS_SUCCESS);
														
 
															+
														
 
															+    ctx_attn->next();
														
 
															+    ctx_recr->next();
														
 
															+
														
 
															+    if (++i_next >= ubatches.size()) {
														
 
															+        return false;
														
 
															+    }
														
 
															+
														
 
															+    return true;
														
 
															+}
														
 
															+
														
 
															+bool llama_memory_hybrid_iswa_context::apply() {
														
 
															+    assert(!llama_memory_status_is_fail(status));
														
 
															+
														
 
															+    bool res = true;
														
 
															+
														
 
															+    res = res & ctx_attn->apply();
														
 
															+    res = res & ctx_recr->apply();
														
 
															+
														
 
															+    return res;
														
 
															+}
														
 
															+
														
 
															+llama_memory_status llama_memory_hybrid_iswa_context::get_status() const {
														
 
															+    return status;
														
 
															+}
														
 
															+
														
 
															+const llama_ubatch & llama_memory_hybrid_iswa_context::get_ubatch() const {
														
 
															+    assert(status == LLAMA_MEMORY_STATUS_SUCCESS);
														
 
															+    return ubatches[i_next];
														
 
															+}
														
 
															+
														
 
															+const llama_kv_cache_iswa_context * llama_memory_hybrid_iswa_context::get_attn() const {
														
 
															+    return static_cast<const llama_kv_cache_iswa_context *>(ctx_attn.get());
														
 
															+}
														
 
															+
														
 
															+const llama_memory_recurrent_context * llama_memory_hybrid_iswa_context::get_recr() const {
														
 
															+    return static_cast<const llama_memory_recurrent_context *>(ctx_recr.get());
														
 
															+}
														
--- a/src/llama-memory-hybrid-iswa.h
+++ b/src/llama-memory-hybrid-iswa.h
@@ -0,0 +1,140 @@
 
															+#pragma once
														
 
															+
														
 
															+#include "llama-batch.h"
														
 
															+#include "llama-graph.h"
														
 
															+#include "llama-kv-cache-iswa.h"
														
 
															+#include "llama-memory.h"
														
 
															+#include "llama-memory-recurrent.h"
														
 
															+
														
 
															+#include <memory>
														
 
															+#include <vector>
														
 
															+
														
 
															+//
														
 
															+// llama_memory_hybrid_iswa
														
 
															+//
														
 
															+
														
 
															+// utilizes instances of llama_memory_recurrent and llama_kv_cache_iswa to
														
 
															+//   support models where each layer may be either attention-based (with SWA support) or recurrent
														
 
															+
														
 
															+class llama_memory_hybrid_iswa : public llama_memory_i {
														
 
															+public:
														
 
															+    llama_memory_hybrid_iswa(
														
 
															+        const llama_model & model,
														
 
															+                            /* attn */
														
 
															+                ggml_type   type_k,
														
 
															+                ggml_type   type_v,
														
 
															+                     bool   v_trans,
														
 
															+                     bool   swa_full,
														
 
															+                 uint32_t   kv_size,
														
 
															+                 uint32_t   n_ubatch,
														
 
															+                 uint32_t   n_pad,
														
 
															+                            /* recurrent */
														
 
															+                ggml_type   type_r,
														
 
															+                ggml_type   type_s,
														
 
															+                 uint32_t   rs_size,
														
 
															+                            /* common */
														
 
															+                 uint32_t   n_seq_max,
														
 
															+                     bool   offload,
														
 
															+                     bool   unified,
														
 
															+                            /* layer filters */
														
 
															+    const layer_filter_cb & filter_attn = nullptr,
														
 
															+    const layer_filter_cb & filter_recr = nullptr);
														
 
															+
														
 
															+    ~llama_memory_hybrid_iswa() = default;
														
 
															+
														
 
															+    //
														
 
															+    // llama_memory_i
														
 
															+    //
														
 
															+
														
 
															+    llama_memory_context_ptr init_batch(
														
 
															+            llama_batch_allocr & balloc,
														
 
															+            uint32_t n_ubatch,
														
 
															+            bool embd_all) override;
														
 
															+
														
 
															+    llama_memory_context_ptr init_full() override;
														
 
															+
														
 
															+    llama_memory_context_ptr init_update(llama_context * lctx, bool optimize) override;
														
 
															+
														
 
															+    bool get_can_shift() const override;
														
 
															+
														
 
															+    void clear(bool data) override;
														
 
															+
														
 
															+    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
														
 
															+    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
														
 
															+    void seq_keep(llama_seq_id seq_id)                                                          override;
														
 
															+    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
														
 
															+    void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
														
 
															+
														
 
															+    llama_pos seq_pos_min(llama_seq_id seq_id) const override;
														
 
															+    llama_pos seq_pos_max(llama_seq_id seq_id) const override;
														
 
															+
														
 
															+    std::map<ggml_backend_buffer_type_t, size_t> memory_breakdown() const override;
														
 
															+
														
 
															+    // state write/load
														
 
															+
														
 
															+    void state_write(llama_io_write_i & io, llama_seq_id seq_id = -1, llama_state_seq_flags flags = 0) const override;
														
 
															+    void state_read (llama_io_read_i  & io, llama_seq_id seq_id = -1, llama_state_seq_flags flags = 0)       override;
														
 
															+
														
 
															+    //
														
 
															+    // llama_memory_hybrid_iswa specific API
														
 
															+    //
														
 
															+
														
 
															+    llama_kv_cache_iswa * get_mem_attn() const;
														
 
															+    llama_memory_recurrent * get_mem_recr() const;
														
 
															+
														
 
															+private:
														
 
															+    const llama_hparams & hparams;
														
 
															+
														
 
															+    const std::unique_ptr<llama_kv_cache_iswa> mem_attn;
														
 
															+    const std::unique_ptr<llama_memory_recurrent> mem_recr;
														
 
															+};
														
 
															+
														
 
															+class llama_memory_hybrid_iswa_context : public llama_memory_context_i {
														
 
															+public:
														
 
															+    using slot_info_vec_t = llama_kv_cache::slot_info_vec_t;
														
 
															+
														
 
															+    // init failure
														
 
															+    explicit llama_memory_hybrid_iswa_context(llama_memory_status status);
														
 
															+
														
 
															+    // init full
														
 
															+    explicit llama_memory_hybrid_iswa_context(llama_memory_hybrid_iswa * mem);
														
 
															+
														
 
															+    // init update
														
 
															+    explicit llama_memory_hybrid_iswa_context(
														
 
															+        llama_memory_hybrid_iswa * mem,
														
 
															+                   llama_context * lctx,
														
 
															+                            bool   optimize);
														
 
															+
														
 
															+    // init success
														
 
															+    llama_memory_hybrid_iswa_context(
														
 
															+           llama_memory_hybrid_iswa * mem,
														
 
															+                    slot_info_vec_t   sinfos_base,
														
 
															+                    slot_info_vec_t   sinfos_swa,
														
 
															+          std::vector<llama_ubatch>   ubatches);
														
 
															+
														
 
															+    ~llama_memory_hybrid_iswa_context() = default;
														
 
															+
														
 
															+    bool next()  override;
														
 
															+    bool apply() override;
														
 
															+
														
 
															+    llama_memory_status  get_status() const override;
														
 
															+    const llama_ubatch & get_ubatch() const override;
														
 
															+
														
 
															+    //
														
 
															+    // llama_memory_hybrid_iswa_context
														
 
															+    //
														
 
															+
														
 
															+    const llama_kv_cache_iswa_context * get_attn() const;
														
 
															+    const llama_memory_recurrent_context * get_recr() const;
														
 
															+
														
 
															+private:
														
 
															+    // the index of the next ubatch to process
														
 
															+    size_t i_next = 0;
														
 
															+
														
 
															+    std::vector<llama_ubatch> ubatches;
														
 
															+
														
 
															+    const llama_memory_context_ptr ctx_attn;
														
 
															+    const llama_memory_context_ptr ctx_recr;
														
 
															+
														
 
															+    const llama_memory_status status;
														
 
															+};
														
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -8,6 +8,7 @@
 
															 #include "llama-kv-cache.h"
														
 
															 #include "llama-kv-cache-iswa.h"
														
 
															 #include "llama-memory-hybrid.h"
														
 
															+#include "llama-memory-hybrid-iswa.h"
														
 
															 #include "llama-memory-recurrent.h"
														
 
															 #include "ggml-cpp.h"
														
@@ -7528,23 +7529,44 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
 
															                         };
														
 
															                     }
														
 
															-                    res = new llama_memory_hybrid(
														
 
															-                        /* model             */ *this,
														
 
															-                        /* attn_type_k       */ params.type_k,
														
 
															-                        /* attn_type_v       */ params.type_v,
														
 
															-                        /* attn_v_trans      */ !cparams.flash_attn,
														
 
															-                        /* attn_kv_size      */ cparams.n_ctx,
														
 
															-                        /* attn_n_pad        */ 1,
														
 
															-                        /* attn_n_swa        */ hparams.n_swa,
														
 
															-                        /* attn_swa_type     */ hparams.swa_type,
														
 
															-                        /* recurrent_type_k  */ GGML_TYPE_F32,
														
 
															-                        /* recurrent_type_v  */ GGML_TYPE_F32,
														
 
															-                        /* recurrent_kv_size */ std::max((uint32_t) 1, cparams.n_seq_max),
														
 
															-                        /* n_seq_max         */ cparams.n_seq_max,
														
 
															-                        /* offload           */ cparams.offload_kqv,
														
 
															-                        /* unified           */ cparams.kv_unified,
														
 
															-                        /* filter_attn       */ std::move(filter_attn),
														
 
															-                        /* filter_recr       */ std::move(filter_recr));
														
 
															+                    if (hparams.swa_type != LLAMA_SWA_TYPE_NONE) {
														
 
															+                        // Use hybrid-iswa for hybrid models with SWA
														
 
															+                        res = new llama_memory_hybrid_iswa(
														
 
															+                            /* model             */ *this,
														
 
															+                            /* attn_type_k       */ params.type_k,
														
 
															+                            /* attn_type_v       */ params.type_v,
														
 
															+                            /* attn_v_trans      */ !cparams.flash_attn,
														
 
															+                            /* attn_swa_full     */ params.swa_full,
														
 
															+                            /* attn_kv_size      */ cparams.n_ctx,
														
 
															+                            /* attn_n_ubatch     */ cparams.n_ubatch,
														
 
															+                            /* attn_n_pad        */ 1,
														
 
															+                            /* recurrent_type_r  */ GGML_TYPE_F32,
														
 
															+                            /* recurrent_type_s  */ GGML_TYPE_F32,
														
 
															+                            /* recurrent_rs_size */ std::max((uint32_t) 1, cparams.n_seq_max),
														
 
															+                            /* n_seq_max         */ cparams.n_seq_max,
														
 
															+                            /* offload           */ cparams.offload_kqv,
														
 
															+                            /* unified           */ cparams.kv_unified,
														
 
															+                            /* filter_attn       */ std::move(filter_attn),
														
 
															+                            /* filter_recr       */ std::move(filter_recr));
														
 
															+                    } else {
														
 
															+                        res = new llama_memory_hybrid(
														
 
															+                            /* model             */ *this,
														
 
															+                            /* attn_type_k       */ params.type_k,
														
 
															+                            /* attn_type_v       */ params.type_v,
														
 
															+                            /* attn_v_trans      */ !cparams.flash_attn,
														
 
															+                            /* attn_kv_size      */ cparams.n_ctx,
														
 
															+                            /* attn_n_pad        */ 1,
														
 
															+                            /* attn_n_swa        */ hparams.n_swa,
														
 
															+                            /* attn_swa_type     */ hparams.swa_type,
														
 
															+                            /* recurrent_type_k  */ GGML_TYPE_F32,
														
 
															+                            /* recurrent_type_v  */ GGML_TYPE_F32,
														
 
															+                            /* recurrent_kv_size */ std::max((uint32_t) 1, cparams.n_seq_max),
														
 
															+                            /* n_seq_max         */ cparams.n_seq_max,
														
 
															+                            /* offload           */ cparams.offload_kqv,
														
 
															+                            /* unified           */ cparams.kv_unified,
														
 
															+                            /* filter_attn       */ std::move(filter_attn),
														
 
															+                            /* filter_recr       */ std::move(filter_recr));
														
 
															+                    }
														
 
															                 } else {
														
 
															                     llama_memory_i::layer_reuse_cb reuse = nullptr;