3 weeks ago · eadc4184ca
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -771,9 +771,14 @@ class TextModel(ModelBase):
 
				 
			
 
				         self.rope_parameters = self.hparams.get("rope_parameters", self.hparams.get("rope_scaling")) or {}
			
 
				 
			
 
				+        rope_theta = self.find_hparam(["rope_theta", "global_rope_theta", "rotary_emb_base"], optional=True)
			
 
				+        local_rope_theta = self.find_hparam(["local_rope_theta", "rope_local_theta", "swa_rope_theta", "rope_local_base_freq"], optional=True)
			
 
				+
			
 
				         # Ensure "rope_theta" and "rope_type" is mirrored in rope_parameters
			
 
				         if "full_attention" not in self.rope_parameters and "sliding_attention" not in self.rope_parameters:
			
 
				-            if "rope_theta" not in self.rope_parameters and (rope_theta := self.find_hparam(["rope_theta", "global_rope_theta", "rotary_emb_base"], optional=True)) is not None:
			
 
				+            if local_rope_theta is not None:
			
 
				+                self.rope_parameters["sliding_attention"] = {"rope_theta": local_rope_theta}
			
 
				+            if "rope_theta" not in self.rope_parameters and rope_theta is not None:
			
 
				                 self.rope_parameters["rope_theta"] = rope_theta
			
 
				             if "rope_type" not in self.rope_parameters and (rope_type := self.rope_parameters.get("type")) is not None:
			
 
				                 self.rope_parameters["rope_type"] = rope_type
			
@@ -839,6 +844,7 @@ class TextModel(ModelBase):
 
				             self.gguf_writer.add_head_count_kv(n_head_kv)
			
 
				             logger.info(f"gguf: key-value head count = {n_head_kv}")
			
 
				 
			
 
				+        # TODO: Handle "sliding_attention" similarly when models start implementing it
			
 
				         rope_params = self.rope_parameters.get("full_attention", self.rope_parameters)
			
 
				         if (rope_type := rope_params.get("rope_type")) is not None:
			
 
				             rope_factor = rope_params.get("factor")
			
@@ -885,6 +891,9 @@ class TextModel(ModelBase):
 
				         if (rope_theta := rope_params.get("rope_theta")) is not None:
			
 
				             self.gguf_writer.add_rope_freq_base(rope_theta)
			
 
				             logger.info(f"gguf: rope theta = {rope_theta}")
			
 
				+        if (local_rope_theta := self.rope_parameters.get("sliding_attention", {}).get("rope_theta")) is not None:
			
 
				+            self.gguf_writer.add_rope_freq_base_swa(local_rope_theta)
			
 
				+            logger.info(f"gguf: rope theta swa = {local_rope_theta}")
			
 
				         if (f_rms_eps := self.find_hparam(["rms_norm_eps", "norm_eps"], optional=True)) is not None:
			
 
				             self.gguf_writer.add_layer_norm_rms_eps(f_rms_eps)
			
 
				             logger.info(f"gguf: rms norm epsilon = {f_rms_eps}")
			
@@ -5004,7 +5013,6 @@ class Plamo3Model(TextModel):
 
				         if (sliding_window := self.find_hparam(["window_size", "sliding_window"], optional=True)) is not None:
			
 
				             self.gguf_writer.add_sliding_window(sliding_window)
			
 
				             self.gguf_writer.add_sliding_window_pattern(self.hparams["sliding_window_pattern"])
			
 
				-            self.gguf_writer.add_rope_freq_base_swa(self.rope_parameters.get("sliding_attention", {"rope_theta": self.hparams.get("rope_local_theta")})["rope_theta"])
			
 
				 
			
 
				     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
			
 
				 
			
@@ -7480,7 +7488,6 @@ class MimoV2Model(TextModel):
 
				 
			
 
				         self.gguf_writer.add_sliding_window(self.hparams["sliding_window"])
			
 
				         self.gguf_writer.add_sliding_window_pattern(self.hparams["hybrid_layer_pattern"])
			
 
				-        self.gguf_writer.add_rope_freq_base_swa(self.hparams["swa_rope_theta"])
			
 
				         self.gguf_writer.add_value_length(self.hparams["v_head_dim"])
			
 
				         self.gguf_writer.add_expert_count(self.hparams["n_routed_experts"])
			
 
				         self.gguf_writer.add_expert_feed_forward_length(self.hparams["moe_intermediate_size"])
			
@@ -10218,7 +10225,6 @@ class ModernBertModel(BertModel):
 
				         self.gguf_writer.add_sliding_window(self.hparams["local_attention"])
			
 
				         if (sliding_window_pattern := self.hparams.get("global_attn_every_n_layers")) is not None:
			
 
				             self.gguf_writer.add_sliding_window_pattern(sliding_window_pattern)
			
 
				-        self.gguf_writer.add_rope_freq_base_swa(self.rope_parameters.get("sliding_attention", {"rope_theta": self.hparams.get("local_rope_theta")})["rope_theta"])
			
 
				         self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.NONE)
			
 
				         self.gguf_writer.add_vocab_size(self.hparams["vocab_size"])
			
 
				 
			
--- a/src/llama-hparams.h
+++ b/src/llama-hparams.h
@@ -105,9 +105,9 @@ struct llama_hparams {
 
				 
			
 
				     float    rope_attn_factor = 1.0f;
			
 
				     float    rope_freq_base_train;
			
 
				-    float    rope_freq_base_train_swa;
			
 
				+    float    rope_freq_base_train_swa  = 10000.0f;
			
 
				     float    rope_freq_scale_train;
			
 
				-    float    rope_freq_scale_train_swa;
			
 
				+    float    rope_freq_scale_train_swa = 1.0f;
			
 
				 
			
 
				     uint32_t n_ctx_orig_yarn;
			
 
				     float    rope_yarn_log_mul = 0.0f;
			
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -578,6 +578,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				     hparams.rope_scaling_type_train = llama_rope_scaling_type_from_string(rope_scaling);
			
 
				     GGML_ASSERT(hparams.rope_scaling_type_train != LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED);
			
 
				 
			
 
				+    // TODO: Handle SWA metadata similarly when models start implementing it
			
 
				     // rope_freq_scale (inverse of the kv) is optional
			
 
				     float ropescale = 0.0f;
			
 
				     if (!ml.get_key(LLM_KV_ROPE_SCALING_FACTOR, ropescale, false)) {
			
@@ -586,10 +587,6 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				     }
			
 
				     hparams.rope_freq_scale_train = ropescale == 0.0f ? 1.0f : 1.0f/ropescale;
			
 
				 
			
 
				-    // by default assume that the sliding-window layers use the same scaling type as the non-sliding-window layers
			
 
				-    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				-    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				-
			
 
				     ml.get_key(LLM_KV_ROPE_SCALING_ATTN_FACTOR, hparams.rope_attn_factor, false);
			
 
				 
			
 
				     // non-transformer models do not have attention heads
			
@@ -677,6 +674,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                     hparams.f_attn_temp_scale       = 0.1f;
			
 
				                     hparams.f_attn_temp_offset      = 1.0f;
			
 
				                     hparams.set_swa_pattern(4);   // pattern: 3 chunked - 1 full
			
 
				+
			
 
				+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 }
			
 
				 
			
 
				                 switch (hparams.n_expert) {
			
@@ -722,6 +723,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 if (hparams.n_swa > 0) {
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                     hparams.set_swa_pattern(4);
			
 
				+
			
 
				+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 } else {
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_NONE;
			
 
				                 }
			
@@ -1243,7 +1248,6 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 if (found_swa && hparams.n_swa > 0) {
			
 
				                     uint32_t swa_period = 8;
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				-                    hparams.rope_freq_scale_train_swa = 1.0f;
			
 
				                     ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa);
			
 
				                     ml.get_key_or_arr(LLM_KV_ATTENTION_SLIDING_WINDOW_PATTERN, swa_period, false);
			
 
				                     hparams.set_swa_pattern(swa_period);
			
@@ -1309,7 +1313,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 hparams.n_swa = 4096; // default value of gemma 2
			
 
				                 hparams.set_swa_pattern(2);
			
 
				                 hparams.attn_soft_cap = true;
			
 
				+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				 
			
 
				+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,          hparams.rope_freq_base_train_swa, false);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa, false);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
			
 
				                 ml.get_key(LLM_KV_ATTN_LOGIT_SOFTCAPPING,      hparams.f_attn_logit_softcapping, false);
			
@@ -1334,8 +1341,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                     hparams.set_swa_pattern(6);
			
 
				 
			
 
				-                    hparams.rope_freq_base_train_swa  = 10000.0f;
			
 
				-                    hparams.rope_freq_scale_train_swa = 1.0f;
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 } else {
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_NONE;
			
 
				                 }
			
@@ -1365,10 +1371,9 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 hparams.set_swa_pattern(5);
			
 
				 
			
 
				                 hparams.n_layer_kv_from_start     = 20;
			
 
				-                hparams.rope_freq_base_train_swa  = 10000.0f;
			
 
				-                hparams.rope_freq_scale_train_swa = 1.0f;
			
 
				                 hparams.f_attention_scale         = 1.0f;
			
 
				 
			
 
				+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,          hparams.rope_freq_base_train_swa, false);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
			
 
				 
			
@@ -1384,9 +1389,8 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 hparams.set_swa_pattern(6);
			
 
				 
			
 
				                 hparams.causal_attn = false; // embeddings do not use causal attention
			
 
				-                hparams.rope_freq_base_train_swa = 10000.0f;
			
 
				-                hparams.rope_freq_scale_train_swa = 1.0f;
			
 
				 
			
 
				+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW, hparams.n_swa);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
			
 
				                 ml.get_key(LLM_KV_POOLING_TYPE, hparams.pooling_type);
			
@@ -1525,7 +1529,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				             {
			
 
				                 hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                 hparams.set_swa_pattern(4);
			
 
				+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				 
			
 
				+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,       hparams.rope_freq_base_train_swa, false);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW, hparams.n_swa);
			
 
				                 ml.get_key(LLM_KV_LOGIT_SCALE,              hparams.f_logit_scale);
			
 
				                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS,  hparams.f_norm_eps);
			
@@ -1564,6 +1571,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 if (found_swa && hparams.n_swa > 0) {
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                     hparams.set_swa_pattern(4);
			
 
				+
			
 
				+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                    hparams.rope_freq_scale_train_swa = 1.0; // See olmo2.cpp
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 } else {
			
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_NONE;
			
 
				                 }
			
@@ -1906,6 +1917,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                     hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                     hparams.n_swa = 4096;
			
 
				                     hparams.set_swa_pattern(4);
			
 
				+
			
 
				+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 }
			
 
				 
			
 
				                 ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa, false);
			
@@ -2208,6 +2223,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                 hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
			
 
				                 hparams.set_swa_pattern(2);
			
 
				 
			
 
				+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				+
			
 
				                 switch (hparams.n_layer) {
			
 
				                     case 24: type = LLM_TYPE_20B; break;
			
 
				                     case 36: type = LLM_TYPE_120B; break;
			
@@ -2252,6 +2271,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
 
				                     hparams.swa_type      = LLAMA_SWA_TYPE_STANDARD;
			
 
				                     hparams.n_swa         = 4096;
			
 
				                     hparams.set_swa_pattern(4, true);
			
 
				+
			
 
				+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
			
 
				+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
			
 
				+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
			
 
				                 } else {
			
 
				                     hparams.swa_type             = LLAMA_SWA_TYPE_NONE;
			
 
				                     hparams.n_no_rope_layer_step = hparams.n_layer;
			
@@ -7098,6 +7121,10 @@ void llama_model::print_info() const {
 
				         LLAMA_LOG_INFO("%s: rope scaling     = %s\n",     __func__, rope_scaling_type.c_str());
			
 
				         LLAMA_LOG_INFO("%s: freq_base_train  = %.1f\n",   __func__, hparams.rope_freq_base_train);
			
 
				         LLAMA_LOG_INFO("%s: freq_scale_train = %g\n",     __func__, hparams.rope_freq_scale_train);
			
 
				+        if (hparams.swa_type != LLAMA_SWA_TYPE_NONE) {
			
 
				+            LLAMA_LOG_INFO("%s: freq_base_swa    = %.1f\n",   __func__, hparams.rope_freq_base_train_swa);
			
 
				+            LLAMA_LOG_INFO("%s: freq_scale_swa   = %g\n",     __func__, hparams.rope_freq_scale_train_swa);
			
 
				+        }
			
 
				         LLAMA_LOG_INFO("%s: n_ctx_orig_yarn  = %u\n",     __func__, hparams.n_ctx_orig_yarn);
			
 
				         LLAMA_LOG_INFO("%s: rope_yarn_log_mul= %.4f\n",   __func__, hparams.rope_yarn_log_mul);
			
 
				         LLAMA_LOG_INFO("%s: rope_finetuned   = %s\n",     __func__, hparams.rope_finetuned ? "yes" : "unknown");
			
--- a/src/models/afmoe.cpp
+++ b/src/models/afmoe.cpp
@@ -22,8 +22,15 @@ llm_build_afmoe::llm_build_afmoe(const llama_model & model, const llm_graph_para
 
				     const float kq_scale = 1.0f/sqrtf(float(n_embd_head));
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				         ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
			
 
				+        const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
			
 
				+                              (il + 1) % hparams.n_no_rope_layer_step != 0;
			
 
				+
			
 
				         // dual attention normalization (pre)
			
 
				         cur = build_norm(inpL,
			
 
				                 model.layers[il].attn_norm, NULL,
			
@@ -56,19 +63,16 @@ llm_build_afmoe::llm_build_afmoe(const llama_model & model, const llm_graph_para
 
				             cb(Qcur, "Qcur_normed", il);
			
 
				             cb(Kcur, "Kcur_normed", il);
			
 
				 
			
 
				-            // RoPE only for sliding_attention layers
			
 
				-            const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
			
 
				-                                ((il + 1) % hparams.n_no_rope_layer_step) != 0;
			
 
				             if (use_rope) {
			
 
				                 Qcur = ggml_rope_ext(
			
 
				                         ctx0, Qcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                         ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				                 cb(Qcur, "Qcur_rope", il);
			
 
				 
			
 
				                 Kcur = ggml_rope_ext(
			
 
				                         ctx0, Kcur, inp_pos, nullptr,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                         ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				                 cb(Kcur, "Kcur_rope", il);
			
 
				             }
			
--- a/src/models/cohere2-iswa.cpp
+++ b/src/models/cohere2-iswa.cpp
@@ -21,6 +21,9 @@ llm_build_cohere2_iswa::llm_build_cohere2_iswa(const llama_model & model, const
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				         const bool is_swa = hparams.is_swa(il);
			
 
				+        // UNUSED:
			
 
				+        // const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        // const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				 
			
 
				         // norm
			
 
				         cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM, il);
			
--- a/src/models/gemma2-iswa.cpp
+++ b/src/models/gemma2-iswa.cpp
@@ -19,6 +19,9 @@ llm_build_gemma2_iswa::llm_build_gemma2_iswa(const llama_model & model, const ll
 
				     ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				         // norm
			
 
				         cur = build_norm(inpL,
			
 
				                 model.layers[il].attn_norm, NULL,
			
@@ -43,12 +46,12 @@ llm_build_gemma2_iswa::llm_build_gemma2_iswa(const llama_model & model, const ll
 
				 
			
 
				             Qcur = ggml_rope_ext(
			
 
				                     ctx0, Qcur, inp_pos, nullptr,
			
 
				-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				             Kcur = ggml_rope_ext(
			
 
				                     ctx0, Kcur, inp_pos, nullptr,
			
 
				-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				             cb(Qcur, "Qcur", il);
			
--- a/src/models/llama-iswa.cpp
+++ b/src/models/llama-iswa.cpp
@@ -25,8 +25,12 @@ llm_build_llama_iswa::llm_build_llama_iswa(const llama_model & model, const llm_
 
				     ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				         ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
			
 
				         const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
			
 
				                               (il + 1) % hparams.n_no_rope_layer_step != 0;
			
 
				 
			
@@ -67,13 +71,13 @@ llm_build_llama_iswa::llm_build_llama_iswa(const llama_model & model, const llm_
 
				             if (use_rope) {
			
 
				                 Qcur = ggml_rope_ext(
			
 
				                         ctx0, Qcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                         ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                         );
			
 
				 
			
 
				                 Kcur = ggml_rope_ext(
			
 
				                         ctx0, Kcur, inp_pos, rope_factors,
			
 
				-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                         ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                         );
			
 
				             } else if (inp_attn_scale) {
			
--- a/src/models/modern-bert.cpp
+++ b/src/models/modern-bert.cpp
@@ -23,7 +23,8 @@ llm_build_modern_bert::llm_build_modern_bert(const llama_model & model, const ll
 
				     auto * inp_attn = build_attn_inp_no_cache();
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				-        float freq_base_l = model.get_rope_freq_base(cparams, il);
			
 
				+        const float freq_base_l  = model.get_rope_freq_base(cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				 
			
 
				         cur = inpL;
			
 
				 
			
@@ -48,13 +49,13 @@ llm_build_modern_bert::llm_build_modern_bert(const llama_model & model, const ll
 
				         // RoPE
			
 
				         Qcur = ggml_rope_ext(
			
 
				                 ctx0, Qcur, inp_pos, nullptr,
			
 
				-                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale,
			
 
				+                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                 ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                 );
			
 
				 
			
 
				         Kcur = ggml_rope_ext(
			
 
				                 ctx0, Kcur, inp_pos, nullptr,
			
 
				-                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale,
			
 
				+                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                 ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                 );
			
 
				 
			
--- a/src/models/openai-moe-iswa.cpp
+++ b/src/models/openai-moe-iswa.cpp
@@ -14,6 +14,9 @@ llm_build_openai_moe_iswa::llm_build_openai_moe_iswa(const llama_model & model,
 
				     ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				         ggml_tensor * inpSA = inpL;
			
 
				 
			
 
				         // norm
			
@@ -49,13 +52,13 @@ llm_build_openai_moe_iswa::llm_build_openai_moe_iswa(const llama_model & model,
 
				 
			
 
				             Qcur = ggml_rope_ext(
			
 
				                     ctx0, Qcur, inp_pos, nullptr,
			
 
				-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                     ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                     );
			
 
				 
			
 
				             Kcur = ggml_rope_ext(
			
 
				                     ctx0, Kcur, inp_pos, nullptr,
			
 
				-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                     ext_factor, attn_factor, beta_fast, beta_slow
			
 
				                     );
			
 
				 
			
--- a/src/models/smallthinker.cpp
+++ b/src/models/smallthinker.cpp
@@ -26,10 +26,16 @@ llm_build_smallthinker<iswa>::llm_build_smallthinker(const llama_model & model,
 
				     ggml_tensor * inp_out_ids = build_inp_out_ids();
			
 
				 
			
 
				     for (int il = 0; il < n_layer; ++il) {
			
 
				+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
			
 
				+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
			
 
				+
			
 
				         ggml_tensor * inpSA  = inpL;
			
 
				-        ggml_tensor * probs  = nullptr;
			
 
				 
			
 
				-        probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
			
 
				+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
			
 
				+        const bool use_rope = hparams.n_no_rope_layer_step == n_layer ||
			
 
				+                              il % hparams.n_no_rope_layer_step != 0;
			
 
				+
			
 
				+        ggml_tensor * probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
			
 
				         cb(probs, "ffn_moe_logits", il);
			
 
				 
			
 
				         // norm
			
@@ -52,11 +58,11 @@ llm_build_smallthinker<iswa>::llm_build_smallthinker(const llama_model & model,
 
				             Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
			
 
				             Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
			
 
				 
			
 
				-            if (hparams.n_no_rope_layer_step == n_layer || il % hparams.n_no_rope_layer_step != 0) {
			
 
				-                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+            if (use_rope) {
			
 
				+                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				 
			
 
				-                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
			
 
				+                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
			
 
				                                     ext_factor, attn_factor, beta_fast, beta_slow);
			
 
				             }
			
 
				             cb(Qcur, "Qcur", il);