Просмотр исходного кода

convert : avoid dequantizing mxfp4 for GPT-OSS (#16756)

compilade 2 месяцев назад
Родитель
Сommit
5cca2542ac
1 измененных файлов с 7 добавлено и 0 удалено
  1. 7 0
      convert_hf_to_gguf.py

+ 7 - 0
convert_hf_to_gguf.py

@@ -8943,6 +8943,13 @@ class SmolLM3Model(LlamaModel):
 class GptOssModel(TextModel):
     model_arch = gguf.MODEL_ARCH.GPT_OSS
 
+    # TODO: remove once MXFP4 is supported more generally
+    def dequant_model(self):
+        quant_config = self.hparams.get("quantization_config")
+        if quant_config is not None and quant_config.get("quant_method") == "mxfp4":
+            return
+        return super().dequant_model()
+
     def transform_nibble_layout(self, tensor):
         assert tensor.dtype == torch.uint8
         assert tensor.shape[-1] == 16