Переглянути джерело

mtmd: refactor preprocessing + support max/min pixels (#16878)

* mtmd: refactor preprocessing + support max/min pixels

* fix mlp type

* implement mix/max pixels

* improve hparams

* better image preproc for qwen

* fix

* fix out of bound composite

* fix (2)

* fix token calculation

* get_merge_kernel_size()

* fix llama4 and lfm2

* gonna fix them all

* use simple resize for qwen

* qwen: increase min tokens

* no resize if dst size == src size

* restore to initial min/max tokens value for qwen
Xuan-Son Nguyen 2 місяців тому
батько
коміт
cf659bbb8e
2 змінених файлів з 430 додано та 330 видалено
  1. 1 1
      tools/mtmd/clip-impl.h
  2. 429 329
      tools/mtmd/clip.cpp

+ 1 - 1
tools/mtmd/clip-impl.h

@@ -154,8 +154,8 @@ enum projector_type {
     PROJECTOR_TYPE_LFM2,
     PROJECTOR_TYPE_KIMIVL,
     PROJECTOR_TYPE_LIGHTONOCR,
-    PROJECTOR_TYPE_UNKNOWN,
     PROJECTOR_TYPE_COGVLM,
+    PROJECTOR_TYPE_UNKNOWN,
 };
 
 static std::map<projector_type, std::string> PROJECTOR_TYPE_NAMES = {

Різницю між файлами не показано, бо вона завелика
+ 429 - 329
tools/mtmd/clip.cpp


Деякі файли не було показано, через те що забагато файлів було змінено