6 месяцев назад · 0d5375d54b
--- a/include/llama.h
+++ b/include/llama.h
@@ -79,47 +79,6 @@ extern "C" {
 
															         LLAMA_VOCAB_TYPE_RWKV = 5, // RWKV tokenizer based on greedy tokenization
														
 
															     };
														
 
															-    // pre-tokenization types
														
 
															-    enum llama_vocab_pre_type {
														
 
															-        LLAMA_VOCAB_PRE_TYPE_DEFAULT        = 0,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_LLAMA3         = 1,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_DEEPSEEK_LLM   = 2,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_DEEPSEEK_CODER = 3,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_FALCON         = 4,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_MPT            = 5,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_STARCODER      = 6,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_GPT2           = 7,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_REFACT         = 8,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_COMMAND_R      = 9,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_STABLELM2      = 10,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_QWEN2          = 11,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_OLMO           = 12,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_DBRX           = 13,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_SMAUG          = 14,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_PORO           = 15,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_CHATGLM3       = 16,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_CHATGLM4       = 17,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_VIKING         = 18,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_JAIS           = 19,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_TEKKEN         = 20,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_SMOLLM         = 21,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_CODESHELL      = 22,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_BLOOM          = 23,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_GPT3_FINNISH   = 24,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_EXAONE         = 25,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_CHAMELEON      = 26,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_MINERVA        = 27,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_DEEPSEEK3_LLM  = 28,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_GPT4O          = 29,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_SUPERBPE       = 30,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_TRILLION       = 31,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_BAILINGMOE     = 32,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_LLAMA4         = 33,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_PIXTRAL        = 34,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_SEED_CODER     = 35,
														
 
															-        LLAMA_VOCAB_PRE_TYPE_HUNYUAN        = 36,
														
 
															-    };
														
 
															-
														
 
															     enum llama_rope_type {
														
 
															         LLAMA_ROPE_TYPE_NONE   = -1,
														
 
															         LLAMA_ROPE_TYPE_NORM   = 0,
														
--- a/src/llama-vocab.h
+++ b/src/llama-vocab.h
@@ -6,6 +6,47 @@
 
															 #include <vector>
														
 
															 #include <memory>
														
 
															+// pre-tokenization types
														
 
															+enum llama_vocab_pre_type {
														
 
															+    LLAMA_VOCAB_PRE_TYPE_DEFAULT        = 0,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_LLAMA3         = 1,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_DEEPSEEK_LLM   = 2,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_DEEPSEEK_CODER = 3,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_FALCON         = 4,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_MPT            = 5,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_STARCODER      = 6,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_GPT2           = 7,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_REFACT         = 8,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_COMMAND_R      = 9,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_STABLELM2      = 10,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_QWEN2          = 11,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_OLMO           = 12,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_DBRX           = 13,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_SMAUG          = 14,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_PORO           = 15,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_CHATGLM3       = 16,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_CHATGLM4       = 17,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_VIKING         = 18,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_JAIS           = 19,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_TEKKEN         = 20,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_SMOLLM         = 21,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_CODESHELL      = 22,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_BLOOM          = 23,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_GPT3_FINNISH   = 24,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_EXAONE         = 25,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_CHAMELEON      = 26,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_MINERVA        = 27,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_DEEPSEEK3_LLM  = 28,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_GPT4O          = 29,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_SUPERBPE       = 30,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_TRILLION       = 31,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_BAILINGMOE     = 32,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_LLAMA4         = 33,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_PIXTRAL        = 34,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_SEED_CODER     = 35,
														
 
															+    LLAMA_VOCAB_PRE_TYPE_HUNYUAN        = 36,
														
 
															+};
														
 
															+
														
 
															 struct LLM_KV;
														
 
															 struct llama_model_loader;