Просмотр исходного кода

vocab : correctly identify LF token for GPT-2 style BPE tokenizer (#11496)

mgroeber9110 11 месяцев назад
Родитель
Сommit
ffd0821c57
1 измененных файлов с 1 добавлено и 1 удалено
  1. 1 1
      src/llama-vocab.cpp

+ 1 - 1
src/llama-vocab.cpp

@@ -1692,7 +1692,7 @@ void llama_vocab::impl::load(llama_model_loader & ml, const LLM_KV & kv) {
         GGML_ASSERT(!ids.empty() && "model vocab missing newline token");
         linefeed_id = ids[0];
     } else {
-        const std::vector<int> ids = tokenize("\xC4\x8A", false); // U+010A
+        const std::vector<int> ids = tokenize("\n", false);
 
         //GGML_ASSERT(!ids.empty() && "model vocab missing newline token");
         if (ids.empty()) {