Histórico de commits

Autor SHA1 Mensagem Data
  fairydreaming 6fcbf68235 llama : implement Unigram tokenizer needed by T5 and FLAN-T5 model families (#5763) 1 ano atrás
  Georgi Gerganov a927b0f3dd llama : optimize long word tokenization with WPM (#8034) 1 ano atrás
  jaime-m-p 37bef89433 tokenizer : BPE fixes (#7530) 1 ano atrás
  Georgi Gerganov 52399254b3 unicode : avoid char32_t (#7957) 1 ano atrás
  jaime-m-p b43272afa2 Unicode codepoint flags for custom regexs (#7245) 1 ano atrás
  jaime-m-p 43248e5594 llama3 custom regex split (#6965) 1 ano atrás
  Georgi Gerganov 92139b90af tests : add test-tokenizer-0.sh + fix some tokenizers (#7036) 1 ano atrás
  Georgi Gerganov f4ab2a4147 llama : fix BPE pre-tokenization (#6920) 1 ano atrás
  Jared Van Bortel 32c8486e1f wpm : portable unicode tolower (#6305) 1 ano atrás
  Georgi Gerganov 83796e62bc llama : refactor unicode stuff (#5992) 1 ano atrás