Georgi Gerganov
|
40f74e4d73
llama : add option to render special/control tokens (#6807)
|
1 год назад |
Pedro Cuenca
|
b97bc3966e
llama : support Llama 3 HF conversion (#6745)
|
1 год назад |
Olivier Chafik
|
cbaadc9294
grammars: 1.5x faster inference w/ complex grammars (vector reserves / reuses) (#6609)
|
1 год назад |
Jared Van Bortel
|
1b67731e18
BERT tokenizer fixes (#6498)
|
1 год назад |
Rick G
|
e3c337d87c
llama : support negative ith in llama_get_ API (#6519)
|
1 год назад |
Jan Boon
|
beea6e1b16
llama : save and restore kv cache for single seq id (#6341)
|
1 год назад |
Clint Herron
|
9b84ae1806
examples : add GBNF validator program (#5948)
|
1 год назад |
Jared Van Bortel
|
be55134a53
convert : refactor vocab selection logic (#6355)
|
1 год назад |
compilade
|
557410b8f0
llama : greatly reduce output buffer memory usage (#6122)
|
1 год назад |
Kawrakow
|
55c1b2a3bb
IQ1_M: 1.75 bpw quantization (#6302)
|
1 год назад |
Kawrakow
|
d25b1c31b0
quantize : be able to override metadata by key (#6321)
|
1 год назад |
Kawrakow
|
1d0331c12a
quantize: options for output and token embedding tensors qtype (#6239)
|
1 год назад |
Pierrick Hymbert
|
dba1af6129
llama_model_loader: support multiple split/shard GGUFs (#6187)
|
1 год назад |
Theia Vogel
|
877b4d0c62
llama : add support for control vectors (#5970)
|
1 год назад |
Michael Podvitskiy
|
69ff61397d
llama : support models without vocabulary (#5798)
|
1 год назад |
slaren
|
f30ea47a87
llama : add pipeline parallelism support (#6017)
|
1 год назад |
Georgi Gerganov
|
05b06210c9
llama : more consistent names of count variables (#5994)
|
1 год назад |
Georgi Gerganov
|
ee35600b90
llama : fix F16/F32 downcast + improve names (#5980)
|
1 год назад |
DAN™
|
bcebd7dbf6
llama : add support for GritLM (#5959)
|
1 год назад |
compilade
|
c2101a2e90
llama : support Mamba Selective State Space Models (#5328)
|
1 год назад |
Georgi Gerganov
|
29ae62d2ae
llama : fix embeddings (#5796)
|
1 год назад |
Douglas Hanley
|
475df1d6cf
llama : allow for user specified embedding pooling type (#5849)
|
1 год назад |
Michael Podvitskiy
|
4a6e2d6142
llama : add abort_callback to interrupt computation (#5409)
|
1 год назад |
Pierrick Hymbert
|
3ab8b3a92e
llama : cleanup unused mmq flags (#5772)
|
1 год назад |
Marcus Dunn
|
d5ab29757e
llama : constified `llama_set_state_data`'s `src` (#5774)
|
1 год назад |
Georgi Gerganov
|
08c5ee87e4
llama : remove deprecated API (#5770)
|
1 год назад |
Kawrakow
|
0becb22ac0
IQ4_XS: a 4.25 bpw quantization (#5747)
|
1 год назад |
Georgi Gerganov
|
9d533a77d0
llama : fix defrag bugs + add parameter (#5735)
|
1 год назад |
Kawrakow
|
a33e6a0d2a
Adding IQ2_S and IQ2_M to complete coverage of the 2-3 bit quantization range (#5721)
|
1 год назад |
Georgi Gerganov
|
bf08e00643
llama : refactor k-shift implementation + KV defragmentation (#5691)
|
1 год назад |