Georgi Gerganov
|
afa8a9ec9b
llama : add `llama_vocab`, functions -> methods, naming (#11110)
|
há 1 ano atrás |
Georgi Gerganov
|
644fd71b44
sampling : refactor + optimize penalties sampler (#10803)
|
há 1 ano atrás |
Georgi Gerganov
|
d9d54e498d
speculative : refactor and add a simpler example (#10362)
|
há 1 ano atrás |
Georgi Gerganov
|
8d8ff71536
llama : remove Tail-Free sampling (#10071)
|
há 1 ano atrás |
wwoodsTM
|
ff252ea48e
llama : add DRY sampler (#9702)
|
há 1 ano atrás |
Georgi Gerganov
|
55e47786e3
llama : default sampling changes + greedy update (#9897)
|
há 1 ano atrás |
Georgi Gerganov
|
755a9b2bf0
llama : add infill sampler (#9896)
|
há 1 ano atrás |
MaggotHATE
|
fbc98b748e
sampling : add XTC sampler (#9742)
|
há 1 ano atrás |
Diego Devesa
|
7eee341bee
common : use common_ prefix for common library functions (#9805)
|
há 1 ano atrás |
Georgi Gerganov
|
b0f27361f3
sampling : avoid expensive softmax during greedy sampling (#9605)
|
há 1 ano atrás |
Georgi Gerganov
|
6262d13e0b
common : reimplement logging (#9418)
|
há 1 ano atrás |
Georgi Gerganov
|
0abc6a2c25
llama : llama_perf + option to disable timings during decode (#9355)
|
há 1 ano atrás |
slaren
|
49006c67b4
llama : move random seed generation to the samplers (#9398)
|
há 1 ano atrás |
Xuan Son Nguyen
|
bfe76d4a17
common : move arg parser code to `arg.cpp` (#9388)
|
há 1 ano atrás |
Georgi Gerganov
|
f12295b8a9
llama : fix empty ring buffer push (#9358)
|
há 1 ano atrás |
Georgi Gerganov
|
df270ef745
llama : refactor sampling v2 (#9294)
|
há 1 ano atrás |
Georgi Gerganov
|
938943cdbf
llama : move vocab, grammar and sampling into separate files (#8508)
|
há 1 ano atrás |
Kevin Wang
|
470939d483
common : preallocate sampling token data vector (#8363)
|
há 1 ano atrás |
Kevin Wang
|
ffd00797d8
common : avoid unnecessary logits fetch (#8358)
|
há 1 ano atrás |
Daniel Bevenius
|
e6bf007744
llama : return nullptr from llama_grammar_init (#8093)
|
há 1 ano atrás |
Georgi Gerganov
|
6ff13987ad
common : normalize naming style (#7462)
|
há 1 ano atrás |
Olivier Chafik
|
e402de364b
`grammars`: fix resampling logic regression (#7424)
|
há 1 ano atrás |
Johannes Gäßler
|
5ae3426b0b
server: fix reported top tokens for temperature 0 (#7203)
|
há 1 ano atrás |
Johannes Gäßler
|
af0a5b6163
server: fix incorrectly reported token probabilities (#7125)
|
há 1 ano atrás |
David Renshaw
|
3f167476b1
sampling : use std::random_device{}() for default random seed (#6962)
|
há 1 ano atrás |
Johannes Gäßler
|
28103f4832
Server: fix seed for multiple slots (#6835)
|
há 1 ano atrás |
Minsoo Cheong
|
586e7bc561
sampling : deduplicated code for probability distribution access (#6240)
|
há 1 ano atrás |
Clint Herron
|
463628372d
grammar : handle missing "root" node (#6004)
|
há 1 ano atrás |
Minsoo Cheong
|
6d341ab6c5
speculative : implement stochastic speculative sampling (#5625)
|
há 1 ano atrás |
Pierrick Hymbert
|
e3965cf35a
server: tests - slow inference causes timeout on the CI (#5715)
|
há 1 ano atrás |