slaren
|
49006c67b4
llama : move random seed generation to the samplers (#9398)
|
hace 1 año |
Xuan Son Nguyen
|
bfe76d4a17
common : move arg parser code to `arg.cpp` (#9388)
|
hace 1 año |
Georgi Gerganov
|
f12295b8a9
llama : fix empty ring buffer push (#9358)
|
hace 1 año |
Georgi Gerganov
|
df270ef745
llama : refactor sampling v2 (#9294)
|
hace 1 año |
Georgi Gerganov
|
938943cdbf
llama : move vocab, grammar and sampling into separate files (#8508)
|
hace 1 año |
Kevin Wang
|
470939d483
common : preallocate sampling token data vector (#8363)
|
hace 1 año |
Kevin Wang
|
ffd00797d8
common : avoid unnecessary logits fetch (#8358)
|
hace 1 año |
Daniel Bevenius
|
e6bf007744
llama : return nullptr from llama_grammar_init (#8093)
|
hace 1 año |
Georgi Gerganov
|
6ff13987ad
common : normalize naming style (#7462)
|
hace 1 año |
Olivier Chafik
|
e402de364b
`grammars`: fix resampling logic regression (#7424)
|
hace 1 año |
Johannes Gäßler
|
5ae3426b0b
server: fix reported top tokens for temperature 0 (#7203)
|
hace 1 año |
Johannes Gäßler
|
af0a5b6163
server: fix incorrectly reported token probabilities (#7125)
|
hace 1 año |
David Renshaw
|
3f167476b1
sampling : use std::random_device{}() for default random seed (#6962)
|
hace 1 año |
Johannes Gäßler
|
28103f4832
Server: fix seed for multiple slots (#6835)
|
hace 1 año |
Minsoo Cheong
|
586e7bc561
sampling : deduplicated code for probability distribution access (#6240)
|
hace 1 año |
Clint Herron
|
463628372d
grammar : handle missing "root" node (#6004)
|
hace 1 año |
Minsoo Cheong
|
6d341ab6c5
speculative : implement stochastic speculative sampling (#5625)
|
hace 1 año |
Pierrick Hymbert
|
e3965cf35a
server: tests - slow inference causes timeout on the CI (#5715)
|
hace 1 año |
Robey Holderith
|
5ee99c32f5
common, server : surface min_keep as its own parameter (#5567)
|
hace 1 año |
Georgi Gerganov
|
689a091bbe
sampling : do not set min_keep to n_probs (#5564)
|
hace 1 año |
Alexey Parfenov
|
6dcc02d244
server : add "samplers" param to control the samplers order (#5494)
|
hace 1 año |
Alexey Parfenov
|
a803333a4e
common : use enums for sampler types (#5418)
|
hace 1 año |
Georgi Gerganov
|
139b62a839
common : fix compile warning
|
hace 1 año |
Johannes Gäßler
|
26d4efd11e
sampling: fix top_k <= 0 (#5388)
|
hace 1 año |
Michael Klimenko
|
35a2ee9143
Remove unused data and add fixes (#5154)
|
hace 2 años |
l3utterfly
|
5eaf9964fc
llama : dynamic temperature sampling (#4972)
|
hace 2 años |
David Friehs
|
4483396751
llama : apply classifier-free guidance to logits directly (#4951)
|
hace 2 años |
Alexey Parfenov
|
6123979952
server : allow to specify custom prompt for penalty calculation (#3727)
|
hace 2 años |
kalomaze
|
b9ec82d262
grammar : check the full vocab only if necessary (opt) (#4306)
|
hace 2 años |
Georgi Gerganov
|
caa9249217
common : fix compile warning
|
hace 2 años |