Xuan Son Nguyen
|
0b3bf966f4
server : add --no-context-shift option (#9607)
|
1 год назад |
Georgi Gerganov
|
6262d13e0b
common : reimplement logging (#9418)
|
1 год назад |
VoidIsVoid
|
dcdcee3a74
server: add data: [DONE] to /chat/completions stream response (#9459)
|
1 год назад |
Mathijs Henquet
|
78203641fe
server : Add option to return token pieces in /tokenize endpoint (#9108)
|
1 год назад |
Xuan Son Nguyen
|
9b2c24c099
server : simplify state machine for slot (#9283)
|
1 год назад |
Xuan Son Nguyen
|
48baa61ecc
server : test script : add timeout for all requests (#9282)
|
1 год назад |
Xuan Son Nguyen
|
6e7d133a5f
server : refactor multitask handling (#9274)
|
1 год назад |
Xuan Son Nguyen
|
8b3befc0e2
server : refactor middleware and /health endpoint (#9056)
|
1 год назад |
Xuan Son Nguyen
|
1e6f6554aa
server : add lora hotswap endpoint (WIP) (#8857)
|
1 год назад |
compilade
|
3fd62a6b1c
py : type-check all Python scripts with Pyright (#8341)
|
1 год назад |
Olivier Chafik
|
1c641e6aac
`build`: rename main → llama-cli, server → llama-server, llava-cli → llama-llava-cli, etc... (#7809)
|
1 год назад |
Georgi Gerganov
|
1cc0155d04
server : tuning tests (#7388)
|
1 год назад |
Johannes Gäßler
|
1b01f06db0
server: add test for token probs (#7347)
|
1 год назад |
Benjamin Findley
|
e586ee4259
change default temperature of OAI compat API from 0 to 1 (#7226)
|
1 год назад |
compilade
|
f98eb31c51
convert-hf : save memory with lazy evaluation (#7075)
|
1 год назад |
Johan
|
911b3900dd
server : add_special option for tokenize endpoint (#7059)
|
1 год назад |
Johannes Gäßler
|
3ea0d36000
Server: add tests for batch size, different seeds (#6950)
|
1 год назад |
Johannes Gäßler
|
28103f4832
Server: fix seed for multiple slots (#6835)
|
1 год назад |
Jan Boon
|
beea6e1b16
llama : save and restore kv cache for single seq id (#6341)
|
1 год назад |
Pierrick Hymbert
|
a016026a3a
server: continuous performance monitoring and PR comment (#6283)
|
1 год назад |
Pierrick Hymbert
|
f482bb2e49
common: llama_load_model_from_url split support (#6192)
|
1 год назад |
Olivier Chafik
|
5b7b0ac8df
json-schema-to-grammar improvements (+ added to server) (#5978)
|
1 год назад |
Georgi Gerganov
|
bc0baab2ea
server : allow to override -ngl in tests (#6170)
|
1 год назад |
Jared Van Bortel
|
bd60d82d0c
server tests : more pythonic process management; fix bare `except:` (#6146)
|
1 год назад |
Pierrick Hymbert
|
d01b3c4c32
common: llama_load_model_from_url using --model-url (#6098)
|
1 год назад |
Pierrick Hymbert
|
43241adf22
server: disable debug release type sanitizer, simplify trigger (#6047)
|
1 год назад |
slaren
|
f30ea47a87
llama : add pipeline parallelism support (#6017)
|
1 год назад |
Xuan Son Nguyen
|
caa106d4e0
Server: format error to json (#5961)
|
1 год назад |
Pierrick Hymbert
|
fa8a809a91
server: ci: windows build and tests (#5968)
|
1 год назад |
Xuan Son Nguyen
|
950ba1ab84
Server: reorganize some http logic (#5939)
|
1 год назад |