Johannes Gäßler
|
af0a5b6163
server: fix incorrectly reported token probabilities (#7125)
|
há 1 ano atrás |
Kyle Mistele
|
260b7c6529
server : update readme with undocumented options (#7013)
|
há 1 ano atrás |
Olivier Chafik
|
b8a7a5a90f
build(cmake): simplify instructions (`cmake -B build && cmake --build build ...`) (#6964)
|
há 1 ano atrás |
Olivier Chafik
|
ab9a3240a9
JSON schema conversion: ⚡️ faster repetitions, min/maxLength for strings, cap number length (#6555)
|
há 1 ano atrás |
Jan Boon
|
beea6e1b16
llama : save and restore kv cache for single seq id (#6341)
|
há 1 ano atrás |
Georgi Gerganov
|
4399f13fb9
server : remove obsolete --memory-f32 option
|
há 1 ano atrás |
Fattire
|
5fb1574c81
A few small fixes to server's README docs (#6428)
|
há 1 ano atrás |
slaren
|
280345968d
cuda : rename build flag to LLAMA_CUDA (#6299)
|
há 1 ano atrás |
Xuan Son Nguyen
|
ad3a0505e3
Server: clean up OAI params parsing function (#6284)
|
há 1 ano atrás |
Pierrick Hymbert
|
f482bb2e49
common: llama_load_model_from_url split support (#6192)
|
há 1 ano atrás |
Pierrick Hymbert
|
1997577d5e
server: docs: `--threads` and `--threads`, `--ubatch-size`, `--log-disable` (#6254)
|
há 1 ano atrás |
Jan Boon
|
be07a03217
server : update readme doc from `slot_id` to `id_slot` (#6213)
|
há 1 ano atrás |
Pierrick Hymbert
|
d01b3c4c32
common: llama_load_model_from_url using --model-url (#6098)
|
há 1 ano atrás |
Jakub N
|
828defefb6
Update server docker image URLs (#5997)
|
há 1 ano atrás |
Xuan Son Nguyen
|
caa106d4e0
Server: format error to json (#5961)
|
há 1 ano atrás |
Georgi Gerganov
|
97c09585d6
server : clarify some items in the readme (#5957)
|
há 1 ano atrás |
Xuan Son Nguyen
|
950ba1ab84
Server: reorganize some http logic (#5939)
|
há 1 ano atrás |
Gabe Goodhart
|
e1fa9569ba
server : add SSL support (#5926)
|
há 1 ano atrás |
Georgi Gerganov
|
2002bc96bf
server : refactor (#5882)
|
há 1 ano atrás |
Pierrick Hymbert
|
8ef969afce
server : init http requests thread pool with --parallel if set (#5836)
|
há 1 ano atrás |
Georgi Gerganov
|
38d16b1426
server : remove api_like_OAI.py proxy script (#5808)
|
há 1 ano atrás |
Pierrick Hymbert
|
5cb02b4a01
server: allow to override threads server pool with --threads-http (#5794)
|
há 1 ano atrás |
Pierrick Hymbert
|
8b350356b2
server: docs - refresh and tease a little bit more the http server (#5718)
|
há 1 ano atrás |
Pierrick Hymbert
|
930b178026
server: logs - unified format and --log-format option (#5700)
|
há 1 ano atrás |
Pierrick Hymbert
|
d52d7819b8
server: concurrency fix + monitoring - add /metrics prometheus compatible endpoint (#5708)
|
há 1 ano atrás |
Pierrick Hymbert
|
525213d2f5
server: init functional tests (#5566)
|
há 1 ano atrás |
Alexey Parfenov
|
c5688c6250
server : clarify some params in the docs (#5640)
|
há 1 ano atrás |
Xuan Son Nguyen
|
7c8bcc11dc
Add docs for llama_chat_apply_template (#5645)
|
há 1 ano atrás |
Pierrick Hymbert
|
1ecea255eb
server: health: fix race condition on slots data using tasks queue (#5634)
|
há 1 ano atrás |
Pierrick Hymbert
|
c0a8c6db37
server : health endpoint configurable failure on no slot (#5594)
|
há 1 ano atrás |