Sigbjørn Skjæret
|
38373cfbab
Add SPM infill support (#8016)
|
1 год назад |
Xuan Son Nguyen
|
48e6b92cc3
Add chat template support for llama-cli (#8068)
|
1 год назад |
sasha0552
|
ba58993152
server : fix smart slot selection (#8020)
|
1 год назад |
Sigbjørn Skjæret
|
91c188d6c2
Only use FIM middle token if it exists (#7648)
|
1 год назад |
Georgi Gerganov
|
704a35b183
server : restore numeric prompts (#7883)
|
1 год назад |
Georgi Gerganov
|
d9da0e4986
server : improve "prompt" handling (#7847)
|
1 год назад |
sasha0552
|
7a16ce7db2
server : smart slot selection using Longest Common Prefix (#7728)
|
1 год назад |
woodx
|
a5cabd7649
server : do not get prompt in infill mode (#7286)
|
1 год назад |
Georgi Gerganov
|
f83351f9a6
imatrix : migrate to gpt_params (#7771)
|
1 год назад |
Georgi Gerganov
|
1442677f92
common : refactor cli arg parsing (#7675)
|
1 год назад |
Yazan Agha-Schrader
|
2e666832e6
server : new UI (#7633)
|
1 год назад |
Georgi Gerganov
|
6ff13987ad
common : normalize naming style (#7462)
|
1 год назад |
Georgi Gerganov
|
e932094d58
server : return error on too large embedding input (#7389)
|
1 год назад |
Johannes Gäßler
|
41858392e1
server: fix seed being reported back (#7382)
|
1 год назад |
Radoslav Gerganov
|
ee94172d33
server : add support for the RPC backend (#7305)
|
1 год назад |
Steve Grubb
|
4f0263633b
server: free sampling contexts on exit (#7264)
|
1 год назад |
Xuan Son Nguyen
|
72c177c1f6
fix system prompt handling (#7153)
|
1 год назад |
Steve Grubb
|
988631335a
server : free llama_batch on exit (#7212)
|
1 год назад |
Johannes Gäßler
|
5ae3426b0b
server: fix reported top tokens for temperature 0 (#7203)
|
1 год назад |
Johannes Gäßler
|
c12452c7ae
JSON: [key] -> .at(key), assert() -> GGML_ASSERT (#7143)
|
1 год назад |
Johan
|
911b3900dd
server : add_special option for tokenize endpoint (#7059)
|
1 год назад |
Johannes Gäßler
|
af0a5b6163
server: fix incorrectly reported token probabilities (#7125)
|
1 год назад |
maor-ps
|
03fb8a002d
If first token generated from the server is the stop word the server will crash (#7038)
|
1 год назад |
Georgi Gerganov
|
9c67c2773d
ggml : add Flash Attention (#5021)
|
1 год назад |
Olivier Chafik
|
8843a98c2b
Improve usability of --model-url & related flags (#6930)
|
1 год назад |
Pierrick Hymbert
|
b7368332e2
ci: server: tests python env on github container ubuntu latest / fix n_predict (#6935)
|
1 год назад |
Pierrick Hymbert
|
0c4d489e29
quantize: add imatrix and dataset metadata in GGUF (#6658)
|
1 год назад |
Pierrick Hymbert
|
7f5ff558ee
server: stop generation at `n_ctx_train` if `n_predict` is not set (#6638)
|
1 год назад |
Kyle Mistele
|
37246b1031
common : revert showing control tokens by default for server (#6860)
|
1 год назад |
Johannes Gäßler
|
28103f4832
Server: fix seed for multiple slots (#6835)
|
1 год назад |