Georgi Gerganov
|
85a7d8677b
memory : remove KV cache size padding (#16812)
|
2 місяців тому |
Georgi Gerganov
|
d00cbea63c
server : host-memory prompt caching (#16391)
|
3 місяців тому |
Johannes Gäßler
|
e81b8e4b7f
llama: use FA + max. GPU layers by default (#15434)
|
4 місяців тому |
Georgi Gerganov
|
d2fcd91cf9
server : disable context shift by default (#15416)
|
5 місяців тому |
Xuan-Son Nguyen
|
6aa892ec2a
server : do not return error out of context (with ctx shift disabled) (#13577)
|
8 місяців тому |
Diego Devesa
|
1d36b3670b
llama : move end-user examples to tools directory (#13249)
|
8 місяців тому |