Georgi Gerganov
|
95d576b48e
metal : pad n_ctx by 32 (#6177)
|
vor 1 Jahr |
Neo Zhang Jianyu
|
59c17f02de
add blog link (#6222)
|
vor 1 Jahr |
DAN™
|
fa046eafbc
Fix params underscore convert to dash. (#6203)
|
vor 1 Jahr |
Jan Boon
|
be07a03217
server : update readme doc from `slot_id` to `id_slot` (#6213)
|
vor 1 Jahr |
slaren
|
d0a71233fb
cuda : disable host register by default (#6206)
|
vor 1 Jahr |
semidark
|
f372c49ccd
Corrected typo to wrong file (#6199)
|
vor 1 Jahr |
Georgi Gerganov
|
924ce1dce7
tests : disable system() calls (#6198)
|
vor 1 Jahr |
slaren
|
03a8f8fafe
cuda : fix LLAMA_CUDA_F16 build (#6197)
|
vor 1 Jahr |
Kawrakow
|
cfd3be76e3
ggml : same IQ4_NL quantization for CPU/CUDA/Metal (#6196)
|
vor 1 Jahr |
Olivier Chafik
|
5b7b0ac8df
json-schema-to-grammar improvements (+ added to server) (#5978)
|
vor 1 Jahr |
Vaibhav Srivastav
|
1943c01981
ci : fix indentation error (#6195)
|
vor 1 Jahr |
Vaibhav Srivastav
|
5e43ba8742
build : add mac pre-build binaries (#6182)
|
vor 1 Jahr |
Kawrakow
|
76aa30a263
Add ability to use Q5_0, Q5_1, and IQ4_NL for quantized K cache (#6183)
|
vor 1 Jahr |
AidanBeltonS
|
c5b8595e3f
Add nvidia and amd backends (#6157)
|
vor 1 Jahr |
slaren
|
42e21c6882
cuda : fix conflict with std::swap (#6186)
|
vor 1 Jahr |
slaren
|
1c51f98adc
cuda : print the returned error when CUDA initialization fails (#6185)
|
vor 1 Jahr |
Ziang Wu
|
f9c7ba3447
llava : update MobileVLM-README.md (#6180)
|
vor 1 Jahr |
Ziang Wu
|
272935b281
llava : add MobileVLM_V2 backup (#6175)
|
vor 1 Jahr |
slaren
|
ccf58aa3ec
cuda : refactor to remove global resources (#6170)
|
vor 1 Jahr |
Xuan Son Nguyen
|
91f8ad167d
Server: version bump for httplib and json (#6169)
|
vor 1 Jahr |
Georgi Gerganov
|
6b7e76d28c
gitignore : ignore curl-related files
|
vor 1 Jahr |
Georgi Gerganov
|
bc0baab2ea
server : allow to override -ngl in tests (#6170)
|
vor 1 Jahr |
Georgi Gerganov
|
d795988d9e
Revert "llava : add a MobileVLM_V2-1.7B backup (#6152)"
|
vor 1 Jahr |
Ziang Wu
|
f8c4e745e1
llava : add a MobileVLM_V2-1.7B backup (#6152)
|
vor 1 Jahr |
Karthick
|
47cc7a7bf9
Server: Handle n_keep parameter in the request (#6174)
|
vor 1 Jahr |
Jared Van Bortel
|
bd60d82d0c
server tests : more pythonic process management; fix bare `except:` (#6146)
|
vor 1 Jahr |
Neo Zhang Jianyu
|
6c0b287748
update readme sycl for new update (#6151)
|
vor 1 Jahr |
Abhilash Majumder
|
d26e8b669d
increase igpu cluster limit (#6159)
|
vor 1 Jahr |
DAN™
|
d8b009a945
Remove undeed header file. (#6158)
|
vor 1 Jahr |
Pierrick Hymbert
|
d0d5de42e5
gguf-split: split and merge gguf per batch of tensors (#6135)
|
vor 1 Jahr |