Justine Tunney
|
8cc91dc63c
ggml : add llamafile sgemm (#6414)
|
1 год назад |
slaren
|
280345968d
cuda : rename build flag to LLAMA_CUDA (#6299)
|
1 год назад |
Kawrakow
|
76aa30a263
Add ability to use Q5_0, Q5_1, and IQ4_NL for quantized K cache (#6183)
|
1 год назад |
slaren
|
2bf8d0f7c4
backend : offload large batches to GPU (#6083)
|
1 год назад |
slaren
|
b0bc9f4a9d
llama-bench : use random tokens to improve accuracy with mixtral (#6069)
|
1 год назад |
Steve Grubb
|
6e0438da3c
gguf : fix resource leaks (#6061)
|
1 год назад |
slaren
|
f30ea47a87
llama : add pipeline parallelism support (#6017)
|
1 год назад |
Georgi Gerganov
|
6cdabe6526
llama-bench : add embeddings option (#5924)
|
1 год назад |
Neo Zhang Jianyu
|
715641391d
Support multiple GPUs (split mode) on SYCL backend (#5806)
|
1 год назад |
Pierrick Hymbert
|
3ab8b3a92e
llama : cleanup unused mmq flags (#5772)
|
1 год назад |
Georgi Gerganov
|
ab336a9d5e
code : normalize enum names (#5697)
|
1 год назад |
bmwl
|
f486f6e1e5
ggml : add numa options (#5377)
|
1 год назад |
Michael Klimenko
|
52bb63c708
refactor : switch to emplace_back to avoid extra object (#5291)
|
1 год назад |
Neo Zhang Jianyu
|
128dcbd3c9
add --no-mmap in llama-bench (#5257)
|
1 год назад |
Georgi Gerganov
|
5cb04dbc16
llama : remove LLAMA_MAX_DEVICES and LLAMA_SUPPORTS_GPU_OFFLOAD (#5240)
|
1 год назад |
Jared Van Bortel
|
e8dc55d006
kompute : llama-bench support and ggml_cpu_has_kompute() (#5226)
|
1 год назад |
0cc4m
|
2307523d32
ggml : add Vulkan backend (#2059)
|
2 лет назад |
slaren
|
e7e4df031b
llama : ggml-backend integration (#4766)
|
2 лет назад |
slaren
|
226460cc0d
llama-bench : add no-kv-offload parameter (#4812)
|
2 лет назад |
Georgi Gerganov
|
bcc0eb4591
llama : per-layer KV cache + quantum K cache (#4309)
|
2 лет назад |
cebtenzzre
|
b12fa0d1c1
build : link against build info instead of compiling against it (#3879)
|
2 лет назад |
Kerfuffle
|
6e08281e58
Extend llama_kv_cache_seq_rm to allow matching any sequence (#3843)
|
2 лет назад |
Marcus Dunn
|
5be6c803fa
llama : remove token functions with `context` args in favor of `model` (#3720)
|
2 лет назад |
Cebtenzzre
|
bc39553c90
build : enable more non-default compiler warnings (#3200)
|
2 лет назад |
slaren
|
16bc66d947
llama.cpp : split llama_context_params into model and context params (#3301)
|
2 лет назад |
Georgi Gerganov
|
ec893798b7
llama : custom attention mask + parallel decoding + no context swaps (#3228)
|
2 лет назад |
Rickard Hallerbäck
|
dc6897404e
metal : reusing llama.cpp logging (#3152)
|
2 лет назад |
Georgi Gerganov
|
8c00b7a6ff
sync : ggml (Metal F32 support + reduce ggml-alloc size) (#3192)
|
2 лет назад |
slaren
|
15b67a66c2
llama-bench : use two tokens in the warmup run for prompt evals (#3059)
|
2 лет назад |
Cebtenzzre
|
de2fe892af
examples : replace fprintf to stdout with printf (#3017)
|
2 лет назад |