Georgi Gerganov
|
a9cae48003
tests : add non-cont unary tests (#7857)
|
hace 1 año |
Johannes Gäßler
|
42b53d192f
CUDA: revise q8_1 data layout for mul_mat_q (#7824)
|
hace 1 año |
Johannes Gäßler
|
7d1a378b8f
CUDA: refactor mmq, dmmv, mmvq (#7716)
|
hace 1 año |
agray3
|
b90dc566c1
Allow number of nodes in CUDA graph to change (#7738)
|
hace 1 año |
Johannes Gäßler
|
9b596417af
CUDA: quantized KV support for FA vec (#7527)
|
hace 1 año |
Georgi Gerganov
|
fb76ec31a9
ggml : fix YARN + add tests + add asserts (#7617)
|
hace 1 año |
Djip007
|
852aafb163
update HIP_UMA #7399 (#7414)
|
hace 1 año |
agray3
|
197c00681b
Allow multiple copy function pointers for CUDA graph kernel param updates (#7565)
|
hace 1 año |
slaren
|
ab33f7a338
cuda : clear error after buffer allocation failure (#7376)
|
hace 1 año |
fraxy-v
|
f5bf761747
Capture CUDA logging output (#7298)
|
hace 1 año |
agray3
|
dc020985b8
Avoid unnecessarily disabling CUDA graphs (#7302)
|
hace 1 año |
Johannes Gäßler
|
dc685be466
CUDA: add FP32 FlashAttention vector kernel (#7188)
|
hace 1 año |
Justina Cho
|
f5ef34e428
feat: implemented sigmoid function (ggml/806)
|
hace 1 año |
Georgi Gerganov
|
9cb317f77e
ggml : full ALiBi support (#7192)
|
hace 1 año |
agray3
|
bc4bba364f
Introduction of CUDA Graphs to LLama.cpp (#6766)
|
hace 1 año |
William Tambellini
|
858f6b73f6
Add an option to build without CUDA VMM (#7067)
|
hace 1 año |
Georgi Gerganov
|
9c67c2773d
ggml : add Flash Attention (#5021)
|
hace 1 año |
slaren
|
0d56246f4b
ggml : group all experts in a single ggml_mul_mat_id (#6505)
|
hace 1 año |
Johannes Gäßler
|
b5e7285baf
CUDA: fix matrix multiplication logic for tests (#6667)
|
hace 1 año |
Carolinabanana
|
5dc9dd7152
llama : add Command R Plus support (#6491)
|
hace 1 año |
Slava Primenko
|
f77261a7c5
ggml: bypass code incompatible with CUDA < 11.1 (whisper/2020)
|
hace 1 año |
slaren
|
08a0c02060
ggml : mul_mat_id use the same tensor for all the experts (#6387)
|
hace 1 año |
compilade
|
557410b8f0
llama : greatly reduce output buffer memory usage (#6122)
|
hace 1 año |
Kawrakow
|
55c1b2a3bb
IQ1_M: 1.75 bpw quantization (#6302)
|
hace 1 año |
slaren
|
ae1f211ce2
cuda : refactor into multiple files (#6269)
|
hace 1 año |
slaren
|
2f0e81e053
cuda : add LLAMA_CUDA_NO_PEER_COPY to workaround broken ROCm p2p copy (#6208)
|
hace 1 año |
slaren
|
d0a71233fb
cuda : disable host register by default (#6206)
|
hace 1 año |
slaren
|
03a8f8fafe
cuda : fix LLAMA_CUDA_F16 build (#6197)
|
hace 1 año |
Kawrakow
|
76aa30a263
Add ability to use Q5_0, Q5_1, and IQ4_NL for quantized K cache (#6183)
|
hace 1 año |
slaren
|
42e21c6882
cuda : fix conflict with std::swap (#6186)
|
hace 1 año |