slaren
|
2bf8d0f7c4
backend : offload large batches to GPU (#6083)
|
1 年間 前 |
Justine Tunney
|
a0b3ac8c48
ggml : introduce GGML_CALL function annotation (#4850)
|
2 年 前 |
slaren
|
e7e4df031b
llama : ggml-backend integration (#4766)
|
2 年 前 |
Georgi Gerganov
|
fe680e3d10
sync : ggml (new ops, tests, backend, etc.) (#4359)
|
2 年 前 |
Meng Zhang
|
46876d2a2c
cuda : supports running on CPU for GGML_USE_CUBLAS=ON build (#3946)
|
2 年 前 |
Georgi Gerganov
|
db3abcc114
sync : ggml (ggml-backend) (#3548)
|
2 年 前 |
Georgi Gerganov
|
ec893798b7
llama : custom attention mask + parallel decoding + no context swaps (#3228)
|
2 年 前 |
Henri Vasserman
|
6bbc598a63
ROCm Port (#1087)
|
2 年 前 |
slaren
|
1123f7fbdf
ggml-cuda : use graph allocator (#2684)
|
2 年 前 |
slaren
|
097e121e2f
llama : add benchmark example (#2626)
|
2 年 前 |
Johannes Gäßler
|
0728c5a8b9
CUDA: mmq CLI option, fixed mmq build issues (#2453)
|
2 年 前 |
Johannes Gäßler
|
0bc2cdfc87
Better CUDA synchronization logic (#2057)
|
2 年 前 |
Johannes Gäßler
|
7f9753fa12
CUDA GPU acceleration for LoRAs + f16 models (#1970)
|
2 年 前 |
Johannes Gäßler
|
254a7a7a5f
CUDA full GPU acceleration, KV cache in VRAM (#1827)
|
2 年 前 |
Howard Su
|
58970a4c39
Leverage mmap for offloading tensors to GPU (#1597)
|
2 年 前 |
Johannes Gäßler
|
17366df842
Multi GPU support, CUDA refactor, CUDA scratch buffer (#1703)
|
2 年 前 |
Johannes Gäßler
|
affc76edfd
cuda : loading models directly into VRAM, norm calculation on GPU, broadcasting for ggml_mul (#1483)
|
2 年 前 |
Johannes Gäßler
|
905d87b70a
ggml : GPU-accelerated token generation (#1412)
|
2 年 前 |
slaren
|
58b367c2d7
cuBLAS: refactor and optimize f16 mat mul performance (#1259)
|
2 年 前 |
slaren
|
7fc50c051a
cuBLAS: use host pinned memory and dequantize while copying (#1207)
|
2 年 前 |
Henri Vasserman
|
b1ee8f59b4
cuBLAS: non-contiguous tensor support (#1215)
|
2 年 前 |
Stephan Walter
|
36d19a603b
Remove Q4_3 which is no better than Q5 (#1218)
|
2 年 前 |
Georgi Gerganov
|
574406dc7e
ggml : add Q5_0 and Q5_1 quantization (#1187)
|
2 年 前 |
Georgi Gerganov
|
7a32fcb3b2
ggml : add Q8_0 quantization format (rename the old one to Q8_1) (ARM NEON) (#1179)
|
2 年 前 |
slaren
|
50cb666b8a
Improve cuBLAS performance by using a memory pool (#1094)
|
2 年 前 |
slaren
|
2005469ea1
Add Q4_3 support to cuBLAS (#1086)
|
2 年 前 |
slaren
|
02d6988121
Improve cuBLAS performance by dequantizing on the GPU (#1065)
|
2 年 前 |