Johannes Gäßler
|
0bc2cdfc87
Better CUDA synchronization logic (#2057)
|
2 năm trước cách đây |
Salvador E. Tropea
|
5b351e94d0
cuda : remove nchannels_x argument from mul_mat_vec_nc_f16_f32 (#2028)
|
2 năm trước cách đây |
Salvador E. Tropea
|
6432aabb6d
cuda : fix missing const qualifier in casts (#2027)
|
2 năm trước cách đây |
Johannes Gäßler
|
7f9753fa12
CUDA GPU acceleration for LoRAs + f16 models (#1970)
|
2 năm trước cách đây |
Kawrakow
|
6769e944c7
k-quants : support for super-block size of 64 (#2001)
|
2 năm trước cách đây |
Howard Su
|
cbebf61ca7
Fix assert when free invalid cuda pointer (#2005)
|
2 năm trước cách đây |
Robyn
|
5ec8dd5a3c
#1869 Fix null reference errors when training from scratch with CUDA (#1907)
|
2 năm trước cách đây |
Kawrakow
|
ca7c3f4da5
cuda : faster k-quants on older GPUs (#1930)
|
2 năm trước cách đây |
Johannes Gäßler
|
16b9cd1939
Convert vector to f16 for dequantize mul mat vec (#1913)
|
2 năm trước cách đây |
Johannes Gäßler
|
2c9380dd2f
Only one CUDA stream per device for async compute (#1898)
|
2 năm trước cách đây |
Howard Su
|
3d59ec5935
ggml : fix warnings under MSVC (#1908)
|
2 năm trước cách đây |
Kawrakow
|
3d01122610
CUDA : faster k-quant dot kernels (#1862)
|
2 năm trước cách đây |
Johannes Gäßler
|
a09f9195be
Fixed CUDA runtime version check (#1879)
|
2 năm trước cách đây |
Howard Su
|
64cc19b4fe
Fix the validation of main device (#1872)
|
2 năm trước cách đây |
Johannes Gäßler
|
254a7a7a5f
CUDA full GPU acceleration, KV cache in VRAM (#1827)
|
2 năm trước cách đây |
Howard Su
|
58970a4c39
Leverage mmap for offloading tensors to GPU (#1597)
|
2 năm trước cách đây |
Kyle Liang
|
12b063f0ec
Fixed WSL cuda's OOM error (#1594)
|
2 năm trước cách đây |
Johannes Gäßler
|
ae9663f188
Windows nvcc workaround (#1753)
|
2 năm trước cách đây |
Georgi Gerganov
|
5c64a0952e
k-quants : allow to optionally disable at compile time (#1734)
|
2 năm trước cách đây |
Johannes Gäßler
|
17366df842
Multi GPU support, CUDA refactor, CUDA scratch buffer (#1703)
|
2 năm trước cách đây |
Kawrakow
|
99009e72f8
ggml : add SOTA 2,3,4,5,6 bit k-quantizations (#1684)
|
2 năm trước cách đây |
Johannes Gäßler
|
1fcdcc28b1
cuda : performance optimizations (#1530)
|
2 năm trước cách đây |
Johannes Gäßler
|
affc76edfd
cuda : loading models directly into VRAM, norm calculation on GPU, broadcasting for ggml_mul (#1483)
|
2 năm trước cách đây |
Georgi Gerganov
|
2d5db48371
ggml : use F16 instead of F32 in Q4_0, Q4_1, Q8_0 (#1508)
|
2 năm trước cách đây |
Johannes Gäßler
|
eb363627fd
cuda : deduplicated dequantization code (#1453)
|
2 năm trước cách đây |
Georgi Gerganov
|
08737ef720
cuda : fix convert function (#1412)
|
2 năm trước cách đây |
Johannes Gäßler
|
905d87b70a
ggml : GPU-accelerated token generation (#1412)
|
2 năm trước cách đây |
Georgi Gerganov
|
b9fd7eee57
ggml : remove bit shuffling (#1405)
|
2 năm trước cách đây |
Johannes Gäßler
|
1f48b0abcf
Documented CUDA reproducibility, added warning (#1346)
|
2 năm trước cách đây |
slaren
|
58b367c2d7
cuBLAS: refactor and optimize f16 mat mul performance (#1259)
|
2 năm trước cách đây |