Georgi Gerganov
|
2d7bf110ed
llama : fix vram_scratch var
|
2 tahun lalu |
Georgi Gerganov
|
2a4e41a086
llama : fix compile warnings
|
2 tahun lalu |
Johannes Gäßler
|
17366df842
Multi GPU support, CUDA refactor, CUDA scratch buffer (#1703)
|
2 tahun lalu |
Georgi Gerganov
|
44f906e853
metal : add f16 support
|
2 tahun lalu |
Georgi Gerganov
|
7a74dee6b4
llama : temporary disable Q6_K output quantization (#1711)
|
2 tahun lalu |
Spencer Sutton
|
590250f7a9
metal : add checks for buffer size (#1706)
|
2 tahun lalu |
mgroeber9110
|
c2df36d60d
llama : consistently catch and throw only exceptions deriving from std::exception (#1599)
|
2 tahun lalu |
kiltyj
|
9d0693bce3
metal : use shared buffers between CPU and GPU (#1696)
|
2 tahun lalu |
Kawrakow
|
99009e72f8
ggml : add SOTA 2,3,4,5,6 bit k-quantizations (#1684)
|
2 tahun lalu |
Henri Vasserman
|
5220a991a5
Increase 3B scratch buffers. (#1698)
|
2 tahun lalu |
Georgi Gerganov
|
d1f563a743
llama : fix Metal KV cache sync (close #1695)
|
2 tahun lalu |
Georgi Gerganov
|
ecb217db4f
llama : Metal inference (#1642)
|
2 tahun lalu |
0cc4m
|
dcb2ed4826
OpenCL: Fix duplication of layers in VRAM and RAM, add GPU mul kernel (#1653)
|
2 tahun lalu |
Henri Vasserman
|
ffb06a345e
OpenLLaMA 3B support (#1588)
|
2 tahun lalu |
0cc4m
|
2e6cd4b025
OpenCL Token Generation Acceleration (#1459)
|
2 tahun lalu |
Juuso Alasuutari
|
29cf5596fe
llama : define magic numbers as integer constants (#1518) (#1520)
|
2 tahun lalu |
Johannes Gäßler
|
affc76edfd
cuda : loading models directly into VRAM, norm calculation on GPU, broadcasting for ggml_mul (#1483)
|
2 tahun lalu |
Georgi Gerganov
|
ec2e10c444
llama : add llama_init_backend() API (close #1527)
|
2 tahun lalu |
Maxime
|
503db28849
llama : fix name shadowing and C4146 (#1526)
|
2 tahun lalu |
Georgi Gerganov
|
8a203f9fa1
llama : fix compile warnings in llama_set_state_data()
|
2 tahun lalu |
Georgi Gerganov
|
2d5db48371
ggml : use F16 instead of F32 in Q4_0, Q4_1, Q8_0 (#1508)
|
2 tahun lalu |
Georgi Gerganov
|
4b7e245adf
minor : fix compile warnings
|
2 tahun lalu |
Erik Scholz
|
5ea4339273
make kv_f16 the default for api users (#1517)
|
2 tahun lalu |
Stephan Walter
|
dc271c52ed
Remove unused n_parts parameter (#1509)
|
2 tahun lalu |
Georgi Gerganov
|
5a5aeb1e91
llama : fix unused warning
|
2 tahun lalu |
Johannes Gäßler
|
905d87b70a
ggml : GPU-accelerated token generation (#1412)
|
2 tahun lalu |
xaedes
|
f954edda93
ggml : implement backward pass for llama + small training-llama-from-scratch example (#1360)
|
2 tahun lalu |
Georgi Gerganov
|
0cd22e190a
llama : fix various warnings
|
2 tahun lalu |
Georgi Gerganov
|
738ace394a
llama : free ggml context in set / copy state data (close #1425)
|
2 tahun lalu |
Georgi Gerganov
|
b9fd7eee57
ggml : remove bit shuffling (#1405)
|
2 tahun lalu |