Georgi Gerganov
|
7a32fcb3b2
ggml : add Q8_0 quantization format (rename the old one to Q8_1) (ARM NEON) (#1179)
|
2 năm trước cách đây |
unbounded
|
dd0eabc049
ggml : use full range for Q4_0 and Q4_2 quantization (#729)
|
2 năm trước cách đây |
xaedes
|
54bb60e268
ggml : fix bug in ggml_compute_forward_sum_f32 (#1162)
|
2 năm trước cách đây |
Georgi Gerganov
|
8a0f8673ba
ggml : export symbols (#1155)
|
2 năm trước cách đây |
xaedes
|
0c5692345d
examples : add save_load_state example (#1150)
|
2 năm trước cách đây |
Georgi Gerganov
|
957c8ae21d
llama : increase scratch buffer size for 65B (ref #1152)
|
2 năm trước cách đây |
mgroeber9110
|
9b0a4d4214
examples/main README improvements and some light refactoring (#1131)
|
2 năm trước cách đây |
Stephan Walter
|
2ec83428de
Fix build for gcc 8 and test in CI (#1154)
|
2 năm trước cách đây |
slaren
|
e4cf982e0d
Fix cuda compilation (#1128)
|
2 năm trước cách đây |
Georgi Gerganov
|
c4fe84fb0d
llama : refactor get / set state + remove redundant kv cache API (#1143)
|
2 năm trước cách đây |
slaren
|
1d78fecdab
Fix LoRA acronym (#1145)
|
2 năm trước cách đây |
Georgi Gerganov
|
284685f169
scripts : add helper scripts to synch ggml repo
|
2 năm trước cách đây |
DannyDaemonic
|
edce63baa9
Added README.md for main with examples and explanations (#1139)
|
2 năm trước cách đây |
Georgi Gerganov
|
ec9cdb6752
ggml : do not print perf ops that have not been used at all
|
2 năm trước cách đây |
Georgi Gerganov
|
e4422e299c
ggml : better PERF prints + support "LLAMA_PERF=1 make"
|
2 năm trước cách đây |
Stephan Walter
|
53c8434398
Improve AVX2 for vec_dot_q4_3_q8_0 (#1138)
|
2 năm trước cách đây |
Pavol Rusnak
|
c6524f46eb
readme : update gpt4all instructions (#980)
|
2 năm trước cách đây |
Yishuo Wang
|
c9e2c26f41
A better `packNibbles` and `mul_sum_i8_pairs_float` implementation using AVX512 (#1119)
|
2 năm trước cách đây |
Georgi Gerganov
|
0e018fe008
ggml : fix Q4_3 cuBLAS
|
2 năm trước cách đây |
Stephan Walter
|
857308d1e8
ci : trigger CI for drafts, but not most PR actions (#1125)
|
2 năm trước cách đây |
Stephan Walter
|
c50b628810
Fix CI: ARM NEON, quantization unit tests, editorconfig (#1122)
|
2 năm trước cách đây |
unbounded
|
5f939498d5
ggml : unit test for quantization functions (#953)
|
2 năm trước cách đây |
wbpxre150
|
36b4f7e064
llama : print timings on ctrl+c exit (#1021)
|
2 năm trước cách đây |
eiery
|
10f19c1121
llama : have n_batch default to 512 (#1091)
|
2 năm trước cách đây |
Howard Su
|
7e312f165c
cmake : fix build under Windows when enable BUILD_SHARED_LIBS (#1100)
|
2 năm trước cách đây |
Georgi Gerganov
|
872c365a91
ggml : fix AVX build + update to new Q8_0 format
|
2 năm trước cách đây |
Georgi Gerganov
|
955ef9a5d5
ggml : alternative Q4_3 implementation using modified Q8_0 (#1109)
|
2 năm trước cách đây |
Stephan Walter
|
c5aa5e5777
ggml : AVX2 optimization for vec_dot_q4_3_q8_0 and refactoring (#1099)
|
2 năm trước cách đây |
Clint Herron
|
e9a9cb0c54
examples : Improve Alpaca Default Repeat Penalty: Better Match Alpaca.cpp Experience (#1107)
|
2 năm trước cách đây |
xaedes
|
b6e7f9b09e
llama : add api for getting/setting the complete state: rng, logits, embedding and kv_cache (#1105)
|
2 năm trước cách đây |