cturan/llama.cpp

Auteur	SHA1 Message	Date
Kawrakow	a14679cc30 IQ4_NL: 4-bit non-linear quants with blocks of 32 (#5590)	il y a 1 an
Kawrakow	bd2d4e393b 1.5 bit quantization (#5453)	il y a 1 an
snadampal	a07d0fee1f ggml : add mmla kernels for quantized GEMM (#4966)	il y a 2 ans
Kawrakow	c6b395535a ggml : make use of ggml-quants.h possible in C++ code (#5338)	il y a 2 ans
Kawrakow	f4d7e54974 SOTA 3-bit quants (#5196)	il y a 2 ans
Georgi Gerganov	38566680cd ggml : add IQ2 to test-backend-ops + refactoring (#4990)	il y a 2 ans
Kawrakow	334a835a1c ggml : importance matrix support for legacy quants (#4969)	il y a 2 ans
Kawrakow	467a882fd2 Add ability to use importance matrix for all k-quants (#4930)	il y a 2 ans
Kawrakow	147b17ac94 2-bit quantizations (#4897)	il y a 2 ans
Kawrakow	49662cbed3 ggml : SOTA 2-bit quants (add IQ2_XS) (#4856)	il y a 2 ans
Kawrakow	dd5ae06405 SOTA 2-bit quants (#4773)	il y a 2 ans
Georgi Gerganov	d061bf9405 ggml : fix q2_k bpw in comments (ggml/680)	il y a 2 ans
Georgi Gerganov	207b51900e ggml : move FP16 <-> FP32 code to ggml-impl.h (#3861)	il y a 2 ans
Georgi Gerganov	d69d777c02 ggml : quantization refactoring (#3833)	il y a 2 ans