cturan/llama.cpp

Autor	SHA1 Zpráva	Datum
Kawrakow	a14679cc30 IQ4_NL: 4-bit non-linear quants with blocks of 32 (#5590)	před 1 rokem
Xuan Son Nguyen	9c405c9f9a Server: use llama_chat_apply_template (#5593)	před 1 rokem
Georgi Gerganov	f53119cec4 minor : fix trailing whitespace (#5538)	před 1 rokem
Xuan Son Nguyen	11b12de39b llama : add llama_chat_apply_template() (#5538)	před 1 rokem
Kawrakow	bd2d4e393b 1.5 bit quantization (#5453)	před 1 rokem
Georgi Gerganov	8f1be0d42f ggml : add ALiBi support for ggml_soft_max_ext (#5488)	před 1 rokem
Herman Semenov	65085c713e llama : minor fixed return int value (#5529)	před 1 rokem
bmwl	f486f6e1e5 ggml : add numa options (#5377)	před 1 rokem
Douglas Hanley	4524290e87 Use correct type of pooling for embedding models (#5500)	před 1 rokem
Jared Van Bortel	ea9c8e1143 llama : add support for Nomic Embed (#5468)	před 1 rokem
Aarni Koskela	c4e6dd59e4 llama : allow raw byte in SPM vocabs; don't crash on nl 404 (#5478)	před 1 rokem
Aarni Koskela	037259be68 llama : make load error reporting more granular (#5477)	před 1 rokem
Georgi Gerganov	cf45252a7c tests : multi-thread the tokenizer tests (#5474)	před 1 rokem
Douglas Hanley	03bf161eb6 llama : support batched embeddings (#5466)	před 1 rokem
Georgi Gerganov	49cc1f7d67 bert : add tests + fix quantization (#5475)	před 1 rokem
Georgi Gerganov	099afc6274 llama : fix quantization when tensors are missing (#5423)	před 1 rokem
Georgi Gerganov	3b169441df sync : ggml (#5452)	před 1 rokem
Douglas Hanley	2891c8aa9a Add support for BERT embedding models (#5423)	před 1 rokem
snadampal	a07d0fee1f ggml : add mmla kernels for quantized GEMM (#4966)	před 1 rokem
Paul Tsochantaris	e5ca3937c6 llama : do not cap thread count when MoE on CPU (#5419)	před 1 rokem
slaren	41f308f58e llama : do not print "offloading layers" message in CPU-only builds (#5416)	před 1 rokem
Johannes Gäßler	b7b74cef36 fix trailing whitespace (#5407)	před 1 rokem
runfuture	4aa43fab56 llama : fix MiniCPM (#5392)	před 1 rokem
Johannes Gäßler	26d4efd11e sampling: fix top_k <= 0 (#5388)	před 1 rokem
0cc4m	ee1628bdfe Basic Vulkan Multi-GPU implementation (#5321)	před 1 rokem
runfuture	316c7faf77 llama : add MiniCPM support (#5346)	před 1 rokem
Kawrakow	89503dcb5f iq3_xxs: quards for the no-imatrix situation (#5334)	před 1 rokem
Jared Van Bortel	1ec3332ade YaRN : store rope scaling type as int32_t in memory (#5285)	před 1 rokem
Ian Bull	e1e721094d llama : fix memory leak in llama_batch_free (#5252)	před 2 roky
Guoteng	ce32060198 llama : support InternLM2 (#5184)	před 2 roky

Novější Starší

Historie revizí Hledat

Historie revizí