cturan/llama.cpp

Autor	SHA1 Zpráva	Datum
Daniel Bevenius	4a46d2b792 llava : remove prog parameter from ArgumentParser (#5457)	před 1 rokem
Georgi Gerganov	3b169441df sync : ggml (#5452)	před 1 rokem
Johannes Gäßler	3bdc4cd0f5 CUDA: mul_mat_vec_q tiling, refactor mul mat logic (#5434)	před 1 rokem
Douglas Hanley	2891c8aa9a Add support for BERT embedding models (#5423)	před 1 rokem
github-actions[bot]	97a336507e flake.lock: Update	před 1 rokem
Sergio López	c88c74f967 vulkan: only use M-sized matmul on Apple GPUs (#5412)	před 1 rokem
Alexey Parfenov	a803333a4e common : use enums for sampler types (#5418)	před 1 rokem
Alexey Parfenov	684780141a server : allow to specify tokens as strings in logit_bias (#5003)	před 1 rokem
Georgi Gerganov	85910c5b30 main : ctrl+C print timing in non-interactive mode (#3873)	před 1 rokem
Georgi Gerganov	139b62a839 common : fix compile warning	před 1 rokem
Georgi Gerganov	0f2411f154 ggml : fix compile warnings (unused vars) (#4966)	před 1 rokem
snadampal	a07d0fee1f ggml : add mmla kernels for quantized GEMM (#4966)	před 1 rokem
Johannes Gäßler	e4640d8fdf lookup: add print for drafting performance (#5450)	před 1 rokem
Xuan Son Nguyen	907e08c110 server : add llama2 chat template (#5425)	před 1 rokem
Ian Bull	f026f8120f metal : use autoreleasepool to avoid memory leaks (#5437)	před 1 rokem
Georgi Gerganov	cd9aea63b5 scripts : update sync scripts with new backends	před 1 rokem
Georgi Gerganov	43b65f5eb8 sync : ggml	před 1 rokem
Michael Podvitskiy	4633d93af0 ggml : add abort_callback for cpu backend (ggml/725)	před 1 rokem
Neuman Vong	4b7b38bef5 vulkan: Set limit for task concurrency (#5427)	před 1 rokem
Daniel Bevenius	e00d2a62dd llava : add requirements.txt and update README.md (#5428)	před 1 rokem
Riley Stewart	7c777fcd5d server : fix prompt caching for repeated prompts (#5420)	před 1 rokem
Paul Tsochantaris	e5ca3937c6 llama : do not cap thread count when MoE on CPU (#5419)	před 1 rokem
Marko Tasic	e4124c2477 readme : add JavaScript/Wasm repo (#5415)	před 1 rokem
Michael Podvitskiy	b2f87cb64d ggml : fix `error C2078: too many initializers` for MSVC ARM64 (#5404)	před 1 rokem
0cc4m	44fbe34360 Fix Vulkan crash on APUs with very little device memory (#5424)	před 1 rokem
Johannes Gäßler	8e6a9d2de0 CUDA: more warps for mmvq on NVIDIA (#5394)	před 1 rokem
slaren	41f308f58e llama : do not print "offloading layers" message in CPU-only builds (#5416)	před 1 rokem
Abhilash Majumder	6e99f2a04f Fix f16_sycl cpy call from Arc (#5411)	před 1 rokem
Daniel Bevenius	ff4ff05c5f llava : add missing .py, and fix paths in README.md (#5414)	před 1 rokem
Johannes Gäßler	b7b74cef36 fix trailing whitespace (#5407)	před 1 rokem

Novější Starší

Historie revizí Hledat

Historie revizí