cturan/llama.cpp

Autor	SHA1 Nachricht	Datum
Georgi Gerganov	6ffd4e9c44 server : pre-calculate EOG logit biases (#14721)	vor 6 Monaten
Georgi Gerganov	538cc77f7f server : fix handling of the ignore_eos flag (#14710)	vor 6 Monaten
Douglas Hanley	0c1df14b5f server : fix pooled embedding output (#14645)	vor 6 Monaten
Alawode Oluwandabira	17a1f0d2d4 server: Add ability to mount server at prefix (#14544)	vor 6 Monaten
matteo	caf5681fcb server : support jinja extra template kwargs (Qwen3 enable_thinking feature), from command line and from client (#13196)	vor 6 Monaten
Georgi Gerganov	7b50d589a8 kv-cells : fix tracking of seq_pos (#14339)	vor 6 Monaten
Georgi Gerganov	4c9fdfbe15 ubatch : new splitting logic (#14217)	vor 7 Monaten
aa956	d67341dc18 server : add server parameters for draft model cache type (#13782)	vor 7 Monaten
Georgi Gerganov	89fea80d29 server : fix incorrect usage of llama_get_embeddings() (#14225)	vor 7 Monaten
Georgi Gerganov	d3e64b9f49 llama : rework embeddings logic (#14208)	vor 7 Monaten
Eric Curtin	cd355eda7d server : When listening on a unix domain socket don't print http:// and port (#14180)	vor 7 Monaten
Georgi Gerganov	ffad043973 server : fix SWA condition for full context reprocess (#14163)	vor 7 Monaten
Georgi Gerganov	7d516443dd server : re-enable SWA speculative decoding (#14131)	vor 7 Monaten
Taylor	2baf07727f server : pass default --keep argument (#14120)	vor 7 Monaten
Juk Armstrong	3a12db23b6 Fixed spec timings to: accepted/tested instead of accepted/drafted (#14104)	vor 7 Monaten
Georgi Gerganov	87d34b381d server : fix LRU check (#14079)	vor 7 Monaten
Georgi Gerganov	745aa5319b llama : deprecate llama_kv_self_ API (#14030)	vor 7 Monaten
Georgi Gerganov	3637576288 server : disable speculative decoding for SWA models (#13970)	vor 7 Monaten
Olivier Chafik	c9bbc77931 `server`: update deepseek reasoning format (pass reasoning_content as diffs) (#13933)	vor 7 Monaten
Georgi Gerganov	3600cc2886 llama : use n_swa + n_ubatch cells for SWA cache (#13833)	vor 7 Monaten
Georgi Gerganov	3f55f781f1 llama : auto-batch preparation (#13845)	vor 7 Monaten
Georgi Gerganov	12d0188c0d kv-cache : refactor + add llama_memory_state_i (#13746)	vor 7 Monaten
Georgi Gerganov	53f925074d sync : vendor (#13901)	vor 7 Monaten
Xuan-Son Nguyen	10961339b2 mtmd : move helpers to dedicated library (⚠️ breaking change) (#13866)	vor 7 Monaten
Olivier Chafik	03f582ae8f server: fix streaming crashes (#13786)	vor 7 Monaten
Georgi Gerganov	79c137f776 examples : allow extracting embeddings from decoder contexts (#13797)	vor 7 Monaten
Olivier Chafik	e121edc432 `server`: add `--reasoning-budget 0` to disable thinking (incl. qwen3 w/ enable_thinking:false) (#13771)	vor 7 Monaten
Olivier Chafik	f5cd27b71d `server`: streaming of tool calls and thoughts when `--jinja` is on (#12379)	vor 7 Monaten
Xuan-Son Nguyen	9ecf3e66a3 server : support audio input (#13714)	vor 8 Monaten
Georgi Gerganov	cc74d5be99 server : pad small embedding batches (#13692)	vor 8 Monaten

Neuer Älter

Commit Verlauf Finden

Commit Verlauf