amirai21
|
477a66b035
convert : correctly handle LLaMA tokenizer for Jamba (#16470)
|
před 3 měsíci |
Georgi Gerganov
|
e60f01d941
server : fix division by zero when reporting stats (#16501)
|
před 3 měsíci |
Georgi Gerganov
|
81086cd6a3
vocab : mark EOT token for Granite models (#16499)
|
před 3 měsíci |
Radoslav Gerganov
|
68ee98ae18
server : return HTTP 400 if prompt exceeds context length (#16486)
|
před 3 měsíci |
Radoslav Gerganov
|
cdb6da468c
server : log requests to /v1/completions (#16495)
|
před 3 měsíci |
Prajwal B Mehendarkar
|
6d69ab3f26
cmake : Dont define XOPENSOURCE on AIX (#16481)
|
před 3 měsíci |
Pascal
|
1faa13a118
webui: updated the chat service to only include max_tokens in the req… (#16489)
|
před 3 měsíci |
duduta
|
1deee0f8d4
cpu : optimize the ggml NORM operation (#15953)
|
před 3 měsíci |
Georgi Gerganov
|
d00cbea63c
server : host-memory prompt caching (#16391)
|
před 3 měsíci |
Pascal
|
8328fd4bae
No markdown in cot (#16483)
|
před 3 měsíci |
Daniel Bevenius
|
56b4795842
model-conversion : add support for SentenceTransformers (#16387)
|
před 3 měsíci |
sudhiarm
|
2c0d875ae6
ci: add ARM64 Kleidiai build and test support (#16462)
|
před 3 měsíci |
Chenguang Li
|
aa4711d369
CANN: Improve ACL graph matching (#16166)
|
před 3 měsíci |
Charles Xu
|
d80d6d2400
kleidiai: kernel interface refactoring (#16460)
|
před 3 měsíci |
Neo Zhang Jianyu
|
b260213755
[SYCL] refactor soft_max, add soft_max_back (#16472)
|
před 3 měsíci |
Saba Fallah
|
e08db42595
model: EmbeddingGemma Adding Support for SentenceTransformers Dense Modules (#16367)
|
před 3 měsíci |
Pascal
|
12bbc3fa50
refactor: centralize CoT parsing in backend for streaming mode (#16394)
|
před 3 měsíci |
ai-fonsi
|
9d0882840e
Disable CUDA host buffers on integrated GPUs (#16308)
|
před 3 měsíci |
issixx
|
d2ee056e1d
server : fix cancel pending task (#16467)
|
před 3 měsíci |
Georgi Gerganov
|
b2c08c9ec4
metal : mark FA blocks (#16372)
|
před 3 měsíci |
Georgi Gerganov
|
7fdd16b432
server : improve context checkpoint logic (#16440)
|
před 3 měsíci |
Reese Levine
|
74b8fc17f9
ggml webgpu: profiling, CI updates, reworking of command submission (#16452)
|
před 3 měsíci |
Tarek Dakhran
|
aeaf8a36f0
llama : support LiquidAI LFM2-MoE hybrid model (#16464)
|
před 3 měsíci |
Georgi Gerganov
|
df1b612e29
server : add `/v1/health` endpoint (#16461)
|
před 3 měsíci |
Sascha Rogmann
|
4e0388aa8a
webui : added download action (#13552) (#16282)
|
před 3 měsíci |
Georgi Gerganov
|
ef4c5b87ea
presets : fix pooling param for embedding models (#16455)
|
před 3 měsíci |
Radoslav Gerganov
|
c61ae20d05
rpc : update documentation (#16441)
|
před 3 měsíci |
Georgi Gerganov
|
0123ff38f5
memory : use sequential equal splits for recurrent modules (#16442)
|
před 3 měsíci |
Georgi Gerganov
|
0a319bb75e
metal : add support for non-padded FA KV (#16148)
|
před 3 měsíci |
Georgi Gerganov
|
1d6092fc72
tests : add -INF blocks to the KQ mask in the FA tests (#16380)
|
před 3 měsíci |