Pierrick Hymbert
|
fa8a809a91
server: ci: windows build and tests (#5968)
|
1 年間 前 |
DAN™
|
bcebd7dbf6
llama : add support for GritLM (#5959)
|
1 年間 前 |
Clint Herron
|
2960eae847
grammar : verify parsed state (#5950)
|
1 年間 前 |
Georgi Gerganov
|
c78541479c
nix: update flake.lock (#5969)
|
1 年間 前 |
Pierrick Hymbert
|
621e86b331
server: benchmark: chat/completions scenario and other llm servers comparison (#5941)
|
1 年間 前 |
Georgi Gerganov
|
77d1ac7e00
server : print chat template info
|
1 年間 前 |
slaren
|
d894f352bf
perplexity : support using multiple sequences to allow larger batch sizes (#5946)
|
1 年間 前 |
Georgi Gerganov
|
098dbaab44
readme : update hot topics
|
1 年間 前 |
Georgi Gerganov
|
8380ecfb21
ggml : fix unnecessary f32 -> f16 -> f32 casts (mmla) (#5951)
|
1 年間 前 |
Georgi Gerganov
|
58308a0ecc
server : fix metrics init (#5964)
|
1 年間 前 |
Georgi Gerganov
|
5b09797321
ggml : remove old quantization functions (#5942)
|
1 年間 前 |
Georgi Gerganov
|
97c09585d6
server : clarify some items in the readme (#5957)
|
1 年間 前 |
SeungWon Jeong
|
fb215c3832
server : normalize embeddings (#5956)
|
1 年間 前 |
Georgi Gerganov
|
2c4f566c88
tests : gitignore ggml-common.h
|
1 年間 前 |
Alexey Parfenov
|
0db32beaf0
server : fix passing prompt as tokens (#5955)
|
1 年間 前 |
Georgi Gerganov
|
8a3012a4ad
ggml : add ggml-common.h to deduplicate shared code (#5940)
|
1 年間 前 |
Georgi Gerganov
|
9674aaf35c
server : simplify logic for empty prompts (#5953)
|
1 年間 前 |
Xuan Son Nguyen
|
950ba1ab84
Server: reorganize some http logic (#5939)
|
1 年間 前 |
Gabe Goodhart
|
e1fa9569ba
server : add SSL support (#5926)
|
1 年間 前 |
Pierrick Hymbert
|
fd72d2d2a5
server: tests: add truncated prompt tests, better kv cache size (#5933)
|
1 年間 前 |
compilade
|
c2101a2e90
llama : support Mamba Selective State Space Models (#5328)
|
1 年間 前 |
compilade
|
515f7d0d4f
llama : fix quantization of shared token_embd (#5944)
|
1 年間 前 |
Pierrick Hymbert
|
76e868821a
server: metrics: add llamacpp:prompt_seconds_total and llamacpp:tokens_predicted_seconds_total, reset bucket only on /metrics. Fix values cast to int. Add Process-Start-Time-Unix header. (#5937)
|
1 年間 前 |
Don Mahurin
|
e457fb3540
llama : assume tied weights if lm_head/output weights is missing (#5824)
|
1 年間 前 |
Georgi Gerganov
|
af37fd8b30
server : fix EOS token detection with disabled cache (#5938)
|
1 年間 前 |
UEXTM.com
|
581ed5c4fe
log : fix MSVC compile errors (#5643)
|
1 年間 前 |
Georgi Gerganov
|
6cdabe6526
llama-bench : add embeddings option (#5924)
|
1 年間 前 |
Neo Zhang Jianyu
|
89fb735fcf
Revert "[SYCL] fix error when set main gpu to non-zero (#5901)" (#5918)
|
1 年間 前 |
Minsoo Cheong
|
55a2a900ff
server : add `/v1/completions` endpoint (#5914)
|
1 年間 前 |
Georgi Gerganov
|
2002bc96bf
server : refactor (#5882)
|
1 年間 前 |