Kawrakow
|
44ca159faf
1.5 bit: we can do even better (#5999)
|
1 年間 前 |
Georgi Gerganov
|
05b06210c9
llama : more consistent names of count variables (#5994)
|
1 年間 前 |
Georgi Gerganov
|
83796e62bc
llama : refactor unicode stuff (#5992)
|
1 年間 前 |
Jakub N
|
828defefb6
Update server docker image URLs (#5997)
|
1 年間 前 |
Xuan Son Nguyen
|
caa106d4e0
Server: format error to json (#5961)
|
1 年間 前 |
Michael Podvitskiy
|
3202361c5b
ggml, ci : Windows ARM runner and build fixes (#5979)
|
1 年間 前 |
Minsoo Cheong
|
332bdfd798
server : maintain chat completion id for streaming responses (#5988)
|
1 年間 前 |
Gilad S
|
ecab1c75de
cmake : fix subdir for `LLAMA_METAL_EMBED_LIBRARY` (#5985)
|
1 年間 前 |
Georgi Gerganov
|
ee35600b90
llama : fix F16/F32 downcast + improve names (#5980)
|
1 年間 前 |
Kawrakow
|
be858f6205
Better 1.5 bit quantization (#5971)
|
1 年間 前 |
Abhilash Majumder
|
ef3ced26a3
[SYCL] Add q3_s and q1_s (#5886)
|
1 年間 前 |
AidanBeltonS
|
3814a07392
[SYCL] Add support for SYCL Nvidia target (#5738)
|
1 年間 前 |
Georgi Gerganov
|
bb6d00bbf9
metal : move mm_id indices to shared mem (#5982)
|
1 年間 前 |
Dean
|
7ab7b733bb
android : fix utf8 decoding error (#5935)
|
1 年間 前 |
Georgi Gerganov
|
d9f65c97c3
readme : update hot topics
|
1 年間 前 |
Georgi Gerganov
|
b838b53ad6
sync : ggml
|
1 年間 前 |
Georgi Gerganov
|
df4dc3e7cb
ggml : try fix 32-bit arm compat (whisper/1938)
|
1 年間 前 |
Georgi Gerganov
|
bf47a5eefc
ggml : remove __constant__ specifier for CUDA tables (#5940)
|
1 年間 前 |
Pierrick Hymbert
|
fa8a809a91
server: ci: windows build and tests (#5968)
|
1 年間 前 |
DAN™
|
bcebd7dbf6
llama : add support for GritLM (#5959)
|
1 年間 前 |
Clint Herron
|
2960eae847
grammar : verify parsed state (#5950)
|
1 年間 前 |
Georgi Gerganov
|
c78541479c
nix: update flake.lock (#5969)
|
1 年間 前 |
Pierrick Hymbert
|
621e86b331
server: benchmark: chat/completions scenario and other llm servers comparison (#5941)
|
1 年間 前 |
Georgi Gerganov
|
77d1ac7e00
server : print chat template info
|
1 年間 前 |
slaren
|
d894f352bf
perplexity : support using multiple sequences to allow larger batch sizes (#5946)
|
1 年間 前 |
Georgi Gerganov
|
098dbaab44
readme : update hot topics
|
1 年間 前 |
Georgi Gerganov
|
8380ecfb21
ggml : fix unnecessary f32 -> f16 -> f32 casts (mmla) (#5951)
|
1 年間 前 |
Georgi Gerganov
|
58308a0ecc
server : fix metrics init (#5964)
|
1 年間 前 |
Georgi Gerganov
|
5b09797321
ggml : remove old quantization functions (#5942)
|
1 年間 前 |
Georgi Gerganov
|
97c09585d6
server : clarify some items in the readme (#5957)
|
1 年間 前 |