goerch
|
46ef5b5fcf
llama : fix whitespace escaping in tokenizer (#2724)
|
2 vuotta sitten |
Johannes Gäßler
|
c63bb1d16a
CUDA: use mul_mat_q kernels by default (#2683)
|
2 vuotta sitten |
Alex Petenchea
|
3b6cfe7c92
convert.py : clarifying error message (#2718)
|
2 vuotta sitten |
Jiahao Li
|
800c9635b4
Fix CUDA softmax by subtracting max value before exp (#2665)
|
2 vuotta sitten |
Georgi Gerganov
|
deb7dfca4b
gguf : add ftype meta info to the model (#2710)
|
2 vuotta sitten |
Kawrakow
|
bac66994cf
Quantization imrovements for k_quants (#2707)
|
2 vuotta sitten |
slaren
|
519c981f8b
embedding : evaluate prompt in batches (#2713)
|
2 vuotta sitten |
slaren
|
1123f7fbdf
ggml-cuda : use graph allocator (#2684)
|
2 vuotta sitten |
Georgi Gerganov
|
ef3f333d37
ggml : sync latest (SAM + SD operators, CUDA alibi) (#2709)
|
2 vuotta sitten |
slaren
|
8e4364f2af
llama-bench : minor fixes (#2695)
|
2 vuotta sitten |
Kylin
|
1e3bc523d8
ggml : support CUDA's half type for aarch64(#1455) (#2670)
|
2 vuotta sitten |
Shouzheng Liu
|
14b1d7e6f7
metal : add missing barriers for mul-mat (#2699)
|
2 vuotta sitten |
Jhen-Jie Hong
|
226255b44e
server : fallback to default if client param is null (#2688)
|
2 vuotta sitten |
Kerfuffle
|
930523c8e1
Fix convert-llama-ggmlv3-to-gguf.py vocab conversion (#2698)
|
2 vuotta sitten |
Georgi Gerganov
|
c8dba409e6
py : remove obsolete script
|
2 vuotta sitten |
Georgi Gerganov
|
6381d4e110
gguf : new file format with flexible meta data (beta) (#2398)
|
2 vuotta sitten |
Shouzheng Liu
|
dadbed99e6
metal : fix synchronization in new matrix multiplication kernel (#2686)
|
2 vuotta sitten |
Kawrakow
|
cb1c0727bd
HellaSwag: split token evaluation into batches if needed (#2681)
|
2 vuotta sitten |
slaren
|
9e232f0234
ggml : move all type info to ggml_type_traits (#2663)
|
2 vuotta sitten |
Kawrakow
|
5e9ff54a67
More efficient Hellaswag implementation (#2677)
|
2 vuotta sitten |
Georgi Gerganov
|
1f0bccb279
server : better default prompt (#2646)
|
2 vuotta sitten |
Jhen-Jie Hong
|
f63564adfa
server : update xxd usage for older versions compatibility (#2649)
|
2 vuotta sitten |
Adrian
|
2d8b76a110
Add link to clojure bindings to Readme. (#2659)
|
2 vuotta sitten |
Georgi Gerganov
|
7af633aec3
readme : incoming BREAKING CHANGE
|
2 vuotta sitten |
slaren
|
097e121e2f
llama : add benchmark example (#2626)
|
2 vuotta sitten |
mdrokz
|
eaf98c2649
readme : add link to Rust bindings (#2656)
|
2 vuotta sitten |
Georgi Gerganov
|
e9b12c332e
perplexity : more meaningful ETA number - 2 decimal points
|
2 vuotta sitten |
Evan Jones
|
604b8bdfa6
Fix unicode in grammars (fixes #2501) (#2553)
|
2 vuotta sitten |
staviq
|
10151bee2e
server : support for saving templates in browser LocalStorage (#2486)
|
2 vuotta sitten |
Johannes Gäßler
|
0992a7b8b1
README: fix LLAMA_CUDA_MMV_Y documentation (#2647)
|
2 vuotta sitten |