M-A
|
f17f39ff9c
server: update README.md with llama-server --help output [no ci] (#8472)
|
1 an în urmă |
Georgi Gerganov
|
9104bc20ed
common : add --no-cont-batching arg (#6358)
|
1 an în urmă |
NikolaiLyssogor
|
fc690b018e
docs: fix links in development docs [no ci] (#8481)
|
1 an în urmă |
Meng, Hengyu
|
16bdfa42ac
[SYCL] add concat through dim 1/2 (#8483)
|
1 an în urmă |
Georgi Gerganov
|
3dfda05956
llama : de-duplicate deepseek2 norm
|
1 an în urmă |
0cc4m
|
bda62d7999
Vulkan MMQ Fix (#8479)
|
1 an în urmă |
compilade
|
090fca7a07
pydantic : replace uses of __annotations__ with get_type_hints (#8474)
|
1 an în urmă |
Georgi Gerganov
|
aaab2419ea
flake.lock: Update (#8475)
|
1 an în urmă |
Georgi Gerganov
|
73cf442e7b
llama : fix Gemma-2 Query scaling factors (#8473)
|
1 an în urmă |
Brian
|
e236528e76
gguf_hash.py: Add sha256 (#8470)
|
1 an în urmă |
compilade
|
fa79495bb4
llama : fix pre-tokenization of non-special added tokens (#8228)
|
1 an în urmă |
bandoti
|
17eb6aa8a9
vulkan : cmake integration (#8119)
|
1 an în urmă |
Georgi Gerganov
|
c917b67f06
metal : template-ify some of the kernels (#8447)
|
1 an în urmă |
Georgi Gerganov
|
4e24cffd8c
server : handle content array in chat API (#8449)
|
1 an în urmă |
Georgi Gerganov
|
6af51c0d96
main : print error on empty input (#8456)
|
1 an în urmă |
Daniel Bevenius
|
f53226245f
llama : suppress unary minus operator warning (#8448)
|
1 an în urmă |
Douglas Hanley
|
c3ebcfa148
server : ensure batches are either all embed or all completion (#8420)
|
1 an în urmă |
Armen Kaleshian
|
8a4441ea1a
docker : fix filename for convert-hf-to-gguf.py in tools.sh (#8441)
|
1 an în urmă |
Jiří Podivín
|
5aefbce27a
convert : remove fsep token from GPTRefactForCausalLM (#8237)
|
1 an în urmă |
Georgi Gerganov
|
71c1121d11
examples : sprintf -> snprintf (#8434)
|
1 an în urmă |
Georgi Gerganov
|
370b1f7e7a
ggml : minor naming changes (#8433)
|
1 an în urmă |
Chen Xi
|
b549a1bbef
[SYCL] fix the mul_mat_id ut issues (#8427)
|
1 an în urmă |
Nicholai Tukanov
|
368645698a
ggml : add NVPL BLAS support (#8329) (#8425)
|
1 an în urmă |
Daniel Bevenius
|
b078c619aa
cuda : suppress 'noreturn' warn in no_device_code (#8414)
|
1 an în urmă |
Johannes Gäßler
|
808aba3916
CUDA: optimize and refactor MMQ (#8416)
|
1 an în urmă |
Georgi Gerganov
|
a977c11544
gitignore : deprecated binaries
|
1 an în urmă |
compilade
|
9a55ffe6fb
tokenize : add --no-parse-special option (#8423)
|
1 an în urmă |
Georgi Gerganov
|
7a221b672e
llama : use F32 precision in Qwen2 attention and no FA (#8412)
|
1 an în urmă |
Clint Herron
|
278d0e1846
Initialize default slot sampling parameters from the global context. (#8418)
|
1 an în urmă |
Clint Herron
|
dd07a123b7
Name Migration: Build the deprecation-warning 'main' binary every time (#8404)
|
1 an în urmă |