Georgi Gerganov
|
4e24cffd8c
server : handle content array in chat API (#8449)
|
há 1 ano atrás |
Georgi Gerganov
|
6af51c0d96
main : print error on empty input (#8456)
|
há 1 ano atrás |
Daniel Bevenius
|
f53226245f
llama : suppress unary minus operator warning (#8448)
|
há 1 ano atrás |
Douglas Hanley
|
c3ebcfa148
server : ensure batches are either all embed or all completion (#8420)
|
há 1 ano atrás |
Armen Kaleshian
|
8a4441ea1a
docker : fix filename for convert-hf-to-gguf.py in tools.sh (#8441)
|
há 1 ano atrás |
Jiří Podivín
|
5aefbce27a
convert : remove fsep token from GPTRefactForCausalLM (#8237)
|
há 1 ano atrás |
Georgi Gerganov
|
71c1121d11
examples : sprintf -> snprintf (#8434)
|
há 1 ano atrás |
Georgi Gerganov
|
370b1f7e7a
ggml : minor naming changes (#8433)
|
há 1 ano atrás |
Chen Xi
|
b549a1bbef
[SYCL] fix the mul_mat_id ut issues (#8427)
|
há 1 ano atrás |
Nicholai Tukanov
|
368645698a
ggml : add NVPL BLAS support (#8329) (#8425)
|
há 1 ano atrás |
Daniel Bevenius
|
b078c619aa
cuda : suppress 'noreturn' warn in no_device_code (#8414)
|
há 1 ano atrás |
Johannes Gäßler
|
808aba3916
CUDA: optimize and refactor MMQ (#8416)
|
há 1 ano atrás |
Georgi Gerganov
|
a977c11544
gitignore : deprecated binaries
|
há 1 ano atrás |
compilade
|
9a55ffe6fb
tokenize : add --no-parse-special option (#8423)
|
há 1 ano atrás |
Georgi Gerganov
|
7a221b672e
llama : use F32 precision in Qwen2 attention and no FA (#8412)
|
há 1 ano atrás |
Clint Herron
|
278d0e1846
Initialize default slot sampling parameters from the global context. (#8418)
|
há 1 ano atrás |
Clint Herron
|
dd07a123b7
Name Migration: Build the deprecation-warning 'main' binary every time (#8404)
|
há 1 ano atrás |
AidanBeltonS
|
f4444d992c
[SYCL] Use multi_ptr to clean up deprecated warnings (#8256)
|
há 1 ano atrás |
Georgi Gerganov
|
6b2a849d1f
ggml : move sgemm sources to llamafile subfolder (#8394)
|
há 1 ano atrás |
Dibakar Gope
|
0f1a39f343
ggml : add AArch64 optimized GEMV and GEMM Q4 kernels (#5780)
|
há 1 ano atrás |
M. Yusuf Sarıgöz
|
83321c6958
gguf-py rel pipeline (#8410)
|
há 1 ano atrás |
Borislav Stanimirov
|
cc61948b1f
llama : C++20 compatibility for u8 strings (#8408)
|
há 1 ano atrás |
Borislav Stanimirov
|
7a80710d93
msvc : silence codecvt c++17 deprecation warnings (#8395)
|
há 1 ano atrás |
fairydreaming
|
a8be1e6f59
llama : add assert about missing llama_encode() call (#8400)
|
há 1 ano atrás |
RunningLeon
|
e4dd31ff89
py : fix converter for internlm2 (#8321)
|
há 1 ano atrás |
laik
|
8f0fad42b9
py : fix extra space in convert_hf_to_gguf.py (#8407)
|
há 1 ano atrás |
Clint Herron
|
a59f8fdc85
Server: Enable setting default sampling parameters via command-line (#8402)
|
há 1 ano atrás |
Andy Salerno
|
fd560fe680
Update README.md to fix broken link to docs (#8399)
|
há 1 ano atrás |
Clint Herron
|
e500d6135a
Deprecation warning to assist with migration to new binary names (#8283)
|
há 1 ano atrás |
Johannes Gäßler
|
a03e8dd99d
make/cmake: LLAMA_NO_CCACHE -> GGML_NO_CCACHE (#8392)
|
há 1 ano atrás |