Georgi Gerganov
|
ef6dada60c
cont : fix whitespaces (#11305)
|
1 год назад |
Kyle Bruene
|
ae3c1db2f9
llama : re-add LLM_ARCH_PHIMOE (#11305)
|
1 год назад |
Georgi Gerganov
|
92bc493917
tests : increase timeout when sanitizers are enabled (#11300)
|
1 год назад |
Georgi Gerganov
|
b9daaffe02
simple-chat : fix BOS being added to each message (#11278)
|
1 год назад |
Nicolò Scipione
|
99487b57d4
SYCL: Introducing memory host pool (#11251)
|
1 год назад |
Eric Curtin
|
a1649cc13f
Adding linenoise.cpp to llama-run (#11252)
|
1 год назад |
Georgi Gerganov
|
4dd34ff831
cmake : add sanitizer flags for llama.cpp (#11279)
|
1 год назад |
Xuan Son Nguyen
|
f30f099228
server : implement cancellable request (#11285)
|
1 год назад |
Georgi Gerganov
|
f26c874179
scripts : restore hf.sh (#11288)
|
1 год назад |
LostRuins Concedo
|
6390a998bf
tts : add guide tokens support (#11186)
|
1 год назад |
Jeff Bolz
|
44e18ef939
vulkan: fix coopmat2 flash attention for non-contiguous inputs (#11281)
|
1 год назад |
codezjx
|
3edfa7d375
llama.android: add field formatChat to control whether to parse special tokens when send message (#11270)
|
1 год назад |
Radoslav Gerganov
|
667d72846c
rpc : early register backend devices (#11262)
|
1 год назад |
Georgi Gerganov
|
a133566d34
vocab : fix double-eos check (#11273)
|
1 год назад |
David Renshaw
|
960ec65273
llama : fix deprecation message: vocabable -> vocab (#11269)
|
1 год назад |
musoles
|
7a689c415e
README : added kalavai to infrastructure list (#11216)
|
1 год назад |
Jeff Bolz
|
bd38ddea01
vulkan: support copy from f32 to q4_0/q4_1/q5_0/q5_1/q8_0/iq4_nl (#11166)
|
1 год назад |
Jeff Bolz
|
466300fe14
vulkan: optimize coopmat2 q4_k/q5_k dequant functions. (#11206)
|
1 год назад |
Jeff Bolz
|
206bc53422
vulkan: optimize coopmat2 q2_k dequant function (#11130)
|
1 год назад |
RunningLeon
|
4dbc8b9cb7
llama : add internlm3 support (#11233)
|
1 год назад |
Johannes Gäßler
|
9c8dcefe17
CUDA: backwards pass for misc. ops, add tests (#11257)
|
1 год назад |
Xuan Son Nguyen
|
681149ced2
llama : add `llama_model_load_from_splits` (#11255)
|
1 год назад |
fj-y-saito
|
c67cc9837d
ggml: aarch64: implement SVE kernels for q4_K_q8_K vector dot (#11227)
|
1 год назад |
Eve
|
adc5dd92e8
vulkan: scale caching for k quants + misc fixes (#11081)
|
1 год назад |
Georgi Gerganov
|
f11cfdfd7f
ci : use -no-cnv in gguf-split tests (#11254)
|
1 год назад |
Junil Kim
|
1d8504338e
fix: ggml: fix vulkan-shaders-gen build (#10448)
|
1 год назад |
Johannes Gäßler
|
432df2d5f9
RoPE: fix back, CUDA support for back + noncont. (#11240)
|
1 год назад |
Daniel Bevenius
|
0ccd7f3eb2
examples : add embd_to_audio to tts-outetts.py [no ci] (#11235)
|
1 год назад |
Akarshan Biswas
|
f446c2cf6a
SYCL: Add gated linear attention kernel (#11175)
|
1 год назад |
Xuan Son Nguyen
|
b4d92a59a2
ci : add -no-cnv for tests (#11238)
|
1 год назад |