Ruben Ortlam
|
7f459c98e7
vulkan: use fewer FA rows for small cache runs (#18280)
|
hace 1 mes |
TianHao324
|
cf2ffc02bc
CANN: Uses yarn_ramp cache in ROPE (#17725)
|
hace 1 mes |
ddh0
|
10355dc7d0
common: add `LLAMA_ARG_OVERRIDE_TENSOR` env var for `-ot` arg (#18267)
|
hace 1 mes |
Xuan-Son Nguyen
|
5ee4e43f26
server: return_progress to also report 0% processing state (#18305)
|
hace 1 mes |
Pascal
|
5b6c9bc0f3
webui: apply webui_settings on first load (#18223)
|
hace 1 mes |
Xuan-Son Nguyen
|
849d021104
server: fix crash with model not having BOS/EOS (#18321)
|
hace 1 mes |
Daniel Bevenius
|
8e3ead6e4d
model-conversion : add device option to run-org-model.py (#18318)
|
hace 1 mes |
Chris Rohlf
|
12ee1763a6
rpc : add check for rpc buffer type (#18242)
|
hace 1 mes |
nullname
|
ed75977717
ggml-hexagon: create generalized functions for cpu side op (#17500)
|
hace 1 mes |
Daniel Bevenius
|
847c35f7d5
model-conversion : add trust_remote_code for embedding scripts (#18288)
|
hace 1 mes |
Neo Zhang
|
a6a552e4ec
[SYCL] replace llama-cli by llama-completion to rm the impact to test script (#18290)
|
hace 1 mes |
Alessandro98-git
|
96e33a814e
model : fix div-by-zero for Nemotron V2 (#18309)
|
hace 1 mes |
Ryan Mangeno
|
dfc959b886
model : Granite Embedding support (#15641)
|
hace 1 mes |
compilade
|
8f48807380
gguf-py : do not align the data start offset (#18291)
|
hace 1 mes |
Shouyu
|
bf6bc3c155
ggml-hexagon: gelu optimization (#18151)
|
hace 1 mes |
Xuan-Son Nguyen
|
179fd82a72
gen-docs: automatically update markdown file (#18294)
|
hace 1 mes |
Taimur Ahmad
|
d34d5ca1e9
llamafile: add rvv support for sgemm kernels (#18199)
|
hace 1 mes |
lhez
|
eb492bf43f
opencl: unpack q4_0 for adreno in get_tensor (#18278)
|
hace 1 mes |
Jeff Bolz
|
e3b35ddf1c
vulkan: Extend rope fusions to allow mrope (#18264)
|
hace 1 mes |
Xuan-Son Nguyen
|
6ce863c803
server: prevent data race from HTTP threads (#18263)
|
hace 1 mes |
Xuan-Son Nguyen
|
3997c78e33
server: fix data race in to_json_anthropic (#18283)
|
hace 1 mes |
Mattt
|
ee74642982
release: update release workflow to store XCFramework as Zip file (#18284)
|
hace 1 mes |
Aaron Teo
|
a28310488c
convert: rework ftype heuristics (#18214)
|
hace 1 mes |
Xuan-Son Nguyen
|
86af848153
server: (docs) remove mention about extra_args (#18262)
|
hace 1 mes |
Johannes Gäßler
|
147a521636
tool/ex/tests: consistently free ctx, then model (#18168)
|
hace 1 mes |
Jeff Bolz
|
e1f15b454f
vulkan: Implement set_tensor_async and the event interfaces (#18047)
|
hace 1 mes |
Johannes Gäßler
|
0e1ccf15c7
llama: fix RPC for -fit on (#18233)
|
hace 1 mes |
Xuan-Son Nguyen
|
5e25ddebff
move copilot instructions to AGENTS.md (#18259)
|
hace 1 mes |
Jeff Bolz
|
fd05c51cec
vulkan: fix im2col overflowing maxworkgroupcount (#18180)
|
hace 1 mes |
Jeff Bolz
|
b365c3ff01
vulkan/cuda: fix topk_moe with exp_probs_b (#18071)
|
hace 1 mes |