Johannes Gäßler
|
e1e8e0991f
CUDA: batched+noncont MMQ, refactor bs>1 MoE code (#13199)
|
8 luni în urmă |
Xuan-Son Nguyen
|
edb18b6e8f
clip : fix pixtral on some GPU backends (#13097)
|
8 luni în urmă |
Johannes Gäßler
|
658987cfc9
CUDA: noncont MMVQ + batched bs1 MUL_MAT_ID (#13014)
|
8 luni în urmă |
Georgi Gerganov
|
2f74c354c0
graph : make FA compatible with MLA + add initial Metal kernels (#12953)
|
9 luni în urmă |
Jeff Bolz
|
015022bb53
vulkan: enable coopmat2 FA gqa and split_k optimizations more often (#12931)
|
9 luni în urmă |
Georgi Gerganov
|
1d2b613445
tests : fix init order (#0)
|
9 luni în urmă |
Diego Devesa
|
fe92821ea9
ggml : add bilinear upscale support (ggml/1185)
|
9 luni în urmă |
Jeff Bolz
|
f01bd02376
vulkan: Implement split_k for coopmat2 flash attention. (#12627)
|
9 luni în urmă |
Georgi Gerganov
|
b4ae50810e
metal : improve FA + improve MoE (#12612)
|
9 luni în urmă |
Jeff Bolz
|
9b169a4d4e
vulkan: fix mul_mat_vec failure in backend tests (#12529)
|
9 luni în urmă |
Georgi Gerganov
|
ba932dfb50
ggml : fix quantized cpy op (#12310)
|
10 luni în urmă |
Jeff Bolz
|
eddfb43850
vulkan: Optimize mul_mat_vec p021 and nc shaders (#12505)
|
10 luni în urmă |
Gaurav Garg
|
517b5ddbf0
CUDA: Improve flash decoding kernel GPU occupancy for BS=1 case (#12183)
|
10 luni în urmă |
Molly Sophia
|
7dfad387e3
llama: Add support for RWKV v7 architecture (#12412)
|
10 luni în urmă |
Jeff Bolz
|
bf69cfe62f
vulkan: fix bug in coopmat1 mul_mat_id (#12316)
|
10 luni în urmă |
cmdr2
|
0cbee131ad
cuda/vulkan: specify fp32-only support for some operations in supports_op (ggml/1129)
|
10 luni în urmă |
cmdr2
|
87abb7e903
cuda/cpu: Increase support for fp16 unary operations (ggml/1125)
|
10 luni în urmă |
cmdr2
|
f54a4ba11e
Support pure float16 add/sub/mul/div operations in the CUDA (and CPU) backend (ggml/1121)
|
10 luni în urmă |
Diego Devesa
|
d5c63cd7f9
test-backend-ops : add option -p to filter by op params (#12155)
|
10 luni în urmă |
William Tambellini
|
70680c48e5
ggml : upgrade init_tensor API to return a ggml_status (#11854)
|
10 luni în urmă |
Johannes Gäßler
|
5fa07c2f93
CUDA: optimize FA for GQA + large batches (#12014)
|
10 luni în urmă |
Rémy O
|
2eea03d86a
vulkan: implement several ops relevant for ggml_opt (#11769)
|
11 luni în urmă |
Johannes Gäßler
|
fd08255d0d
CUDA: non-contiguous (RMS) norm support (#11659)
|
11 luni în urmă |
Akarshan Biswas
|
6e84b0ab8e
SYCL : SOFTMAX F16 mask support and other fixes (#11261)
|
11 luni în urmă |
Johannes Gäßler
|
8137b4bb2b
CPU/CUDA: fix (GQA) mul mat back, add CUDA support (#11380)
|
11 luni în urmă |
Jeff Bolz
|
564804b79b
tests: fix some mul_mat test gaps (#11375)
|
11 luni în urmă |
Jeff Bolz
|
44e18ef939
vulkan: fix coopmat2 flash attention for non-contiguous inputs (#11281)
|
1 an în urmă |
Jeff Bolz
|
bd38ddea01
vulkan: support copy from f32 to q4_0/q4_1/q5_0/q5_1/q8_0/iq4_nl (#11166)
|
1 an în urmă |
Johannes Gäßler
|
9c8dcefe17
CUDA: backwards pass for misc. ops, add tests (#11257)
|
1 an în urmă |
Johannes Gäßler
|
432df2d5f9
RoPE: fix back, CUDA support for back + noncont. (#11240)
|
1 an în urmă |