Johannes Gäßler
|
133d99c599
CUDA: deduplicate FlashAttention code (#7352)
|
hai 1 ano |
Engininja2
|
d233b507cd
cuda : add half2 __shfl_xor() for ROCm 5.5 (#7263)
|
hai 1 ano |
Johannes Gäßler
|
dc685be466
CUDA: add FP32 FlashAttention vector kernel (#7188)
|
hai 1 ano |
Johannes Gäßler
|
a743d76a01
CUDA: generalize FP16 fattn vec kernel (#7061)
|
hai 1 ano |
agray3
|
bc4bba364f
Introduction of CUDA Graphs to LLama.cpp (#6766)
|
hai 1 ano |
Johannes Gäßler
|
1613ef8d8e
CUDA: CUDART < 11.7 workaround for __hmax, __hmax2 (#7019)
|
hai 1 ano |
Georgi Gerganov
|
9c67c2773d
ggml : add Flash Attention (#5021)
|
hai 1 ano |
Carolinabanana
|
5dc9dd7152
llama : add Command R Plus support (#6491)
|
hai 1 ano |
Georgi Gerganov
|
d48ccf3ad4
sync : ggml (#6351)
|
hai 1 ano |
slaren
|
ae1f211ce2
cuda : refactor into multiple files (#6269)
|
hai 1 ano |