cturan/llama.cpp

Autor	SHA1 Mensagem	Data
Djip007	852aafb163 update HIP_UMA #7399 (#7414)	há 1 ano atrás
Johannes Gäßler	133d99c599 CUDA: deduplicate FlashAttention code (#7352)	há 1 ano atrás
Engininja2	d233b507cd cuda : add half2 __shfl_xor() for ROCm 5.5 (#7263)	há 1 ano atrás
Johannes Gäßler	dc685be466 CUDA: add FP32 FlashAttention vector kernel (#7188)	há 1 ano atrás
Johannes Gäßler	a743d76a01 CUDA: generalize FP16 fattn vec kernel (#7061)	há 1 ano atrás
agray3	bc4bba364f Introduction of CUDA Graphs to LLama.cpp (#6766)	há 1 ano atrás
Johannes Gäßler	1613ef8d8e CUDA: CUDART < 11.7 workaround for __hmax, __hmax2 (#7019)	há 1 ano atrás
Georgi Gerganov	9c67c2773d ggml : add Flash Attention (#5021)	há 1 ano atrás
Carolinabanana	5dc9dd7152 llama : add Command R Plus support (#6491)	há 1 ano atrás
Georgi Gerganov	d48ccf3ad4 sync : ggml (#6351)	há 1 ano atrás
slaren	ae1f211ce2 cuda : refactor into multiple files (#6269)	há 1 ano atrás