cturan/llama.cpp

mirror of https://github.com/cturan/llama.cpp

Author	SHA1 Message	Date
Johannes Gäßler	133d99c599 CUDA: deduplicate FlashAttention code (#7352)	1 year ago
Johannes Gäßler	dc685be466 CUDA: add FP32 FlashAttention vector kernel (#7188)	1 year ago