Commit History

Auteur SHA1 Bericht Datum
  Johannes Gäßler 1f0dabda8d CUDA: use tensor cores for MMQ (#7676) 1 jaar geleden
  Johannes Gäßler 750f60c03e CUDA: fix Pascal FA, deq. KV to FP16 for batch > 8 (#7681) 1 jaar geleden
  Johannes Gäßler 9b596417af CUDA: quantized KV support for FA vec (#7527) 1 jaar geleden
  Johannes Gäßler 133d99c599 CUDA: deduplicate FlashAttention code (#7352) 1 jaar geleden
  Johannes Gäßler dc685be466 CUDA: add FP32 FlashAttention vector kernel (#7188) 1 jaar geleden