Историја ревизија

Аутор SHA1 Порука Датум
  Johannes Gäßler d50f8897a7 CUDA: stream-k decomposition for MMQ (#8018) пре 1 година
  Johannes Gäßler 76d66ee0be CUDA: faster q2_K, q3_K MMQ + int8 tensor cores (#7921) пре 1 година
  Johannes Gäßler 1f0dabda8d CUDA: use tensor cores for MMQ (#7676) пре 1 година
  Johannes Gäßler 7d1a378b8f CUDA: refactor mmq, dmmv, mmvq (#7716) пре 1 година
  Djip007 852aafb163 update HIP_UMA #7399 (#7414) пре 1 година
  Johannes Gäßler 133d99c599 CUDA: deduplicate FlashAttention code (#7352) пре 1 година
  Engininja2 d233b507cd cuda : add half2 __shfl_xor() for ROCm 5.5 (#7263) пре 1 година
  Johannes Gäßler dc685be466 CUDA: add FP32 FlashAttention vector kernel (#7188) пре 1 година
  Johannes Gäßler a743d76a01 CUDA: generalize FP16 fattn vec kernel (#7061) пре 1 година
  agray3 bc4bba364f Introduction of CUDA Graphs to LLama.cpp (#6766) пре 1 година
  Johannes Gäßler 1613ef8d8e CUDA: CUDART < 11.7 workaround for __hmax, __hmax2 (#7019) пре 1 година
  Georgi Gerganov 9c67c2773d ggml : add Flash Attention (#5021) пре 1 година
  Carolinabanana 5dc9dd7152 llama : add Command R Plus support (#6491) пре 1 година
  Georgi Gerganov d48ccf3ad4 sync : ggml (#6351) пре 1 година
  slaren ae1f211ce2 cuda : refactor into multiple files (#6269) пре 1 година