Commit történet

Szerző SHA1 Üzenet Dátum
  Meng Zhang 46876d2a2c cuda : supports running on CPU for GGML_USE_CUBLAS=ON build (#3946) 2 éve
  slaren 2833a6f63c ggml-cuda : fix f16 mul mat (#3961) 2 éve
  Jared Van Bortel 132d25b8a6 cuda : fix disabling device with --tensor-split 1,0 (#3951) 2 éve
  slaren 48ade94538 cuda : revert CUDA pool stuff (#3944) 2 éve
  slaren abb77e7319 ggml-cuda : move row numbers to x grid dim in mmv kernels (#3921) 2 éve
  Kerfuffle 629f917cd6 cuda : add ROCM aliases for CUDA pool stuff (#3918) 2 éve
  Georgi Gerganov c7743fe1c1 cuda : fix const ptrs warning causing ROCm build issues (#3913) 2 éve
  Oleksii Maryshchenko d6069051de cuda : use CUDA memory pool with async memory allocation/deallocation when available (#3903) 2 éve
  Georgi Gerganov 4d719a6d4e cuda : check if this fixes Pascal card regression (#3882) 2 éve
  cebtenzzre 2fffa0d61f cuda : fix RoPE after #2268 (#3897) 2 éve
  slaren d02e98cde0 ggml-cuda : compute ptrs for cublasGemmBatchedEx in a kernel (#3891) 2 éve
  cebtenzzre 898aeca90a llama : implement YaRN RoPE scaling (#2268) 2 éve
  Andrew Godfrey 73bdcb395e finetune : add -ngl parameter (#3762) 2 éve
  Georgi Gerganov 2f9ec7e271 cuda : improve text-generation and batched decoding performance (#3776) 2 éve
  Georgi Gerganov 6961c4bd0b batched-bench : print params at start 2 éve
  Georgi Gerganov b2f7e04bd3 sync : ggml (conv ops + cuda MSVC fixes) (#3765) 2 éve
  Georgi Gerganov 2b4ea35e56 cuda : add batched cuBLAS GEMM for faster attention (#3749) 2 éve
  Jan Ploski f5f9121de1 llm : add MPT support (#3417) 2 éve
  Georgi Gerganov db3abcc114 sync : ggml (ggml-backend) (#3548) 2 éve
  slaren f5ef5cfb18 ggml-cuda : perform cublas mat mul of quantized types as f16 (#3412) 2 éve
  slaren 16bc66d947 llama.cpp : split llama_context_params into model and context params (#3301) 2 éve
  Georgi Gerganov ec893798b7 llama : custom attention mask + parallel decoding + no context swaps (#3228) 2 éve
  slaren da0400344b ggml-cuda : perform cublas fp16 matrix multiplication as fp16 (#3370) 2 éve
  Johannes Gäßler ee66942d7e CUDA: fix peer access logic (#3231) 2 éve
  Johannes Gäßler 111163e246 CUDA: enable peer access between devices (#2470) 2 éve
  Johannes Gäßler 578d8c8f5c CUDA: fix scratch malloced on non-main device (#3220) 2 éve
  Vlad 5dbc2b3213 Enable build with CUDA 11.0 (make) (#3132) 2 éve
  Johannes Gäßler 0a5eebb45d CUDA: mul_mat_q RDNA2 tunings (#2910) 2 éve
  Johannes Gäßler 4f7cd6ba9c CUDA: fix LoRAs (#3130) 2 éve
  Johannes Gäßler 89e89599fd CUDA: fix mul_mat_q not used for output tensor (#3127) 2 éve