cturan/llama.cpp

Автор	SHA1 Съобщение	Дата
Jared Van Bortel	132d25b8a6 cuda : fix disabling device with --tensor-split 1,0 (#3951)	преди 2 години
slaren	48ade94538 cuda : revert CUDA pool stuff (#3944)	преди 2 години
slaren	abb77e7319 ggml-cuda : move row numbers to x grid dim in mmv kernels (#3921)	преди 2 години
Kerfuffle	629f917cd6 cuda : add ROCM aliases for CUDA pool stuff (#3918)	преди 2 години
Georgi Gerganov	c7743fe1c1 cuda : fix const ptrs warning causing ROCm build issues (#3913)	преди 2 години
Oleksii Maryshchenko	d6069051de cuda : use CUDA memory pool with async memory allocation/deallocation when available (#3903)	преди 2 години
Georgi Gerganov	4d719a6d4e cuda : check if this fixes Pascal card regression (#3882)	преди 2 години
cebtenzzre	2fffa0d61f cuda : fix RoPE after #2268 (#3897)	преди 2 години
slaren	d02e98cde0 ggml-cuda : compute ptrs for cublasGemmBatchedEx in a kernel (#3891)	преди 2 години
cebtenzzre	898aeca90a llama : implement YaRN RoPE scaling (#2268)	преди 2 години
Andrew Godfrey	73bdcb395e finetune : add -ngl parameter (#3762)	преди 2 години
Georgi Gerganov	2f9ec7e271 cuda : improve text-generation and batched decoding performance (#3776)	преди 2 години
Georgi Gerganov	6961c4bd0b batched-bench : print params at start	преди 2 години
Georgi Gerganov	b2f7e04bd3 sync : ggml (conv ops + cuda MSVC fixes) (#3765)	преди 2 години
Georgi Gerganov	2b4ea35e56 cuda : add batched cuBLAS GEMM for faster attention (#3749)	преди 2 години
Jan Ploski	f5f9121de1 llm : add MPT support (#3417)	преди 2 години
Georgi Gerganov	db3abcc114 sync : ggml (ggml-backend) (#3548)	преди 2 години
slaren	f5ef5cfb18 ggml-cuda : perform cublas mat mul of quantized types as f16 (#3412)	преди 2 години
slaren	16bc66d947 llama.cpp : split llama_context_params into model and context params (#3301)	преди 2 години
Georgi Gerganov	ec893798b7 llama : custom attention mask + parallel decoding + no context swaps (#3228)	преди 2 години
slaren	da0400344b ggml-cuda : perform cublas fp16 matrix multiplication as fp16 (#3370)	преди 2 години
Johannes Gäßler	ee66942d7e CUDA: fix peer access logic (#3231)	преди 2 години
Johannes Gäßler	111163e246 CUDA: enable peer access between devices (#2470)	преди 2 години
Johannes Gäßler	578d8c8f5c CUDA: fix scratch malloced on non-main device (#3220)	преди 2 години
Vlad	5dbc2b3213 Enable build with CUDA 11.0 (make) (#3132)	преди 2 години
Johannes Gäßler	0a5eebb45d CUDA: mul_mat_q RDNA2 tunings (#2910)	преди 2 години
Johannes Gäßler	4f7cd6ba9c CUDA: fix LoRAs (#3130)	преди 2 години
Johannes Gäßler	89e89599fd CUDA: fix mul_mat_q not used for output tensor (#3127)	преди 2 години
Johannes Gäßler	d54a4027a6 CUDA: lower GPU latency + fix Windows performance (#3110)	преди 2 години
Johannes Gäßler	8a4ca9af56 CUDA: add device number to error messages (#3112)	преди 2 години

По-нови По-стари

Commit History Намери

Commit History