Sfoglia il codice sorgente

CUDA: fix MMQ stream-k for --split-mode row (#8167)

Johannes Gäßler 1 anno fa
parent
commit
85a267daaa
1 ha cambiato i file con 1 aggiunte e 1 eliminazioni
  1. 1 1
      ggml/src/ggml-cuda/mmq.cuh

+ 1 - 1
ggml/src/ggml-cuda/mmq.cuh

@@ -2475,7 +2475,7 @@ static void launch_mul_mat_q(ggml_backend_cuda_context & ctx, const mmq_args & a
 
 
     const dim3 block_nums_mmq(nsm, 1, 1);
     const dim3 block_nums_mmq(nsm, 1, 1);
 
 
-    ggml_cuda_pool & pool = ctx.pool();
+    ggml_cuda_pool & pool = ctx.pool(id);
     ggml_cuda_pool_alloc<float> tmp_fixup(pool, block_nums_mmq.x * mmq_x*mmq_y);
     ggml_cuda_pool_alloc<float> tmp_fixup(pool, block_nums_mmq.x * mmq_x*mmq_y);
 
 
     if (args.ne01 % mmq_y == 0) {
     if (args.ne01 % mmq_y == 0) {