hace 4 meses · 704d90c987
--- a/ggml/src/ggml-sycl/binbcast.cpp
+++ b/ggml/src/ggml-sycl/binbcast.cpp
@@ -225,9 +225,9 @@ struct bin_bcast_sycl {
 
															                     dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                                  {sycl::aspect::fp16});
														
 
															-                    sycl_parallel_for(
														
 
															-                        stream,
														
 
															-                        sycl::nd_range<3>(sycl::range<3>(1, 1, block_num) * sycl::range<3>(1, 1, block_size),
														
 
															+                    stream->parallel_for(
														
 
															+                        sycl::nd_range<3>(sycl::range<3>(1, 1, block_num) *
														
 
															+                                              sycl::range<3>(1, 1, block_size),
														
 
															                                           sycl::range<3>(1, 1, block_size)),
														
 
															                         [=](sycl::nd_item<3> item_ct1) {
														
 
															                             k_bin_bcast_unravel<bin_op>(
														
@@ -246,8 +246,9 @@ struct bin_bcast_sycl {
 
															                 dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                              {sycl::aspect::fp16});
														
 
															-                sycl_parallel_for(
														
 
															-                    stream, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                stream->parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         k_bin_bcast<bin_op>(src0_dd, src1_dd, dst_dd, ne0, ne1,
														
 
															                                             ne2, ne3, ne10, ne11, ne12, ne13,
														
 
															                                             s1, s2, s3, s01, s02, s03, s11, s12, s13,
														
--- a/ggml/src/ggml-sycl/concat.cpp
+++ b/ggml/src/ggml-sycl/concat.cpp
@@ -89,24 +89,33 @@ static void concat_f32_sycl(const float *x, const float *y, float *dst,
 
															   sycl::range<3> gridDim(ne2, ne1, num_blocks);
														
 
															   switch (dim) {
														
 
															   case 0:
														
 
															-      sycl_parallel_for(stream,
														
 
															-                        sycl::nd_range<3>(gridDim * sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															-                                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															-                        [=](sycl::nd_item<3> item_ct1) { concat_f32_dim0(x, y, dst, ne0, ne00, item_ct1); });
														
 
															-      break;
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(gridDim *
														
 
															+                              sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															+                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															+        [=](sycl::nd_item<3> item_ct1) {
														
 
															+          concat_f32_dim0(x, y, dst, ne0, ne00, item_ct1);
														
 
															+        });
														
 
															+    break;
														
 
															   case 1:
														
 
															-      sycl_parallel_for(stream,
														
 
															-                        sycl::nd_range<3>(gridDim * sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															-                                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															-                        [=](sycl::nd_item<3> item_ct1) { concat_f32_dim1(x, y, dst, ne0, ne01, item_ct1); });
														
 
															-      break;
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(gridDim *
														
 
															+                              sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															+                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															+        [=](sycl::nd_item<3> item_ct1) {
														
 
															+          concat_f32_dim1(x, y, dst, ne0, ne01, item_ct1);
														
 
															+        });
														
 
															+    break;
														
 
															   // dim >=2 will be dispatched to the default path
														
 
															   default:
														
 
															-      sycl_parallel_for(stream,
														
 
															-                        sycl::nd_range<3>(gridDim * sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															-                                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															-                        [=](sycl::nd_item<3> item_ct1) { concat_f32_dim2(x, y, dst, ne0, ne02, item_ct1); });
														
 
															-      break;
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(gridDim *
														
 
															+                              sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE),
														
 
															+                          sycl::range<3>(1, 1, SYCL_CONCAT_BLOCK_SIZE)),
														
 
															+        [=](sycl::nd_item<3> item_ct1) {
														
 
															+          concat_f32_dim2(x, y, dst, ne0, ne02, item_ct1);
														
 
															+        });
														
 
															+    break;
														
 
															   }
														
 
															 }
														
@@ -120,7 +129,7 @@ static void concat_f32_sycl_non_cont(
 
															     int64_t ne2, int64_t ne3, uint64_t nb0, uint64_t nb1, uint64_t nb2,
														
 
															     uint64_t nb3, int32_t dim) {
														
 
															   sycl::range<3> gridDim(ne3, ne2, ne1);
														
 
															-  sycl_parallel_for(stream, sycl::nd_range<3>(gridDim, sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+  stream->parallel_for(sycl::nd_range<3>(gridDim, sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															       int64_t i3 = item_ct1.get_group(0);
														
 
															       int64_t i2 = item_ct1.get_group(1);
														
 
															       int64_t i1 = item_ct1.get_group(2);
														
--- a/ggml/src/ggml-sycl/conv.cpp
+++ b/ggml/src/ggml-sycl/conv.cpp
@@ -59,10 +59,16 @@ static void conv_transpose_1d_f32_f32_sycl(
 
															     const int num_blocks = (output_size + SYCL_CONV_TRANPOSE_1D_BLOCK_SIZE - 1) / SYCL_CONV_TRANPOSE_1D_BLOCK_SIZE;
														
 
															     const sycl::range<3> block_dims(1, 1, SYCL_CONV_TRANPOSE_1D_BLOCK_SIZE);
														
 
															     const sycl::range<3> block_nums(1, 1, num_blocks);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															-        conv_transpose_1d_kernel(s0, output_size, src0_ne0, src0_ne1, src0_ne2, src1_ne0, dst_ne0, src0, src1, dst,
														
 
															-                                 item_ct1);
														
 
															-    });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(
														
 
															+            block_nums * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) {
														
 
															+            conv_transpose_1d_kernel(
														
 
															+                s0, output_size,
														
 
															+                src0_ne0, src0_ne1, src0_ne2,
														
 
															+                src1_ne0, dst_ne0,
														
 
															+                src0, src1, dst, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 void ggml_sycl_op_conv_transpose_1d(ggml_backend_sycl_context & ctx, ggml_tensor *dst) {
														
--- a/ggml/src/ggml-sycl/convert.cpp
+++ b/ggml/src/ggml-sycl/convert.cpp
@@ -33,11 +33,14 @@ static void dequantize_block_sycl(const void *__restrict__ vx,
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															-            sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_DEQUANTIZE_BLOCK_SIZE),
														
 
															-                              sycl::range<3>(1, 1, SYCL_DEQUANTIZE_BLOCK_SIZE)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block<qk, qr, dequantize_kernel>(vx, y, k, item_ct1); });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(
														
 
															+                sycl::range<3>(1, 1, num_blocks) *
														
 
															+                    sycl::range<3>(1, 1, SYCL_DEQUANTIZE_BLOCK_SIZE),
														
 
															+                sycl::range<3>(1, 1, SYCL_DEQUANTIZE_BLOCK_SIZE)),
														
 
															+            [=](sycl::nd_item<3> item_ct1) {
														
 
															+                dequantize_block<qk, qr, dequantize_kernel>(vx, y, k, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -50,18 +53,24 @@ static void dequantize_row_q2_K_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q2_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 64),
														
 
															+                                               sycl::range<3>(1, 1, 64)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q2_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #else
														
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q2_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q2_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #endif
														
@@ -76,18 +85,24 @@ static void dequantize_row_q3_K_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q3_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 64),
														
 
															+                                               sycl::range<3>(1, 1, 64)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q3_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #else
														
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q3_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q3_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #endif
														
 
															 }
														
@@ -101,9 +116,12 @@ static void dequantize_row_q4_0_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q4_0(vx, y, nb32, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q4_0(vx, y, nb32, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 }
														
@@ -117,12 +135,13 @@ static void dequantize_row_q4_0_sycl_reorder(const void *vx, dst_t *y, const int
 
															     int constexpr WARP_K = WARP_SIZE * QK4_0;
														
 
															     const int n_warp = (k + WARP_K - 1) / WARP_K;
														
 
															     GGML_ASSERT(k % 2 == 0);
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, n_warp) * sycl::range<3>(1, 1, WARP_SIZE),
														
 
															-                                        sycl::range<3>(1, 1, WARP_SIZE)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                          dequantize_block_q4_0_reorder(vx, y, k, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, n_warp) *
														
 
															+        sycl::range<3>(1, 1, WARP_SIZE),
														
 
															+        sycl::range<3>(1, 1, WARP_SIZE)),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]]{
														
 
															+            dequantize_block_q4_0_reorder(vx, y, k, item_ct1);
														
 
															+        });
														
 
															+
														
 
															 }
														
 
															 template <typename dst_t>
														
@@ -134,9 +153,12 @@ static void dequantize_row_q4_1_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q4_1(vx, y, nb32, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q4_1(vx, y, nb32, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 }
														
@@ -149,13 +171,14 @@ static void dequantize_row_q4_K_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															             sycl::local_accessor<uint8_t, 1> scale_local_acc(sycl::range<1>(12), cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) {
														
 
															-                    dequantize_block_q4_K(vx, y, get_pointer(scale_local_acc), item_ct1);
														
 
															-                });
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q4_K(vx, y, get_pointer(scale_local_acc), item_ct1);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -168,13 +191,13 @@ static void dequantize_row_q4_K_sycl_reorder(const void * vx, dst_t * y, const i
 
															     dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+    stream->submit([&](sycl::handler & cgh) {
														
 
															         sycl::local_accessor<uint8_t, 1> scale_local_acc(sycl::range<1>(12), cgh);
														
 
															-        sycl_parallel_for<1>(cgh, sycl::nd_range<1>(sycl::range<1>(global_size), sycl::range<1>(local_size)),
														
 
															-                             [=](sycl::nd_item<1> item_ct1) {
														
 
															-                                 dequantize_block_q4_K_reorder(vx, y, get_pointer(scale_local_acc), item_ct1, nb);
														
 
															-                             });
														
 
															+        cgh.parallel_for(sycl::nd_range<1>(sycl::range<1>(global_size), sycl::range<1>(local_size)),
														
 
															+                         [=](sycl::nd_item<1> item_ct1) {
														
 
															+                             dequantize_block_q4_K_reorder(vx, y, get_pointer(scale_local_acc), item_ct1, nb);
														
 
															+                         });
														
 
															     });
														
 
															 }
														
@@ -187,18 +210,24 @@ static void dequantize_row_q5_K_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q5_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 64),
														
 
															+                                               sycl::range<3>(1, 1, 64)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q5_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #else
														
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q5_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q5_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #endif
														
@@ -213,18 +242,24 @@ static void dequantize_row_q6_K_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q6_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 64),
														
 
															+                                               sycl::range<3>(1, 1, 64)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q6_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #else
														
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-            [=](sycl::nd_item<3> item_ct1) { dequantize_block_q6_K(vx, y, item_ct1); });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_q6_K(vx, y, item_ct1);
														
 
															+                             });
														
 
															     }
														
 
															 #endif
														
@@ -236,9 +271,9 @@ static void dequantize_row_q6_K_sycl_reorder(const void * vx, dst_t * y, const i
 
															     dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) { dequantize_block_q6_K_reorder(vx, y, item_ct1, nb); });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 64), sycl::range<3>(1, 1, 64)),
														
 
															+        [=](sycl::nd_item<3> item_ct1) { dequantize_block_q6_K_reorder(vx, y, item_ct1, nb); });
														
 
															 }
														
 
															 template <typename dst_t>
														
@@ -249,10 +284,15 @@ static void dequantize_row_iq1_s_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq1_s(vx, y, item_ct1, iq1s_grid_gpu); });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq1_s(
														
 
															+                                     vx, y, item_ct1, iq1s_grid_gpu
														
 
															+                                     );
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -265,10 +305,15 @@ static void dequantize_row_iq1_m_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq1_m(vx, y, item_ct1, iq1s_grid_gpu); });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq1_m(
														
 
															+                                     vx, y, item_ct1, iq1s_grid_gpu
														
 
															+                                     );
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -281,12 +326,15 @@ static void dequantize_row_iq2_xxs_sycl(const void *vx, dst_t *y, const int64_t
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) {
														
 
															-                    dequantize_block_iq2_xxs(vx, y, item_ct1, iq2xxs_grid, ksigns_iq2xs, kmask_iq2xs);
														
 
															-                });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq2_xxs(
														
 
															+                                     vx, y, item_ct1, iq2xxs_grid,
														
 
															+                                     ksigns_iq2xs, kmask_iq2xs);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -299,12 +347,15 @@ static void dequantize_row_iq2_xs_sycl(const void *vx, dst_t *y, const int64_t k
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) {
														
 
															-                    dequantize_block_iq2_xs(vx, y, item_ct1, iq2xs_grid, ksigns_iq2xs, kmask_iq2xs);
														
 
															-                });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq2_xs(
														
 
															+                                     vx, y, item_ct1, iq2xs_grid,
														
 
															+                                     ksigns_iq2xs, kmask_iq2xs);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -317,10 +368,13 @@ static void dequantize_row_iq2_s_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq2_s(vx, y, item_ct1); });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq2_s(vx, y, item_ct1);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -334,12 +388,15 @@ static void dequantize_row_iq3_xxs_sycl(const void *vx, dst_t *y, const int64_t
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) {
														
 
															-                    dequantize_block_iq3_xxs(vx, y, item_ct1, iq3xxs_grid, ksigns_iq2xs, kmask_iq2xs);
														
 
															-                });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq3_xxs(
														
 
															+                                     vx, y, item_ct1, iq3xxs_grid,
														
 
															+                                     ksigns_iq2xs, kmask_iq2xs);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -352,10 +409,14 @@ static void dequantize_row_iq3_s_sycl(const void *vx, dst_t *y, const int64_t k,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq3_s(vx, y, item_ct1, kmask_iq2xs, iq3s_grid); });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                                   sycl::range<3>(1, 1, 32),
														
 
															+                                               sycl::range<3>(1, 1, 32)),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) {
														
 
															+                                 dequantize_block_iq3_s(
														
 
															+                                     vx, y, item_ct1, kmask_iq2xs, iq3s_grid);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -371,11 +432,14 @@ static void dequantize_row_iq4_xs_sycl(const void *vx, dst_t *y, const int64_t k
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh,
														
 
															-                    sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                    [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq4_xs(vx, y, item_ct1); });
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															+                  cgh.parallel_for(
														
 
															+                      sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                            sycl::range<3>(1, 1, 32),
														
 
															+                                        sycl::range<3>(1, 1, 32)),
														
 
															+                      [=](sycl::nd_item<3> item_ct1) {
														
 
															+                            dequantize_block_iq4_xs(vx, y, item_ct1);
														
 
															+                      });
														
 
															             });
														
 
															       }
														
 
															 #endif
														
@@ -389,11 +453,14 @@ static void dequantize_row_iq4_nl_sycl(const void *vx, dst_t *y, const int64_t k
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh,
														
 
															-                    sycl::nd_range<3>(sycl::range<3>(1, 1, nb) * sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)),
														
 
															-                    [=](sycl::nd_item<3> item_ct1) { dequantize_block_iq4_nl(vx, y, item_ct1); });
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															+                  cgh.parallel_for(
														
 
															+                      sycl::nd_range<3>(sycl::range<3>(1, 1, nb) *
														
 
															+                                            sycl::range<3>(1, 1, 32),
														
 
															+                                        sycl::range<3>(1, 1, 32)),
														
 
															+                      [=](sycl::nd_item<3> item_ct1) {
														
 
															+                            dequantize_block_iq4_nl(vx, y, item_ct1);
														
 
															+                      });
														
 
															             });
														
 
															       }
														
 
															 }
														
--- a/ggml/src/ggml-sycl/cpy.cpp
+++ b/ggml/src/ggml-sycl/cpy.cpp
@@ -201,8 +201,7 @@ static void ggml_cpy_f16_f32_sycl(const char * cx, char * cdst, const int ne, co
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -220,8 +219,7 @@ static void ggml_cpy_f32_f32_sycl(const char * cx, char * cdst, const int ne, co
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -239,8 +237,7 @@ static void ggml_cpy_f32_f16_sycl(const char * cx, char * cdst, const int ne, co
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -256,11 +253,11 @@ static void ggml_cpy_f32_q8_0_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK8_0 == 0);
														
 
															     const int num_blocks = ne / QK8_0;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_q8_0, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_f32_q<cpy_blck_f32_q8_0, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_q8_0_f32_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -268,11 +265,11 @@ static void ggml_cpy_q8_0_f32_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ne;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_q_f32<cpy_blck_q8_0_f32, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_q_f32<cpy_blck_q8_0_f32, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_f32_q4_0_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -281,11 +278,11 @@ static void ggml_cpy_f32_q4_0_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK4_0 == 0);
														
 
															     const int num_blocks = ne / QK4_0;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_q4_0, QK4_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_f32_q<cpy_blck_f32_q4_0, QK4_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_q4_0_f32_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -293,9 +290,8 @@ static void ggml_cpy_q4_0_f32_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ne;
														
 
															-    sycl_parallel_for(
														
 
															-        stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-        [=](sycl::nd_item<3> item_ct1) {
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															             cpy_q_f32<cpy_blck_q_f32<dequantize_q4_0, QK4_0>, QK4_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02,
														
 
															                                                                      nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13,
														
 
															                                                                      item_ct1);
														
@@ -308,11 +304,11 @@ static void ggml_cpy_f32_q4_1_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK4_1 == 0);
														
 
															     const int num_blocks = ne / QK4_1;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_q4_1, QK4_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_f32_q<cpy_blck_f32_q4_1, QK4_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_q4_1_f32_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -320,9 +316,8 @@ static void ggml_cpy_q4_1_f32_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ne;
														
 
															-    sycl_parallel_for(
														
 
															-        stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-        [=](sycl::nd_item<3> item_ct1) {
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															             cpy_q_f32<cpy_blck_q_f32<dequantize_q4_1, QK4_1>, QK4_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02,
														
 
															                                                                      nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13,
														
 
															                                                                      item_ct1);
														
@@ -335,11 +330,11 @@ static void ggml_cpy_f32_q5_0_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK5_0 == 0);
														
 
															     const int num_blocks = ne / QK5_0;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_q5_0, QK5_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_f32_q<cpy_blck_f32_q5_0, QK5_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_q5_0_f32_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -347,9 +342,8 @@ static void ggml_cpy_q5_0_f32_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ne;
														
 
															-    sycl_parallel_for(
														
 
															-        stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-        [=](sycl::nd_item<3> item_ct1) {
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															             cpy_q_f32<cpy_blck_q_f32<dequantize_q5_0, QK5_0>, QK5_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02,
														
 
															                                                                      nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13,
														
 
															                                                                      item_ct1);
														
@@ -362,11 +356,11 @@ static void ggml_cpy_f32_q5_1_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK5_1 == 0);
														
 
															     const int num_blocks = ne / QK5_1;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_q5_1, QK5_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                              ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             cpy_f32_q<cpy_blck_f32_q5_1, QK5_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															+                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+                         });
														
 
															 }
														
 
															 static void ggml_cpy_q5_1_f32_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -374,9 +368,8 @@ static void ggml_cpy_q5_1_f32_sycl(const char * cx, char * cdst, const int ne, c
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ne;
														
 
															-    sycl_parallel_for(
														
 
															-        stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-        [=](sycl::nd_item<3> item_ct1) {
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															             cpy_q_f32<cpy_blck_q_f32<dequantize_q5_1, QK5_1>, QK5_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02,
														
 
															                                                                      nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13,
														
 
															                                                                      item_ct1);
														
@@ -389,11 +382,11 @@ static void ggml_cpy_f32_iq4_nl_sycl(const char * cx, char * cdst, const int ne,
 
															                                      const int nb12, const int nb13, queue_ptr stream) {
														
 
															     GGML_ASSERT(ne % QK4_NL == 0);
														
 
															     const int num_blocks = ne / QK4_NL;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_f32_q<cpy_blck_f32_iq4_nl, QK4_NL>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03,
														
 
															-                                                                 ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks), sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_f32_q<cpy_blck_f32_iq4_nl, QK4_NL>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															+                                                   ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 static void ggml_cpy_f16_f16_sycl(const char * cx, char * cdst, const int ne, const int ne00, const int ne01,
														
@@ -404,8 +397,7 @@ static void ggml_cpy_f16_f16_sycl(const char * cx, char * cdst, const int ne, co
 
															     {
														
 
															         dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -424,8 +416,7 @@ static void ggml_cpy_i16_i16_sycl(const char * cx, char * cdst, const int ne, co
 
															         // dpct::has_capability_or_fail(stream->get_device(),
														
 
															         //                              {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -444,8 +435,7 @@ static void ggml_cpy_i32_i32_sycl(const char * cx, char * cdst, const int ne, co
 
															         // dpct::has_capability_or_fail(stream->get_device(),
														
 
															         //                              {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream,
														
 
															+        stream->parallel_for(
														
 
															             sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															                               sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															             [=](sycl::nd_item<3> item_ct1) {
														
@@ -460,13 +450,11 @@ static void ggml_cpy_q8_0_q8_0(const char * cx, char * cdst, const int ne, const
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ceil_div(ne, SYCL_CPY_BLOCK_SIZE);
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															-                                        sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_q_q<block_q8_0, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															-                                                     ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															+                              sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_q_q<block_q8_0, QK8_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
@@ -475,13 +463,11 @@ static void ggml_cpy_q5_0_q5_0(const char * cx, char * cdst, const int ne, const
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ceil_div(ne, SYCL_CPY_BLOCK_SIZE);
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															-                                        sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_q_q<block_q5_0, QK5_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															-                                                     ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															+                              sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_q_q<block_q5_0, QK5_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
@@ -491,13 +477,11 @@ static void ggml_cpy_q5_1_q5_1(const char * cx, char * cdst, const int ne, const
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ceil_div(ne, SYCL_CPY_BLOCK_SIZE);
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															-                                        sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_q_q<block_q5_1, QK5_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															-                                                     ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															+                              sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_q_q<block_q5_1, QK5_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
@@ -506,13 +490,10 @@ static void ggml_cpy_q4_0_q4_0(const char * cx, char * cdst, const int ne, const
 
															                                    const int ne10, const int ne11, const int ne12, const int nb10, const int nb11,
														
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															     const int num_blocks = ceil_div(ne, SYCL_CPY_BLOCK_SIZE);
														
 
															-    sycl_parallel_for(stream,
														
 
															-                      sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															-                                        sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) {
														
 
															-                          cpy_q_q<block_q4_0, QK4_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															-                                                     ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE), sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_q_q<block_q4_0, QK4_0>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
@@ -522,13 +503,10 @@ static void ggml_cpy_q4_1_q4_1(const char * cx, char * cdst, const int ne, const
 
															                                    const int nb12, const int nb13, queue_ptr stream) {
														
 
															    const int num_blocks = ceil_div(ne, SYCL_CPY_BLOCK_SIZE);
														
 
															-   sycl_parallel_for(stream,
														
 
															-                     sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE),
														
 
															-                                       sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)),
														
 
															-                     [=](sycl::nd_item<3> item_ct1) {
														
 
															-                         cpy_q_q<block_q4_1, QK4_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11,
														
 
															-                                                    ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															-                     });
														
 
															+   stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, num_blocks) * sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE), sycl::range<3>(1, 1, SYCL_CPY_BLOCK_SIZE)), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cpy_q_q<block_q4_1, QK4_1>(cx, cdst, ne, ne00, ne01, ne02, nb00, nb01, nb02, nb03, ne10, ne11, ne12, nb10, nb11, nb12, nb13, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 void ggml_sycl_cpy(ggml_backend_sycl_context & ctx, const ggml_tensor * src0, const ggml_tensor * src1) try {
														
--- a/ggml/src/ggml-sycl/dmmv.cpp
+++ b/ggml/src/ggml-sycl/dmmv.cpp
@@ -208,10 +208,12 @@ static void convert_mul_mat_vec_f16_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<1, 1, convert_f16>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<1, 1, convert_f16>(vx, y, dst, ncols,
														
 
															+                                                          nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -875,11 +877,12 @@ static void dequantize_mul_mat_vec_q4_0_sycl_reorder(const void *vx, const dfloa
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec_reorder<QK4_0, QR4_0, dequantize_q4_0_reorder>(vx, y, dst, ncols,
														
 
															-                                                                                                    nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec_reorder<QK4_0, QR4_0, dequantize_q4_0_reorder>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -897,10 +900,12 @@ static void dequantize_mul_mat_vec_q4_0_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<QK4_0, QR4_0, dequantize_q4_0>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<QK4_0, QR4_0, dequantize_q4_0>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -916,10 +921,12 @@ static void dequantize_mul_mat_vec_q4_1_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<QK4_1, QR4_1, dequantize_q4_1>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<QK4_1, QR4_1, dequantize_q4_1>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -935,10 +942,12 @@ static void dequantize_mul_mat_vec_q5_0_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<QK5_0, QR5_0, dequantize_q5_0>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<QK5_0, QR5_0, dequantize_q5_0>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -954,10 +963,12 @@ static void dequantize_mul_mat_vec_q5_1_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<QK5_1, QR5_1, dequantize_q5_1>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<QK5_1, QR5_1, dequantize_q5_1>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -973,10 +984,12 @@ static void dequantize_mul_mat_vec_q8_0_sycl(const void *vx, const dfloat *y,
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              dequantize_mul_mat_vec<QK8_0, QR8_0, dequantize_q8_0>(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                dequantize_mul_mat_vec<QK8_0, QR8_0, dequantize_q8_0>(
														
 
															+                    vx, y, dst, ncols, nrows, item_ct1);
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -989,10 +1002,11 @@ static void dequantize_mul_mat_vec_q2_K_sycl(const void *vx, const float *y,
 
															     const int block_num_y = (nrows + ny - 1) / ny;
														
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, ny, QK_WARP_SIZE);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															-                          dequantize_mul_mat_vec_q2_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															+            dequantize_mul_mat_vec_q2_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 static void dequantize_mul_mat_vec_q3_K_sycl(const void *vx, const float *y,
														
@@ -1004,10 +1018,11 @@ static void dequantize_mul_mat_vec_q3_K_sycl(const void *vx, const float *y,
 
															     const int block_num_y = (nrows + ny - 1) / ny;
														
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, ny, QK_WARP_SIZE);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															-                          dequantize_mul_mat_vec_q3_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															+            dequantize_mul_mat_vec_q3_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 static void dequantize_mul_mat_vec_q4_K_sycl(const void *vx, const float *y,
														
@@ -1019,10 +1034,11 @@ static void dequantize_mul_mat_vec_q4_K_sycl(const void *vx, const float *y,
 
															     const int block_num_y = (nrows + ny - 1) / ny;
														
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, ny, QK_WARP_SIZE);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															-                          dequantize_mul_mat_vec_q4_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															+            dequantize_mul_mat_vec_q4_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 static void dequantize_mul_mat_vec_q5_K_sycl(const void *vx, const float *y,
														
@@ -1031,10 +1047,11 @@ static void dequantize_mul_mat_vec_q5_K_sycl(const void *vx, const float *y,
 
															                                              dpct::queue_ptr stream) {
														
 
															     GGML_ASSERT(ncols % QK_K == 0);
														
 
															     const sycl::range<3> block_dims(1, 1, QK_WARP_SIZE);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims, block_dims),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															-                          dequantize_mul_mat_vec_q5_k(vx, y, dst, ncols, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															+            dequantize_mul_mat_vec_q5_k(vx, y, dst, ncols, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 static void dequantize_mul_mat_vec_q6_K_sycl(const void *vx, const float *y,
														
@@ -1046,10 +1063,11 @@ static void dequantize_mul_mat_vec_q6_K_sycl(const void *vx, const float *y,
 
															     const int block_num_y = (nrows + ny - 1) / ny;
														
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, ny, QK_WARP_SIZE);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                      [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															-                          dequantize_mul_mat_vec_q6_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															-                      });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(QK_WARP_SIZE)]] {
														
 
															+            dequantize_mul_mat_vec_q6_k(vx, y, dst, ncols, nrows, item_ct1);
														
 
															+        });
														
 
															 }
														
 
															 void ggml_sycl_op_dequantize_mul_mat_vec(
														
--- a/ggml/src/ggml-sycl/dpct/helper.hpp
+++ b/ggml/src/ggml-sycl/dpct/helper.hpp
@@ -13,10 +13,10 @@
 
															 #ifndef GGML_SYCL_DPCT_HELPER_HPP
														
 
															 #define GGML_SYCL_DPCT_HELPER_HPP
														
 
															-#include <map>
														
 
															 #include <sycl/sycl.hpp>
														
 
															 #include <sycl/half_type.hpp>
														
 
															 #include <syclcompat/math.hpp>
														
 
															+#include <map>
														
 
															 #ifdef GGML_SYCL_USE_INTEL_ONEMKL
														
 
															 #include <oneapi/mkl.hpp>
														
@@ -118,36 +118,6 @@ inline auto get_onemath_backend(sycl::queue& queue)
 
															 #endif
														
 
															 }
														
 
															-#ifdef SYCL_EXT_ONEAPI_ENQUEUE_FUNCTIONS
														
 
															-    namespace syclex = sycl::ext::oneapi::experimental;
														
 
															-#endif
														
 
															-
														
 
															-template <int NR, typename Func>
														
 
															-__dpct_inline__ void sycl_parallel_for(sycl::handler & cgh, sycl::nd_range<NR> nd_range, Func && func) {
														
 
															-#ifdef SYCL_EXT_ONEAPI_ENQUEUE_FUNCTIONS
														
 
															-    syclex::nd_launch(cgh, nd_range, func);
														
 
															-#else
														
 
															-    cgh.parallel_for(nd_range, func);
														
 
															-#endif
														
 
															-}
														
 
															-
														
 
															-template <int NR, typename Func>
														
 
															-__dpct_inline__ void sycl_parallel_for(sycl::queue * q, sycl::nd_range<NR> nd_range, Func && func) {
														
 
															-#ifdef SYCL_EXT_ONEAPI_ENQUEUE_FUNCTIONS
														
 
															-    syclex::nd_launch(*q, nd_range, func);
														
 
															-#else
														
 
															-    q->parallel_for(nd_range, func);
														
 
															-#endif
														
 
															-}
														
 
															-
														
 
															-template <typename Func> __dpct_inline__ void sycl_launch(sycl::queue * stream, Func && func) {
														
 
															-#ifdef SYCL_EXT_ONEAPI_ENQUEUE_FUNCTIONS
														
 
															-    syclex::submit(*stream, func);
														
 
															-#else
														
 
															-    stream->submit(func);
														
 
															-#endif
														
 
															-}
														
 
															-
														
 
															 namespace dpct
														
 
															 {
														
 
															     typedef sycl::queue *queue_ptr;
														
--- a/ggml/src/ggml-sycl/element_wise.cpp
+++ b/ggml/src/ggml-sycl/element_wise.cpp
@@ -407,7 +407,7 @@ static void acc_f32_sycl(const float *x, const float *y, float *dst,
 
															                          const int ne12, const int nb1, const int nb2,
														
 
															                          const int offset, queue_ptr stream) {
														
 
															     int num_blocks = ceil_div(n_elements, SYCL_ACC_BLOCK_SIZE);
														
 
															-    sycl_parallel_for(stream,
														
 
															+    stream->parallel_for(
														
 
															         sycl::nd_range<1>(sycl::range<1>(num_blocks) *
														
 
															                               sycl::range<1>(SYCL_ACC_BLOCK_SIZE),
														
 
															                           sycl::range<1>(SYCL_ACC_BLOCK_SIZE)),
														
@@ -425,8 +425,8 @@ static void upscale_sycl(const T *x, T *dst, const int nb00, const int nb01,
 
															     int dst_size = ne10 * ne11 * ne12 * ne13;
														
 
															     int num_blocks = ceil_div(dst_size, SYCL_UPSCALE_BLOCK_SIZE);
														
 
															     sycl::range<1> gridDim(num_blocks * SYCL_UPSCALE_BLOCK_SIZE);
														
 
															-    sycl_parallel_for<1>(
														
 
															-        stream, sycl::nd_range<1>(gridDim, sycl::range<1>(SYCL_UPSCALE_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<1>(gridDim, sycl::range<1>(SYCL_UPSCALE_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															             upscale(x, dst, nb00, nb01, nb02, nb03, ne10, ne11, ne12, ne13, sf0, sf1, sf2, sf3, item_ct1);
														
 
															         });
														
 
															 }
														
@@ -437,7 +437,7 @@ static void pad_sycl(const T *x, T *dst, const int ne00,
 
															                          const int ne1, const int ne2, queue_ptr stream) {
														
 
															     int num_blocks = ceil_div(ne0, SYCL_PAD_BLOCK_SIZE);
														
 
															     sycl::range<3> gridDim(ne2, ne1, num_blocks);
														
 
															-    sycl_parallel_for(stream,
														
 
															+    stream->parallel_for(
														
 
															                       sycl::nd_range<3>(gridDim * sycl::range<3>(1, 1, SYCL_PAD_BLOCK_SIZE),
														
 
															                                         sycl::range<3>(1, 1, SYCL_PAD_BLOCK_SIZE)),
														
 
															                       [=](sycl::nd_item<3> item_ct1) { pad(x, dst, ne0, ne00, ne01, ne02, item_ct1); });
														
@@ -639,7 +639,7 @@ static inline void ggml_sycl_op_sgn(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, 256);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(256),
														
 
															                                   sycl::range<1>(256)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -652,7 +652,7 @@ static inline void ggml_sycl_op_abs(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, 256);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(256),
														
 
															                                   sycl::range<1>(256)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -665,7 +665,7 @@ static inline void ggml_sycl_op_elu(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, 256);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(256),
														
 
															                                   sycl::range<1>(256)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -678,7 +678,7 @@ static inline void ggml_sycl_op_silu(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SILU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SILU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SILU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -691,7 +691,7 @@ static inline void ggml_sycl_op_gelu(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_GELU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_GELU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -704,7 +704,7 @@ static inline void ggml_sycl_op_gelu_quick(ggml_backend_sycl_context & ctx, ggml
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_GELU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_GELU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -717,7 +717,7 @@ static inline void ggml_sycl_op_gelu_erf(ggml_backend_sycl_context & ctx, ggml_t
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_GELU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_GELU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -730,7 +730,7 @@ static inline void ggml_sycl_op_tanh(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_TANH_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_TANH_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_TANH_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -743,7 +743,7 @@ static inline void ggml_sycl_op_relu(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_RELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_RELU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_RELU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -756,7 +756,7 @@ static inline void ggml_sycl_op_hardsigmoid(ggml_backend_sycl_context & ctx, ggm
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_HARDSIGMOID_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_HARDSIGMOID_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_HARDSIGMOID_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -769,7 +769,7 @@ static inline void ggml_sycl_op_hardswish(ggml_backend_sycl_context & ctx, ggml_
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_HARDSWISH_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_HARDSWISH_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_HARDSWISH_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -782,7 +782,7 @@ static inline void ggml_sycl_op_exp(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_EXP_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_EXP_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_EXP_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -795,7 +795,7 @@ static inline void ggml_sycl_op_log(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_EXP_BLOCK_SIZE); // Using EXP block size
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_EXP_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_EXP_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -808,7 +808,7 @@ static inline void ggml_sycl_op_neg(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_NEG_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_NEG_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_NEG_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -821,7 +821,7 @@ static inline void ggml_sycl_op_step(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_NEG_BLOCK_SIZE); // Using NEG block size
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_NEG_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_NEG_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -834,7 +834,7 @@ static inline void ggml_sycl_op_sigmoid(ggml_backend_sycl_context & ctx, ggml_te
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SIGMOID_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SIGMOID_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SIGMOID_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -847,7 +847,7 @@ static inline void ggml_sycl_op_sqrt(ggml_backend_sycl_context & ctx, ggml_tenso
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SQRT_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SQRT_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SQRT_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -860,7 +860,7 @@ static inline void ggml_sycl_op_sin(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SIN_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SIN_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SIN_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -873,7 +873,7 @@ static inline void ggml_sycl_op_cos(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SIN_BLOCK_SIZE); // Using SIN block size
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SIN_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SIN_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -888,7 +888,7 @@ static inline void ggml_sycl_op_leaky_relu(ggml_backend_sycl_context & ctx, ggml
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream, float slope) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_RELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_RELU_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_RELU_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -901,7 +901,7 @@ static inline void ggml_sycl_op_sqr(ggml_backend_sycl_context & ctx, ggml_tensor
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_SQR_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_SQR_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_SQR_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -935,7 +935,7 @@ static inline void ggml_sycl_op_clamp(ggml_backend_sycl_context & ctx, ggml_tens
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_unary(ctx, dst,
														
 
															         [](const auto* src, auto* dst_ptr, int k_elements, queue_ptr stream, float min_arg, float max_arg) {
														
 
															             const int num_blocks = ceil_div(k_elements, SYCL_CLAMP_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(stream,
														
 
															+            stream->parallel_for(
														
 
															                 sycl::nd_range<1>(sycl::range<1>(num_blocks) * sycl::range<1>(SYCL_CLAMP_BLOCK_SIZE),
														
 
															                                   sycl::range<1>(SYCL_CLAMP_BLOCK_SIZE)),
														
 
															                 [=](sycl::nd_item<1> item_ct1) {
														
@@ -967,7 +967,7 @@ static inline void ggml_sycl_op_geglu(ggml_backend_sycl_context & ctx, ggml_tens
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_fused_glu(ctx, dst,
														
 
															         [](const auto* x_ptr, const auto* g_ptr, auto* dst_ptr, uint64_t k, uint64_t n, uint64_t o0, uint64_t o1, queue_ptr main_stream) {
														
 
															             const uint32_t num_blocks = ceil_div(k, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(main_stream,
														
 
															+            main_stream->parallel_for(
														
 
															                     sycl::nd_range<1>((num_blocks * sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															                 gated_op_fused_geglu(x_ptr, g_ptr, dst_ptr, k, n, o0, o1, item_ct1);
														
 
															             });
														
@@ -978,7 +978,7 @@ static inline void ggml_sycl_op_reglu(ggml_backend_sycl_context & ctx, ggml_tens
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_fused_glu(ctx, dst,
														
 
															         [](const auto* x_ptr, const auto* g_ptr, auto* dst_ptr, uint64_t k, uint64_t n, uint64_t o0, uint64_t o1, queue_ptr main_stream) {
														
 
															             const uint32_t num_blocks = ceil_div((uint32_t)k, SYCL_RELU_BLOCK_SIZE); // Using RELU block size for reglu
														
 
															-            sycl_parallel_for(main_stream,
														
 
															+            main_stream->parallel_for(
														
 
															                     sycl::nd_range<1>((num_blocks * sycl::range<1>(SYCL_RELU_BLOCK_SIZE)), sycl::range<1>(SYCL_RELU_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															                 gated_op_fused_reglu(x_ptr, g_ptr, dst_ptr, k, n, o0, o1, item_ct1);
														
 
															             });
														
@@ -989,7 +989,7 @@ static inline void ggml_sycl_op_swiglu(ggml_backend_sycl_context & ctx, ggml_ten
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_fused_glu(ctx, dst,
														
 
															         [](const auto* x_ptr, const auto* g_ptr, auto* dst_ptr, uint64_t k, uint64_t n, uint64_t o0, uint64_t o1, queue_ptr main_stream) {
														
 
															             const uint32_t num_blocks = ceil_div((uint32_t)k, SYCL_SILU_BLOCK_SIZE); // Using SILU block size for swiglu
														
 
															-            sycl_parallel_for(main_stream,
														
 
															+            main_stream->parallel_for(
														
 
															                     sycl::nd_range<1>((num_blocks * sycl::range<1>(SYCL_SILU_BLOCK_SIZE)), sycl::range<1>(SYCL_SILU_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															                 gated_op_fused_swiglu(x_ptr, g_ptr, dst_ptr, k, n, o0, o1, item_ct1);
														
 
															             });
														
@@ -1000,7 +1000,7 @@ static inline void ggml_sycl_op_geglu_erf(ggml_backend_sycl_context & ctx, ggml_
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_fused_glu(ctx, dst,
														
 
															         [](const auto* x_ptr, const auto* g_ptr, auto* dst_ptr, uint64_t k, uint64_t n, uint64_t o0, uint64_t o1, queue_ptr main_stream) {
														
 
															             const uint32_t num_blocks = ceil_div(k, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(main_stream,
														
 
															+            main_stream->parallel_for(
														
 
															                     sycl::nd_range<1>((num_blocks * sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															                 gated_op_fused_geglu_erf(x_ptr, g_ptr, dst_ptr, k, n, o0, o1, item_ct1);
														
 
															             });
														
@@ -1011,7 +1011,7 @@ static inline void ggml_sycl_op_geglu_quick(ggml_backend_sycl_context & ctx, ggm
 
															     ggml_sycl_detail::dispatch_ggml_sycl_op_fused_glu(ctx, dst,
														
 
															         [](const auto* x_ptr, const auto* g_ptr, auto* dst_ptr, uint64_t k, uint64_t n, uint64_t o0, uint64_t o1, queue_ptr main_stream) {
														
 
															             const uint32_t num_blocks = ceil_div(k, SYCL_GELU_BLOCK_SIZE);
														
 
															-            sycl_parallel_for(main_stream,
														
 
															+            main_stream->parallel_for(
														
 
															                     sycl::nd_range<1>((num_blocks * sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), sycl::range<1>(SYCL_GELU_BLOCK_SIZE)), [=](sycl::nd_item<1> item_ct1) {
														
 
															                 gated_op_fused_geglu_quick(x_ptr, g_ptr, dst_ptr, k, n, o0, o1, item_ct1);
														
 
															             });
														
--- a/ggml/src/ggml-sycl/getrows.cpp
+++ b/ggml/src/ggml-sycl/getrows.cpp
@@ -118,10 +118,12 @@ static void get_rows_sycl(ggml_backend_sycl_context & ctx, const ggml_tensor *sr
 
															     GGML_ASSERT(ne00 % 2 == 0);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															-        k_get_rows<qk, qr, dq>(src0_dd, src1_dd, dst_dd, ne00, ne12, s1, s2, s3, nb01, nb02, nb03, s10, s11, s12,
														
 
															-                               item_ct1);
														
 
															-    });
														
 
															+    stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                         [=](sycl::nd_item<3> item_ct1) {
														
 
															+                             k_get_rows<qk, qr, dq>(
														
 
															+                                 src0_dd, src1_dd, dst_dd, ne00, ne12, s1, s2,
														
 
															+                                 s3, nb01, nb02, nb03, s10, s11, s12, item_ct1);
														
 
															+                         });
														
 
															     GGML_UNUSED(dst);
														
 
															     GGML_UNUSED(ctx);
														
@@ -154,8 +156,9 @@ static void get_rows_sycl_float(ggml_backend_sycl_context & ctx, const ggml_tens
 
															         dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                      {sycl::aspect::fp16});
														
 
															-        sycl_parallel_for(
														
 
															-            stream, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+        stream->parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) {
														
 
															                 k_get_rows_float(src0_dd, src1_dd, dst_dd, ne00, ne12, s1, s2,
														
 
															                                  s3, nb01, nb02, nb03, s10, s11, s12, item_ct1);
														
 
															             });
														
--- a/ggml/src/ggml-sycl/ggml-sycl.cpp
+++ b/ggml/src/ggml-sycl/ggml-sycl.cpp
@@ -1746,12 +1746,13 @@ static void argsort_f32_i32_sycl(const float *x, int *dst, const int ncols,
 
															     const size_t shared_mem = ncols_pad * sizeof(int);
														
 
															     if (order == GGML_SORT_ORDER_ASC) {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															             sycl::local_accessor<uint8_t, 1> dpct_local_acc_ct1(
														
 
															                 sycl::range<1>(shared_mem), cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     k_argsort_f32_i32<GGML_SORT_ORDER_ASC>(
														
 
															                         x, dst, ncols, ncols_pad, item_ct1,
														
 
															                         dpct_local_acc_ct1.get_multi_ptr<sycl::access::decorated::no>()
														
@@ -1759,12 +1760,13 @@ static void argsort_f32_i32_sycl(const float *x, int *dst, const int ncols,
 
															                 });
														
 
															         });
														
 
															     } else if (order == GGML_SORT_ORDER_DESC) {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															             sycl::local_accessor<uint8_t, 1> dpct_local_acc_ct1(
														
 
															                 sycl::range<1>(shared_mem), cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     k_argsort_f32_i32<GGML_SORT_ORDER_DESC>(
														
 
															                         x, dst, ncols, ncols_pad, item_ct1,
														
 
															                         dpct_local_acc_ct1.get_multi_ptr<sycl::access::decorated::no>()
														
@@ -1782,47 +1784,50 @@ static void argmax_f32_i32_sycl(const float *x, int *dst, const int ncols,
 
															     const sycl::range<3> block_nums(1, nrows, 1);
														
 
															     const size_t shared_mem = 256 * sizeof(float);
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+    stream->submit([&](sycl::handler &cgh) {
														
 
															         sycl::local_accessor<float, 1> shared_data(
														
 
															             sycl::range<1>(shared_mem/sizeof(float)), cgh);
														
 
															         sycl::local_accessor<int, 1> shared_indices(
														
 
															             sycl::range<1>(shared_mem/sizeof(float)), cgh);
														
 
															-        sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															-            const int tid = item_ct1.get_local_id(2);
														
 
															-            const int row = item_ct1.get_global_id(1);
														
 
															-
														
 
															-            float max_val = -INFINITY;
														
 
															-            int   max_idx = -1;
														
 
															-
														
 
															-            for (int col = tid; col < ncols; col += 256) {
														
 
															-                float val = x[row * ncols + col];
														
 
															-                if (val > max_val) {
														
 
															-                    max_val = val;
														
 
															-                    max_idx = col;
														
 
															+        cgh.parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+            [=](sycl::nd_item<3> item_ct1) {
														
 
															+                const int tid = item_ct1.get_local_id(2);
														
 
															+                const int row = item_ct1.get_global_id(1);
														
 
															+
														
 
															+                float max_val = -INFINITY;
														
 
															+                int max_idx = -1;
														
 
															+
														
 
															+                for (int col = tid; col < ncols; col += 256) {
														
 
															+                    float val = x[row * ncols + col];
														
 
															+                    if (val > max_val) {
														
 
															+                        max_val = val;
														
 
															+                        max_idx = col;
														
 
															+                    }
														
 
															                 }
														
 
															-            }
														
 
															-            shared_data[tid]    = max_val;
														
 
															-            shared_indices[tid] = max_idx;
														
 
															-            item_ct1.barrier(sycl::access::fence_space::local_space);
														
 
															+                shared_data[tid] = max_val;
														
 
															+                shared_indices[tid] = max_idx;
														
 
															+                item_ct1.barrier(sycl::access::fence_space::local_space);
														
 
															-            for (int stride = 256 / 2; stride > 0; stride >>= 1) {
														
 
															-                if (tid < stride) {
														
 
															-                    float val1 = shared_data[tid];
														
 
															-                    float val2 = shared_data[tid + stride];
														
 
															-                    if (val2 > val1) {
														
 
															-                        shared_data[tid]    = val2;
														
 
															-                        shared_indices[tid] = shared_indices[tid + stride];
														
 
															+                for (int stride = 256/2; stride > 0; stride >>= 1) {
														
 
															+                    if (tid < stride) {
														
 
															+                        float val1 = shared_data[tid];
														
 
															+                        float val2 = shared_data[tid + stride];
														
 
															+                        if (val2 > val1) {
														
 
															+                            shared_data[tid] = val2;
														
 
															+                            shared_indices[tid] = shared_indices[tid + stride];
														
 
															+                        }
														
 
															                     }
														
 
															+                    item_ct1.barrier(sycl::access::fence_space::local_space);
														
 
															                 }
														
 
															-                item_ct1.barrier(sycl::access::fence_space::local_space);
														
 
															-            }
														
 
															-            if (tid == 0) {
														
 
															-                dst[row] = shared_indices[0];
														
 
															-            }
														
 
															-        });
														
 
															+
														
 
															+                if (tid == 0) {
														
 
															+                    dst[row] = shared_indices[0];
														
 
															+                }
														
 
															+            });
														
 
															     });
														
 
															 }
														
 
															 static void diag_mask_inf_f32_sycl(const float *x, float *dst,
														
@@ -2895,7 +2900,7 @@ static void ggml_sycl_mul_mat_batched_sycl(ggml_backend_sycl_context & ctx, cons
 
															                 void **       ptrs_dst_get = ptrs_dst.get();
														
 
															                 size_t        nb12_scaled  = src1->type == GGML_TYPE_F16 ? nb12 : s12 * sizeof(sycl::half);
														
 
															                 size_t        nb13_scaled  = src1->type == GGML_TYPE_F16 ? nb13 : s13 * sizeof(sycl::half);
														
 
															-                sycl_parallel_for(cgh, sycl::nd_range<3>(block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(sycl::nd_range<3>(block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															                     k_compute_batched_ptrs(src0_f16, src1_f16, dst_ddf, ptrs_src_get, ptrs_dst_get, ne12, ne13, ne23, nb02,
														
 
															                                            nb03, nb12_scaled, nb13_scaled, nbd2, nbd3, r2, r3, item_ct1);
														
 
															                 });
														
@@ -3403,7 +3408,7 @@ static void ggml_sycl_mul_mat_id(ggml_backend_sycl_context & ctx,
 
															             {
														
 
															                 sycl::range<3> block_dims(1, 1, std::min((unsigned int)ne10, max_work_group_size));
														
 
															                 sycl::range<3> grid_dims(1, n_ids, ids->ne[1]);
														
 
															-                sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+                stream->submit([&](sycl::handler &cgh) {
														
 
															                     sycl::local_accessor<int, 0> src1_row_acc(cgh);
														
 
															                     char *__restrict src1_contiguous_get =
														
@@ -3415,8 +3420,9 @@ static void ggml_sycl_mul_mat_id(ggml_backend_sycl_context & ctx,
 
															                     size_t ids_nb_ct6 = ids->nb[1];
														
 
															                     size_t ids_nb_ct7 = ids->nb[0];
														
 
															-                    sycl_parallel_for(
														
 
															-                        cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                    cgh.parallel_for(
														
 
															+                        sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                        [=](sycl::nd_item<3> item_ct1) {
														
 
															                             k_copy_src1_to_contiguous(
														
 
															                                 src1_original, src1_contiguous_get,
														
 
															                                 dev_cur_src1_row_get,
														
@@ -3447,14 +3453,15 @@ static void ggml_sycl_mul_mat_id(ggml_backend_sycl_context & ctx,
 
															             {
														
 
															                 sycl::range<3> block_dims(1, 1, std::min((unsigned int)ne0, max_work_group_size));
														
 
															                 sycl::range<3> grid_dims(1, 1, num_src1_rows);
														
 
															-                sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+                stream->submit([&](sycl::handler &cgh) {
														
 
															                     const char *__restrict dst_contiguous_get =
														
 
															                         dst_contiguous.get();
														
 
															                     const mmid_row_mapping *__restrict dev_row_mapping_get =
														
 
															                         dev_row_mapping.get();
														
 
															-                    sycl_parallel_for(
														
 
															-                        cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                    cgh.parallel_for(
														
 
															+                        sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                        [=](sycl::nd_item<3> item_ct1) {
														
 
															                             k_copy_dst_from_contiguous(dst_original,
														
 
															                                                        dst_contiguous_get,
														
 
															                                                        dev_row_mapping_get,
														
--- a/ggml/src/ggml-sycl/gla.cpp
+++ b/ggml/src/ggml-sycl/gla.cpp
@@ -11,13 +11,13 @@ static void gated_linear_attn_f32_kernel(const dpct::queue_ptr stream, u_int B,
 
															     const u_int n_seq_tokens = T / B;
														
 
															     sycl::range<1> block_dims((C / H));
														
 
															     sycl::range<1> grid_dims((B * H));
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+    stream->submit([&](sycl::handler & cgh) {
														
 
															         /* local memory accessors*/
														
 
															         auto _k  = sycl::local_accessor<float, 1>(sycl::range<1>(head_size), cgh);
														
 
															         auto _r  = sycl::local_accessor<float, 1>(sycl::range<1>(head_size), cgh);
														
 
															         auto _td = sycl::local_accessor<float, 1>(sycl::range<1>(head_size), cgh);
														
 
															-        sycl_parallel_for<1>(cgh, sycl::nd_range<1>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<1> item) {
														
 
															+        cgh.parallel_for(sycl::nd_range<1>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<1> item) {
														
 
															             u_int tid = item.get_local_id(0);
														
 
															             u_int bid = item.get_group(0);
														
--- a/ggml/src/ggml-sycl/im2col.cpp
+++ b/ggml/src/ggml-sycl/im2col.cpp
@@ -70,7 +70,7 @@ static void im2col_sycl_internal(const float * x, T * dst, int64_t IW, int64_t I
 
															     const int64_t CHW = IC * KH * KW;
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * local_range, local_range), [=](sycl::nd_item<3> item_ct1) {
														
 
															+    stream->parallel_for(sycl::nd_range<3>(block_nums * local_range, local_range), [=](sycl::nd_item<3> item_ct1) {
														
 
															         im2col_kernel<T>(x, dst, batch_offset, offset_delta, IC, IW, IH, OH, OW, KW, KH, parallel_elements, CHW, s0, s1,
														
 
															                          p0, p1, d0, d1, item_ct1);
														
 
															     });
														
--- a/ggml/src/ggml-sycl/mmq.cpp
+++ b/ggml/src/ggml-sycl/mmq.cpp
@@ -1818,7 +1818,7 @@ static void ggml_mul_mat_q4_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q4_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q4_0_acc_ct1(
														
@@ -1829,8 +1829,9 @@ static void ggml_mul_mat_q4_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -1852,7 +1853,7 @@ static void ggml_mul_mat_q4_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q4_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q4_0_acc_ct1(
														
@@ -1863,8 +1864,9 @@ static void ggml_mul_mat_q4_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -1931,7 +1933,7 @@ static void ggml_mul_mat_q4_1_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q4_1_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + +mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q4_1_acc_ct1(
														
@@ -1942,8 +1944,9 @@ static void ggml_mul_mat_q4_1_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_1<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -1965,7 +1968,7 @@ static void ggml_mul_mat_q4_1_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q4_1_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + +mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q4_1_acc_ct1(
														
@@ -1976,8 +1979,9 @@ static void ggml_mul_mat_q4_1_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_1<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2044,7 +2048,7 @@ static void ggml_mul_mat_q5_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q5_0_acc_ct1(
														
@@ -2055,8 +2059,9 @@ static void ggml_mul_mat_q5_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2078,7 +2083,7 @@ static void ggml_mul_mat_q5_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q5_0_acc_ct1(
														
@@ -2089,8 +2094,9 @@ static void ggml_mul_mat_q5_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2157,7 +2163,7 @@ static void ggml_mul_mat_q5_1_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_1_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q5_1_acc_ct1(
														
@@ -2168,8 +2174,9 @@ static void ggml_mul_mat_q5_1_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_1<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2191,7 +2198,7 @@ static void ggml_mul_mat_q5_1_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_1_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q5_1_acc_ct1(
														
@@ -2202,8 +2209,9 @@ static void ggml_mul_mat_q5_1_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_1<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2270,7 +2278,7 @@ static void ggml_mul_mat_q8_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q8_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q8_0_acc_ct1(
														
@@ -2281,8 +2289,9 @@ static void ggml_mul_mat_q8_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q8_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2304,7 +2313,7 @@ static void ggml_mul_mat_q8_0_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_qs_q8_0_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<float, 1> tile_x_d_q8_0_acc_ct1(
														
@@ -2315,8 +2324,9 @@ static void ggml_mul_mat_q8_0_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q8_0<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2383,7 +2393,7 @@ static void ggml_mul_mat_q2_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q2_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q2_K_acc_ct1(
														
@@ -2396,8 +2406,9 @@ static void ggml_mul_mat_q2_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q2_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2420,7 +2431,7 @@ static void ggml_mul_mat_q2_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q2_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q2_K_acc_ct1(
														
@@ -2433,8 +2444,9 @@ static void ggml_mul_mat_q2_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q2_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2504,7 +2516,7 @@ static void ggml_mul_mat_q3_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q3_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q3_K_acc_ct1(
														
@@ -2519,8 +2531,9 @@ static void ggml_mul_mat_q3_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q3_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2544,7 +2557,7 @@ static void ggml_mul_mat_q3_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q3_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q3_K_acc_ct1(
														
@@ -2559,8 +2572,9 @@ static void ggml_mul_mat_q3_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q3_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2630,7 +2644,7 @@ static void ggml_mul_mat_q4_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q4_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q4_K_acc_ct1(
														
@@ -2643,8 +2657,9 @@ static void ggml_mul_mat_q4_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2667,7 +2682,7 @@ static void ggml_mul_mat_q4_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q4_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q4_K_acc_ct1(
														
@@ -2680,8 +2695,9 @@ static void ggml_mul_mat_q4_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q4_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2749,7 +2765,7 @@ static void ggml_mul_mat_q5_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q5_K_acc_ct1(
														
@@ -2762,8 +2778,9 @@ static void ggml_mul_mat_q5_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2786,7 +2803,7 @@ static void ggml_mul_mat_q5_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_q5_K_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_q5_K_acc_ct1(
														
@@ -2799,8 +2816,9 @@ static void ggml_mul_mat_q5_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q5_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2868,7 +2886,7 @@ static void ggml_mul_mat_q6_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_acc_ct1(
														
@@ -2881,8 +2899,9 @@ static void ggml_mul_mat_q6_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q6_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
@@ -2905,7 +2924,7 @@ static void ggml_mul_mat_q6_K_q8_1_sycl(const void *vx, const void *vy,
 
															             dpct::has_capability_or_fail(stream->get_device(),
														
 
															                                          {sycl::aspect::fp16});
														
 
															-            sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+            stream->submit([&](sycl::handler &cgh) {
														
 
															                 sycl::local_accessor<int, 1> tile_x_ql_acc_ct1(
														
 
															                     sycl::range<1>(mmq_y * (2 * WARP_SIZE) + mmq_y), cgh);
														
 
															                 sycl::local_accessor<sycl::half2, 1> tile_x_dm_acc_ct1(
														
@@ -2918,8 +2937,9 @@ static void ggml_mul_mat_q6_K_q8_1_sycl(const void *vx, const void *vy,
 
															                 sycl::local_accessor<sycl::half2, 1> tile_y_ds_acc_ct1(
														
 
															                     sycl::range<1>(mmq_x * WARP_SIZE / QI8_1), cgh);
														
 
															-                sycl_parallel_for(
														
 
															-                    cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+                cgh.parallel_for(
														
 
															+                    sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                    [=](sycl::nd_item<3> item_ct1) {
														
 
															                         mul_mat_q6_K<need_check>(
														
 
															                             vx, vy, dst, ncols_x, nrows_x, ncols_y, nrows_y,
														
 
															                             nrows_dst, item_ct1,
														
--- a/ggml/src/ggml-sycl/mmvq.cpp
+++ b/ggml/src/ggml-sycl/mmvq.cpp
@@ -544,12 +544,12 @@ static void reorder_mul_mat_vec_q4_0_q8_1_sycl(const void * vx, const void * vy,
 
															     const sycl::range<3> global_size(1, GGML_SYCL_MMV_Y, (block_num_y * WARP_SIZE));
														
 
															     const sycl::range<3> workgroup_size(1, GGML_SYCL_MMV_Y, num_subgroups * WARP_SIZE);
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-        sycl_parallel_for(cgh, sycl::nd_range<3>(global_size, workgroup_size),
														
 
															-                          [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q4_0>>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                            nd_item);
														
 
															-                          });
														
 
															+    stream->submit([&](sycl::handler & cgh) {
														
 
															+        cgh.parallel_for(sycl::nd_range<3>(global_size, workgroup_size),
														
 
															+                         [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                             mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q4_0>>(vx, vy, dst, ncols, nrows,
														
 
															+                                                                                           nd_item);
														
 
															+                         });
														
 
															     });
														
 
															 }
														
@@ -561,12 +561,12 @@ static void mul_mat_vec_q4_0_q8_1_sycl(const void * vx, const void * vy, float *
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK4_0, QI4_0, block_q4_0, VDR_Q4_0_Q8_1_MMVQ, vec_dot_q4_0_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+        stream->submit([&](sycl::handler & cgh) {
														
 
															+            cgh.parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                             [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                                 mul_mat_vec_q<QK4_0, QI4_0, block_q4_0, VDR_Q4_0_Q8_1_MMVQ, vec_dot_q4_0_q8_1>(
														
 
															+                                     vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                             });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -580,12 +580,17 @@ static void mul_mat_vec_q4_1_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK4_0, QI4_1, block_q4_1, VDR_Q4_1_Q8_1_MMVQ, vec_dot_q4_1_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK4_0, QI4_1, block_q4_1,
														
 
															+                                      VDR_Q4_1_Q8_1_MMVQ, vec_dot_q4_1_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -599,12 +604,17 @@ static void mul_mat_vec_q5_0_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK5_0, QI5_0, block_q5_0, VDR_Q5_0_Q8_1_MMVQ, vec_dot_q5_0_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK5_0, QI5_0, block_q5_0,
														
 
															+                                      VDR_Q5_0_Q8_1_MMVQ, vec_dot_q5_0_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -618,12 +628,17 @@ static void mul_mat_vec_q5_1_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK5_1, QI5_1, block_q5_1, VDR_Q5_1_Q8_1_MMVQ, vec_dot_q5_1_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK5_1, QI5_1, block_q5_1,
														
 
															+                                      VDR_Q5_1_Q8_1_MMVQ, vec_dot_q5_1_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -637,12 +652,17 @@ static void mul_mat_vec_q8_0_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK8_0, QI8_0, block_q8_0, VDR_Q8_0_Q8_1_MMVQ, vec_dot_q8_0_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK8_0, QI8_0, block_q8_0,
														
 
															+                                      VDR_Q8_0_Q8_1_MMVQ, vec_dot_q8_0_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -656,12 +676,17 @@ static void mul_mat_vec_q2_K_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK_K, QI2_K, block_q2_K, VDR_Q2_K_Q8_1_MMVQ, vec_dot_q2_K_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK_K, QI2_K, block_q2_K,
														
 
															+                                      VDR_Q2_K_Q8_1_MMVQ, vec_dot_q2_K_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -675,12 +700,17 @@ static void mul_mat_vec_q3_K_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK_K, QI3_K, block_q3_K, VDR_Q3_K_Q8_1_MMVQ, vec_dot_q3_K_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK_K, QI3_K, block_q3_K,
														
 
															+                                      VDR_Q3_K_Q8_1_MMVQ, vec_dot_q3_K_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -694,12 +724,17 @@ static void mul_mat_vec_q4_K_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK_K, QI4_K, block_q4_K, VDR_Q4_K_Q8_1_MMVQ, vec_dot_q4_K_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK_K, QI4_K, block_q4_K,
														
 
															+                                      VDR_Q4_K_Q8_1_MMVQ, vec_dot_q4_K_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -715,12 +750,12 @@ static void reorder_mul_mat_vec_q4_k_q8_1_sycl(const void * vx, const void * vy,
 
															     const sycl::range<3> global_size(1, GGML_SYCL_MMV_Y, block_num_y * WARP_SIZE);
														
 
															     const sycl::range<3> workgroup_size(1, GGML_SYCL_MMV_Y, num_subgroups * WARP_SIZE);
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-        sycl_parallel_for(cgh, sycl::nd_range<3>(global_size, workgroup_size),
														
 
															-                          [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q4_K>>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                            nd_item);
														
 
															-                          });
														
 
															+    stream->submit([&](sycl::handler & cgh) {
														
 
															+        cgh.parallel_for(sycl::nd_range<3>(global_size, workgroup_size),
														
 
															+                            [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                                mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q4_K>>(vx, vy, dst, ncols,
														
 
															+                                                                                            nrows, nd_item);
														
 
															+                            });
														
 
															     });
														
 
															 }
														
@@ -734,12 +769,17 @@ static void mul_mat_vec_q5_K_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK_K, QI5_K, block_q5_K, VDR_Q5_K_Q8_1_MMVQ, vec_dot_q5_K_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK_K, QI5_K, block_q5_K,
														
 
															+                                      VDR_Q5_K_Q8_1_MMVQ, vec_dot_q5_K_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -754,12 +794,12 @@ static void reorder_mul_mat_vec_q6_k_q8_1_sycl(const void * vx, const void * vy,
 
															     const sycl::range<3> global_size(1, GGML_SYCL_MMV_Y, block_num_y * WARP_SIZE);
														
 
															     const sycl::range<3> workgroup_size(1, GGML_SYCL_MMV_Y, num_subgroups * WARP_SIZE);
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-        sycl_parallel_for(cgh, sycl::nd_range<3>(global_size, workgroup_size),
														
 
															-                          [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                              mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q6_K>>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                            nd_item);
														
 
															-                          });
														
 
															+    stream->submit([&](sycl::handler & cgh) {
														
 
															+        cgh.parallel_for(sycl::nd_range<3>(global_size, workgroup_size),
														
 
															+                         [=](sycl::nd_item<3> nd_item) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                             mul_mat_vec_q_reorder<reorder_vec_dot_q_sycl<GGML_TYPE_Q6_K>>(vx, vy, dst, ncols, nrows,
														
 
															+                                                                                           nd_item);
														
 
															+                         });
														
 
															     });
														
 
															 }
														
 
															 static void mul_mat_vec_q6_K_q8_1_sycl(const void *vx, const void *vy,
														
@@ -771,12 +811,17 @@ static void mul_mat_vec_q6_K_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q<QK_K, QI6_K, block_q6_K, VDR_Q6_K_Q8_1_MMVQ, vec_dot_q6_K_q8_1>(
														
 
															-                                      vx, vy, dst, ncols, nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q<QK_K, QI6_K, block_q6_K,
														
 
															+                                      VDR_Q6_K_Q8_1_MMVQ, vec_dot_q6_K_q8_1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -791,12 +836,14 @@ static void mul_mat_vec_iq2_xxs_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq2_xxs_q8_1<QK_K, QI2_XXS / 2, block_iq2_xxs, 1>(vx, vy, dst, ncols,
														
 
															-                                                                                                  nrows, item_ct1);
														
 
															-                              });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq2_xxs_q8_1<QK_K, QI2_XXS/2, block_iq2_xxs, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -810,12 +857,14 @@ static void mul_mat_vec_iq2_xs_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq2_xs_q8_1<QK_K, QI2_XS / 2, block_iq2_xs, 1>(vx, vy, dst, ncols,
														
 
															-                                                                                               nrows, item_ct1);
														
 
															-                              });
														
 
															+        stream->submit([&](sycl::handler & cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq2_xs_q8_1<QK_K, QI2_XS/2, block_iq2_xs, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -829,12 +878,15 @@ static void mul_mat_vec_iq2_s_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq2_s_q8_1<QK_K, QI2_S / 2, block_iq2_s, 1>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                            item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq2_s_q8_1<QK_K, QI2_S/2, block_iq2_s, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -848,12 +900,15 @@ static void mul_mat_vec_iq3_xxs_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq3_xxs_q8_1<QK_K, QI3_XXS / 2, block_iq3_xxs, 1>(vx, vy, dst, ncols,
														
 
															-                                                                                                  nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq3_xxs_q8_1<QK_K, QI3_XXS/2, block_iq3_xxs, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -867,12 +922,15 @@ static void mul_mat_vec_iq3_s_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq3_s_q8_1<QK_K, QI3_S / 2, block_iq3_s, 1>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                            item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq3_s_q8_1<QK_K, QI3_S/2, block_iq3_s, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -886,12 +944,15 @@ static void mul_mat_vec_iq1_s_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq1_s_q8_1<QK_K, QI1_S, block_iq1_s, 1>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                        item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq1_s_q8_1<QK_K, QI1_S, block_iq1_s, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -905,12 +966,14 @@ static void mul_mat_vec_iq1_m_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq1_m_q8_1<QK_K, QI1_S, block_iq1_m, 1>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                        item_ct1);
														
 
															-                              });
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq1_m_q8_1<QK_K, QI1_S, block_iq1_m, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -924,12 +987,15 @@ static void mul_mat_vec_iq4_nl_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq4_nl_q8_1<QK4_NL, QI4_NL, block_iq4_nl, 2>(vx, vy, dst, ncols, nrows,
														
 
															-                                                                                             item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq4_nl_q8_1<QK4_NL, QI4_NL, block_iq4_nl, 2>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
@@ -943,12 +1009,15 @@ static void mul_mat_vec_iq4_xs_q8_1_sycl(const void *vx, const void *vy,
 
															     const sycl::range<3> block_nums(1, 1, block_num_y);
														
 
															     const sycl::range<3> block_dims(1, GGML_SYCL_MMV_Y, WARP_SIZE);
														
 
															     {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  mul_mat_vec_q_iq4_xs_q8_1<QK_K, QI4_XS / 4, block_iq4_xs, 1>(vx, vy, dst, ncols,
														
 
															-                                                                                               nrows, item_ct1);
														
 
															-                              });
														
 
															+
														
 
															+        stream->submit([&](sycl::handler &cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                    [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                        mul_mat_vec_q_iq4_xs_q8_1<QK_K, QI4_XS/4, block_iq4_xs, 1>(
														
 
															+                            vx, vy, dst, ncols, nrows, item_ct1);
														
 
															+                    });
														
 
															         });
														
 
															     }
														
 
															 }
														
--- a/ggml/src/ggml-sycl/norm.cpp
+++ b/ggml/src/ggml-sycl/norm.cpp
@@ -254,13 +254,14 @@ static void norm_f32_sycl(const float * x, float * dst, const int ncols, const i
 
															     GGML_ASSERT(ncols % WARP_SIZE == 0);
														
 
															     if (ncols < 1024) {
														
 
															         const sycl::range<3> block_dims(1, 1, WARP_SIZE);
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1,
														
 
															-                                           nullptr, WARP_SIZE);
														
 
															-                              });
														
 
															-        });
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1, nullptr, WARP_SIZE);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															     else {
														
 
															         const int work_group_size = ggml_sycl_info().max_work_group_sizes[device];
														
@@ -271,15 +272,16 @@ static void norm_f32_sycl(const float * x, float * dst, const int ncols, const i
 
															         the limit. To get the device limit, query
														
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<sycl::float2, 1> s_sum_acc_ct1(
														
 
															                             sycl::range<1>(work_group_size / WARP_SIZE), cgh);
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1,
														
 
															-                                           get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															-                              });
														
 
															-        });
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1, get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -288,14 +290,18 @@ static void group_norm_f32_sycl(const float* x, float* dst,
 
															     const int ne_elements, queue_ptr stream, int device) {
														
 
															     if (group_size < 1024) {
														
 
															         const sycl::range<3> block_dims(1, 1, WARP_SIZE);
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             const float eps_ct4 = eps;
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, num_groups) * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  group_norm_f32(x, dst, group_size, ne_elements, eps_ct4, item_ct1, nullptr,
														
 
															-                                                 WARP_SIZE);
														
 
															-                              });
														
 
															-        });
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(sycl::range<3>(1, 1, num_groups) * block_dims,
														
 
															+                    block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    group_norm_f32(
														
 
															+                        x, dst, group_size, ne_elements, eps_ct4, item_ct1,
														
 
															+                        nullptr, WARP_SIZE);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															     else {
														
 
															         const int work_group_size = ggml_sycl_info().max_work_group_sizes[device];
														
@@ -307,18 +313,22 @@ static void group_norm_f32_sycl(const float* x, float* dst,
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> s_sum_acc_ct1(sycl::range<1>(work_group_size / WARP_SIZE),
														
 
															                 cgh);
														
 
															             const float eps_ct4 = eps;
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, num_groups) * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  group_norm_f32(x, dst, group_size, ne_elements, eps_ct4, item_ct1,
														
 
															-                                                 get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															-                              });
														
 
															-        });
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(sycl::range<3>(1, 1, num_groups) * block_dims,
														
 
															+                    block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    group_norm_f32(x, dst, group_size, ne_elements,
														
 
															+                        eps_ct4, item_ct1,
														
 
															+                        get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -330,13 +340,14 @@ static void rms_norm_f32_sycl(const float* x, float* dst, const int ncols, const
 
															     const sycl::range<3> global_dims(nsamples, nchannels, nrows);
														
 
															     if (ncols < 1024) {
														
 
															         const sycl::range<3> block_dims(1, 1, WARP_SIZE);
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  rms_norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1,
														
 
															-                                               nullptr, WARP_SIZE);
														
 
															-                              });
														
 
															-        });
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    rms_norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1, nullptr, WARP_SIZE);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															     else {
														
 
															         const int work_group_size = ggml_sycl_info().max_work_group_sizes[device];
														
@@ -347,15 +358,16 @@ static void rms_norm_f32_sycl(const float* x, float* dst, const int ncols, const
 
															         the limit. To get the device limit, query
														
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> s_sum_acc_ct1(sycl::range<1>(work_group_size / WARP_SIZE),
														
 
															                 cgh);
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  rms_norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1,
														
 
															-                                               get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															-                              });
														
 
															-        });
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(global_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    rms_norm_f32(x, dst, ncols, stride_row, stride_channel, stride_sample, eps, item_ct1, get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															 }
														
@@ -366,12 +378,16 @@ static void l2_norm_f32_sycl(const float* x, float* dst, const int ncols,
 
															     // printf("%s ncols=%d, nrows=%d, WARP_SIZE=%d\n", __func__, ncols, nrows, WARP_SIZE);
														
 
															     if (ncols < 1024) {
														
 
															         const sycl::range<3> block_dims(1, 1, WARP_SIZE);
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  l2_norm_f32(x, dst, ncols, eps, item_ct1, nullptr, WARP_SIZE);
														
 
															-                              });
														
 
															-        });
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims,
														
 
															+                    block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    l2_norm_f32(x, dst, ncols, eps, item_ct1,
														
 
															+                        nullptr, WARP_SIZE);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															     else {
														
 
															         const int work_group_size = ggml_sycl_info().max_work_group_sizes[device];
														
@@ -382,15 +398,18 @@ static void l2_norm_f32_sycl(const float* x, float* dst, const int ncols,
 
															         the limit. To get the device limit, query
														
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> s_sum_acc_ct1(sycl::range<1>(work_group_size / WARP_SIZE),
														
 
															                 cgh);
														
 
															-            sycl_parallel_for(cgh, sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims, block_dims),
														
 
															-                              [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															-                                  l2_norm_f32(x, dst, ncols, eps, item_ct1, get_pointer(s_sum_acc_ct1),
														
 
															-                                              work_group_size);
														
 
															-                              });
														
 
															-        });
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(sycl::range<3>(1, 1, nrows) * block_dims,
														
 
															+                    block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1)
														
 
															+                [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															+                    l2_norm_f32(x, dst, ncols, eps, item_ct1,
														
 
															+                        get_pointer(s_sum_acc_ct1), work_group_size);
														
 
															+                });
														
 
															+            });
														
 
															     }
														
 
															 }
														
--- a/ggml/src/ggml-sycl/rope.cpp
+++ b/ggml/src/ggml-sycl/rope.cpp
@@ -232,22 +232,20 @@ static void rope_norm_sycl(const T * x, T * dst, const int ne0, const int ne1, c
 
															         the limit. To get the device limit, query
														
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) {
														
 
															-                              rope_norm<T, false>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor,
														
 
															-                                                  attn_factor, corr_dims, theta_scale, freq_factors, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            rope_norm<T, false>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor, corr_dims,
														
 
															+                                theta_scale, freq_factors, item_ct1);
														
 
															+        });
														
 
															     } else {
														
 
															         /*
														
 
															         DPCT1049:41: The work-group size passed to the SYCL kernel may exceed
														
 
															         the limit. To get the device limit, query
														
 
															         info::device::max_work_group_size. Adjust the work-group size if needed.
														
 
															         */
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) {
														
 
															-                              rope_norm<T, true>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor,
														
 
															-                                                 attn_factor, corr_dims, theta_scale, freq_factors, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            rope_norm<T, true>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor, corr_dims,
														
 
															+                               theta_scale, freq_factors, item_ct1);
														
 
															+        });
														
 
															     }
														
 
															 }
														
@@ -266,17 +264,15 @@ static void rope_neox_sycl(const T * x, T * dst, const int ne0, const int ne1, c
 
															     dpct::has_capability_or_fail(stream->get_device(), { sycl::aspect::fp16 });
														
 
															     if (freq_factors == nullptr) {
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) {
														
 
															-                              rope_neox<T, false>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor,
														
 
															-                                                  attn_factor, corr_dims, theta_scale, freq_factors, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            rope_neox<T, false>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor, corr_dims,
														
 
															+                                theta_scale, freq_factors, item_ct1);
														
 
															+        });
														
 
															     } else {
														
 
															-        sycl_parallel_for(stream, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															-                          [=](sycl::nd_item<3> item_ct1) {
														
 
															-                              rope_neox<T, true>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor,
														
 
															-                                                 attn_factor, corr_dims, theta_scale, freq_factors, item_ct1);
														
 
															-                          });
														
 
															+        stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            rope_neox<T, true>(x, dst, ne0, ne1, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor, corr_dims,
														
 
															+                               theta_scale, freq_factors, item_ct1);
														
 
															+        });
														
 
															     }
														
 
															 }
														
@@ -299,12 +295,12 @@ static void rope_multi_sycl(const T * x, T * dst, const int ne0, const int ne1,
 
															     }
														
 
															     // launch kernel
														
 
															     if (freq_factors == nullptr) {
														
 
															-        sycl_parallel_for(stream, nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															+        stream->parallel_for(nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															             rope_multi<T, false>(x, dst, ne0, ne1, ne2, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor,
														
 
															                                   corr_dims, theta_scale, freq_factors, sections, item_ct1);
														
 
															         });
														
 
															     } else {
														
 
															-        sycl_parallel_for(stream, nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															+        stream->parallel_for(nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															             rope_multi<T, true>(x, dst, ne0, ne1, ne2, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor,
														
 
															                                  corr_dims, theta_scale, freq_factors, sections, item_ct1);
														
 
															         });
														
@@ -334,12 +330,12 @@ static void rope_vision_sycl(const T * x, T * dst, const int ne0, const int ne1,
 
															     }
														
 
															     // launch kernel
														
 
															     if (freq_factors == nullptr) {
														
 
															-        sycl_parallel_for(stream, nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															+        stream->parallel_for(nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															             rope_vision<T, false>(x, dst, ne0, ne1, ne2, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor,
														
 
															                                   corr_dims, theta_scale, freq_factors, sections, item_ct1);
														
 
															         });
														
 
															     } else {
														
 
															-        sycl_parallel_for(stream, nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															+        stream->parallel_for(nd_range, [=](sycl::nd_item<3> item_ct1) {
														
 
															             rope_vision<T, true>(x, dst, ne0, ne1, ne2, s1, s2, n_dims, pos, freq_scale, ext_factor, attn_factor,
														
 
															                                  corr_dims, theta_scale, freq_factors, sections, item_ct1);
														
 
															         });
														
--- a/ggml/src/ggml-sycl/set_rows.cpp
+++ b/ggml/src/ggml-sycl/set_rows.cpp
@@ -48,7 +48,7 @@ static void set_rows_sycl_q(const char * __restrict__ src0_d,
 
															     constexpr int block_size   = 256;
														
 
															     const int64_t grid_size    = ceil_div(total_blocks, block_size);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<1>(grid_size * block_size, block_size), [=](sycl::nd_item<1> item_ct1) {
														
 
															+    stream->parallel_for(sycl::nd_range<1>(grid_size * block_size, block_size), [=](sycl::nd_item<1> item_ct1) {
														
 
															         const int64_t i = item_ct1.get_global_linear_id();
														
 
															         if (i >= total_blocks) {
														
 
															             return;
														
@@ -129,8 +129,7 @@ static void set_rows_sycl(
 
															     constexpr int block_size = 64;
														
 
															     const int64_t grid_size = ceil_div(total_elements, block_size);
														
 
															-    sycl_parallel_for(
														
 
															-        stream,
														
 
															+    stream->parallel_for(
														
 
															         sycl::nd_range<1>(grid_size * block_size, block_size),
														
 
															         [=](sycl::nd_item<1> item_ct1) {
														
 
															             k_set_rows<TIn, TOut>(
														
--- a/ggml/src/ggml-sycl/softmax.cpp
+++ b/ggml/src/ggml-sycl/softmax.cpp
@@ -127,11 +127,11 @@ static void soft_max_f32_submitter(const float * x, const T * mask, float * dst,
 
															                                    const int nrows_y, const float scale, const float max_bias, const float m0,
														
 
															                                    const float m1, uint32_t n_head_log2, sycl::range<3> block_nums, sycl::range<3> block_dims,
														
 
															                                    const size_t n_local_scratch, queue_ptr stream) {
														
 
															-    sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+    stream->submit([&](sycl::handler &cgh) {
														
 
															         sycl::local_accessor<float, 1> local_buf_acc(n_local_scratch, cgh);
														
 
															-        sycl_parallel_for(
														
 
															-            cgh, sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															+        cgh.parallel_for(
														
 
															+            sycl::nd_range<3>(block_nums * block_dims, block_dims),
														
 
															             [=](sycl::nd_item<3> item_ct1) [[sycl::reqd_sub_group_size(WARP_SIZE)]] {
														
 
															                 soft_max_f32<vals_smem, ncols_template, block_size_template>(x, mask, dst, ncols_par,
														
 
															                                                                              nrows_y, scale, max_bias, m0,
														
--- a/ggml/src/ggml-sycl/tsembd.cpp
+++ b/ggml/src/ggml-sycl/tsembd.cpp
@@ -45,9 +45,14 @@ static void timestep_embedding_f32_sycl(
 
															     int num_blocks = (half_ceil + SYCL_TIMESTEP_EMBEDDING_BLOCK_SIZE - 1) / SYCL_TIMESTEP_EMBEDDING_BLOCK_SIZE;
														
 
															     sycl::range<3> block_dims(1, 1, SYCL_TIMESTEP_EMBEDDING_BLOCK_SIZE);
														
 
															     sycl::range<3> gridDim(1, ne00, num_blocks);
														
 
															-    sycl_parallel_for(stream, sycl::nd_range<3>(gridDim * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															-        timestep_embedding_f32(x, dst, nb1, dim, max_period, item_ct1);
														
 
															-    });
														
 
															+    stream->parallel_for(
														
 
															+        sycl::nd_range<3>(
														
 
															+            gridDim * block_dims, block_dims),
														
 
															+        [=](sycl::nd_item<3> item_ct1) {
														
 
															+            timestep_embedding_f32(
														
 
															+                x, dst, nb1, dim, max_period, item_ct1
														
 
															+            );
														
 
															+        });
														
 
															 }
														
 
															 void ggml_sycl_op_timestep_embedding(ggml_backend_sycl_context & ctx, ggml_tensor * dst) {
														
--- a/ggml/src/ggml-sycl/wkv.cpp
+++ b/ggml/src/ggml-sycl/wkv.cpp
@@ -207,11 +207,12 @@ void ggml_sycl_op_rwkv_wkv6(ggml_backend_sycl_context& ctx, ggml_tensor* dst) {
 
															     // Submit kernel
														
 
															     if (C / H == WKV_BLOCK_SIZE) {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> shared_mem_acc(shared_mem_size, cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     rwkv_wkv6_f32_kernel<WKV_BLOCK_SIZE>(
														
 
															                         B, T, C, H, k_d, v_d, r_d, tf_d, td_d, s_d, dst_d,
														
 
															                         item_ct1, (float*)shared_mem_acc.get_multi_ptr<sycl::access::decorated::no>().get()
														
@@ -219,11 +220,12 @@ void ggml_sycl_op_rwkv_wkv6(ggml_backend_sycl_context& ctx, ggml_tensor* dst) {
 
															                 });
														
 
															         });
														
 
															     } else {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> shared_mem_acc(shared_mem_size, cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     rwkv_wkv6_f32_kernel<WKV_BLOCK_SIZE * 2>(
														
 
															                         B, T, C, H, k_d, v_d, r_d, tf_d, td_d, s_d, dst_d,
														
 
															                         item_ct1, (float*)shared_mem_acc.get_multi_ptr<sycl::access::decorated::no>().get()
														
@@ -262,11 +264,12 @@ void ggml_sycl_op_rwkv_wkv7(ggml_backend_sycl_context& ctx, ggml_tensor* dst) {
 
															     // Submit kernel
														
 
															     if (C / H == WKV_BLOCK_SIZE) {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> shared_mem_acc(shared_mem_size, cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     rwkv_wkv7_f32_kernel<WKV_BLOCK_SIZE>(
														
 
															                         B, T, C, H, r_d, w_d, k_d, v_d, a_d, b_d, s_d, dst_d,
														
 
															                         item_ct1, (float*)shared_mem_acc.get_multi_ptr<sycl::access::decorated::no>().get()
														
@@ -274,11 +277,12 @@ void ggml_sycl_op_rwkv_wkv7(ggml_backend_sycl_context& ctx, ggml_tensor* dst) {
 
															                 });
														
 
															         });
														
 
															     } else {
														
 
															-        sycl_launch(stream, [&](sycl::handler & cgh) {
														
 
															+        stream->submit([&](sycl::handler& cgh) {
														
 
															             sycl::local_accessor<float, 1> shared_mem_acc(shared_mem_size, cgh);
														
 
															-            sycl_parallel_for(
														
 
															-                cgh, sycl::nd_range<3>(grid_dims * block_dims, block_dims), [=](sycl::nd_item<3> item_ct1) {
														
 
															+            cgh.parallel_for(
														
 
															+                sycl::nd_range<3>(grid_dims * block_dims, block_dims),
														
 
															+                [=](sycl::nd_item<3> item_ct1) {
														
 
															                     rwkv_wkv7_f32_kernel<WKV_BLOCK_SIZE * 2>(
														
 
															                         B, T, C, H, r_d, w_d, k_d, v_d, a_d, b_d, s_d, dst_d,
														
 
															                         item_ct1, (float*)shared_mem_acc.get_multi_ptr<sycl::access::decorated::no>().get()