1 éve · 5a54af4d4f
--- a/.github/workflows/build.yml
+++ b/.github/workflows/build.yml
@@ -930,7 +930,7 @@ jobs:
 
				         shell: bash
			
 
				 
			
 
				     env:
			
 
				-      WINDOWS_BASEKIT_URL: https://registrationcenter-download.intel.com/akdlm/IRC_NAS/7dff44ba-e3af-4448-841c-0d616c8da6e7/w_BaseKit_p_2024.1.0.595_offline.exe
			
 
				+      WINDOWS_BASEKIT_URL: https://registrationcenter-download.intel.com/akdlm/IRC_NAS/b380d914-366b-4b77-a74a-05e3c38b3514/intel-oneapi-base-toolkit-2025.0.0.882_offline.exe
			
 
				       WINDOWS_DPCPP_MKL: intel.oneapi.win.cpp-dpcpp-common:intel.oneapi.win.mkl.devel
			
 
				       ONEAPI_ROOT: "C:/Program Files (x86)/Intel/oneAPI"
			
 
				     steps:
			
--- a/docs/backend/SYCL.md
+++ b/docs/backend/SYCL.md
@@ -41,6 +41,8 @@ The following release is verified with good quality:
 
				 
			
 
				 ## News
			
 
				 
			
 
				+- 2024.11
			
 
				+  - Use syclcompat to improve the performance on some platforms. This requires to use oneAPI 2025.0 or newer.
			
 
				 
			
 
				 - 2024.8
			
 
				   - Use oneDNN as the default GEMM library, improve the compatibility for new Intel GPUs.
			
--- a/ggml/src/ggml-sycl/dpct/helper.hpp
+++ b/ggml/src/ggml-sycl/dpct/helper.hpp
@@ -15,6 +15,7 @@
 
				 
			
 
				 #include <sycl/sycl.hpp>
			
 
				 #include <sycl/half_type.hpp>
			
 
				+#include <syclcompat/math.hpp>
			
 
				 #include <oneapi/mkl.hpp>
			
 
				 #include <map>
			
 
				 
			
@@ -1830,31 +1831,10 @@ namespace dpct
 
				                                            : id);
			
 
				     }
			
 
				 
			
 
				-    template <typename T>
			
 
				-    sycl::vec<T, 4> extract_and_sign_or_zero_extend4(T val)
			
 
				-    {
			
 
				-        return sycl::vec<T, 1>(val)
			
 
				-            .template as<sycl::vec<
			
 
				-                std::conditional_t<std::is_signed_v<T>, int8_t, uint8_t>, 4>>()
			
 
				-            .template convert<T>();
			
 
				-    }
			
 
				-
			
 
				-    template <typename T1, typename T2>
			
 
				-    using dot_product_acc_t =
			
 
				-        std::conditional_t<std::is_unsigned_v<T1> && std::is_unsigned_v<T2>,
			
 
				-                           uint32_t, int32_t>;
			
 
				-
			
 
				     template <typename T1, typename T2, typename T3>
			
 
				     inline auto dp4a(T1 a, T2 b, T3 c)
			
 
				     {
			
 
				-        dot_product_acc_t<T1, T2> res = c;
			
 
				-        auto va = extract_and_sign_or_zero_extend4(a);
			
 
				-        auto vb = extract_and_sign_or_zero_extend4(b);
			
 
				-        res += va[0] * vb[0];
			
 
				-        res += va[1] * vb[1];
			
 
				-        res += va[2] * vb[2];
			
 
				-        res += va[3] * vb[3];
			
 
				-        return res;
			
 
				+        return syclcompat::dp4a(a, b, c);
			
 
				     }
			
 
				 
			
 
				     struct sub_sat
			
--- a/ggml/src/ggml-sycl/vecdotq.hpp
+++ b/ggml/src/ggml-sycl/vecdotq.hpp
@@ -968,8 +968,8 @@ vec_dot_iq3_xxs_q8_1(const void *__restrict__ vbq,
 
				             grid1[0] ^ signs[0], signs[0], std::minus<>());
			
 
				         const int grid_h = dpct::vectorized_binary<sycl::uchar4>(
			
 
				             grid2[0] ^ signs[1], signs[1], std::minus<>());
			
 
				-        sumi = dpct::dp4a(grid_l, *((int *)q8 + 0), sumi);
			
 
				-        sumi = dpct::dp4a(grid_h, *((int *)q8 + 1), sumi);
			
 
				+        sumi = dpct::dp4a(grid_l, *((const int *)q8 + 0), sumi);
			
 
				+        sumi = dpct::dp4a(grid_h, *((const int *)q8 + 1), sumi);
			
 
				         q8 += 8;
			
 
				         aux32 >>= 7;
			
 
				     }
			
@@ -1009,8 +1009,8 @@ vec_dot_iq3_s_q8_1(const void *__restrict__ vbq,
 
				             grid1[0] ^ signs0, signs0, std::minus<>());
			
 
				         const int grid_h = dpct::vectorized_binary<sycl::uchar4>(
			
 
				             grid2[0] ^ signs1, signs1, std::minus<>());
			
 
				-        sumi = dpct::dp4a(grid_l, *((int *)q8 + 0), sumi);
			
 
				-        sumi = dpct::dp4a(grid_h, *((int *)q8 + 1), sumi);
			
 
				+        sumi = dpct::dp4a(grid_l, *((const int *)q8 + 0), sumi);
			
 
				+        sumi = dpct::dp4a(grid_h, *((const int *)q8 + 1), sumi);
			
 
				         q8 += 8;
			
 
				     }
			
 
				     const float d =