2 luni în urmă · ece0f5c177
--- a/ggml/src/ggml-opencl/ggml-opencl.cpp
+++ b/ggml/src/ggml-opencl/ggml-opencl.cpp
@@ -53,6 +53,37 @@
 
				 
			
 
				 bool ggml_cl_compute_forward(ggml_backend_t backend, struct ggml_tensor * tensor);
			
 
				 
			
 
				+// See https://gmplib.org/~tege/divcnst-pldi94.pdf figure 4.1.
			
 
				+// Precompute mp (m' in the paper) and L such that division
			
 
				+// can be computed using a multiply (high 32b of 64b result)
			
 
				+// and a shift:
			
 
				+//
			
 
				+// n/d = (mulhi(n, mp) + n) >> L;
			
 
				+struct fastdiv_vals {
			
 
				+    uint32_t mp;
			
 
				+    uint32_t L;
			
 
				+    uint32_t d;
			
 
				+    uint32_t pad;
			
 
				+};
			
 
				+static_assert(sizeof(fastdiv_vals) == 16, "fastdiv_vals size incorrect");
			
 
				+
			
 
				+static fastdiv_vals init_fastdiv_values(uint64_t d_64) {
			
 
				+    GGML_ASSERT(d_64 != 0);
			
 
				+    GGML_ASSERT(d_64 <= std::numeric_limits<uint32_t>::max());
			
 
				+
			
 
				+    uint32_t d = (uint32_t)d_64;
			
 
				+
			
 
				+    // compute L = ceil(log2(d));
			
 
				+    uint32_t L = 0;
			
 
				+    while (L < 32 && (uint32_t{ 1 } << L) < d) {
			
 
				+        L++;
			
 
				+    }
			
 
				+
			
 
				+    uint32_t mp = (uint32_t) ((uint64_t{ 1 } << 32) * ((uint64_t{ 1 } << L) - d) / d + 1);
			
 
				+    // pack divisor as well to reduce error surface
			
 
				+    return { mp, L, d, 0 };
			
 
				+}
			
 
				+
			
 
				 enum GPU_FAMILY {
			
 
				     ADRENO,
			
 
				     INTEL,
			
@@ -4464,6 +4495,9 @@ static void ggml_cl_set_rows(ggml_backend_t backend, const ggml_tensor * src0, c
 
				             GGML_ABORT("not implemented");
			
 
				     }
			
 
				 
			
 
				+    fastdiv_vals ne11_ = init_fastdiv_values(ne11);
			
 
				+    fastdiv_vals ne12_ = init_fastdiv_values(ne12);
			
 
				+
			
 
				     CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
			
 
				     CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
			
 
				     CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
			
@@ -4474,8 +4508,8 @@ static void ggml_cl_set_rows(ggml_backend_t backend, const ggml_tensor * src0, c
 
				     CL_CHECK(clSetKernelArg(kernel,  7, sizeof(cl_ulong), &nb01));
			
 
				     CL_CHECK(clSetKernelArg(kernel,  8, sizeof(cl_ulong), &nb02));
			
 
				     CL_CHECK(clSetKernelArg(kernel,  9, sizeof(cl_ulong), &nb03));
			
 
				-    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne11));
			
 
				-    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne12));
			
 
				+    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(fastdiv_vals), &ne11_));
			
 
				+    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(fastdiv_vals), &ne12_));
			
 
				     CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb10));
			
 
				     CL_CHECK(clSetKernelArg(kernel, 13, sizeof(cl_ulong), &nb11));
			
 
				     CL_CHECK(clSetKernelArg(kernel, 14, sizeof(cl_ulong), &nb12));
			
--- a/ggml/src/ggml-opencl/kernels/set_rows.cl
+++ b/ggml/src/ggml-opencl/kernels/set_rows.cl
@@ -1,5 +1,16 @@
 
				 #pragma OPENCL EXTENSION cl_khr_fp16 : enable
			
 
				 
			
 
				+// v = { mp, L, d }
			
 
				+inline uint fastdiv(uint n, uint4 v) {
			
 
				+    uint msbs;
			
 
				+    msbs = mul_hi(n, v.s0);
			
 
				+    return (msbs + n) >> v.s1;
			
 
				+}
			
 
				+inline uint fastmod(uint n, uint4 v) {
			
 
				+    uint q = fastdiv(n, v);
			
 
				+    return n - q * v.s2;
			
 
				+}
			
 
				+
			
 
				 kernel void kernel_set_rows_f32_i64(
			
 
				         global char * src0,
			
 
				         ulong         offset0,
			
@@ -11,8 +22,8 @@ kernel void kernel_set_rows_f32_i64(
 
				         ulong         nb01,
			
 
				         ulong         nb02,
			
 
				         ulong         nb03,
			
 
				-        int           ne11,
			
 
				-        int           ne12,
			
 
				+        uint4         ne11,
			
 
				+        uint4         ne12,
			
 
				         ulong         nb10,
			
 
				         ulong         nb11,
			
 
				         ulong         nb12,
			
@@ -33,8 +44,10 @@ kernel void kernel_set_rows_f32_i64(
 
				         return;
			
 
				     }
			
 
				 
			
 
				-    int i12 = i03%ne12;
			
 
				-    int i11 = i02%ne11;
			
 
				+    //int i12 = i03%ne12;
			
 
				+    //int i11 = i02%ne11;
			
 
				+    int i12 = fastmod(i03, ne12);
			
 
				+    int i11 = fastmod(i02, ne11);
			
 
				 
			
 
				     int i10 = i01;
			
 
				     long i1 = ((global long *)(src1 + i10*nb10 + i11*nb11 + i12*nb12))[0];
			
@@ -58,8 +71,8 @@ kernel void kernel_set_rows_f16_i64(
 
				         ulong         nb01,
			
 
				         ulong         nb02,
			
 
				         ulong         nb03,
			
 
				-        int           ne11,
			
 
				-        int           ne12,
			
 
				+        uint4         ne11,
			
 
				+        uint4         ne12,
			
 
				         ulong         nb10,
			
 
				         ulong         nb11,
			
 
				         ulong         nb12,
			
@@ -80,8 +93,10 @@ kernel void kernel_set_rows_f16_i64(
 
				         return;
			
 
				     }
			
 
				 
			
 
				-    int i12 = i03%ne12;
			
 
				-    int i11 = i02%ne11;
			
 
				+    //int i12 = i03%ne12;
			
 
				+    //int i11 = i02%ne11;
			
 
				+    int i12 = fastmod(i03, ne12);
			
 
				+    int i11 = fastmod(i02, ne11);
			
 
				 
			
 
				     int i10 = i01;
			
 
				     long i1 = ((global long *)(src1 + i10*nb10 + i11*nb11 + i12*nb12))[0];
			
@@ -105,8 +120,8 @@ kernel void kernel_set_rows_f32_i32(
 
				         ulong         nb01,
			
 
				         ulong         nb02,
			
 
				         ulong         nb03,
			
 
				-        int           ne11,
			
 
				-        int           ne12,
			
 
				+        uint4         ne11,
			
 
				+        uint4         ne12,
			
 
				         ulong         nb10,
			
 
				         ulong         nb11,
			
 
				         ulong         nb12,
			
@@ -127,8 +142,10 @@ kernel void kernel_set_rows_f32_i32(
 
				         return;
			
 
				     }
			
 
				 
			
 
				-    int i12 = i03%ne12;
			
 
				-    int i11 = i02%ne11;
			
 
				+    //int i12 = i03%ne12;
			
 
				+    //int i11 = i02%ne11;
			
 
				+    int i12 = fastmod(i03, ne12);
			
 
				+    int i11 = fastmod(i02, ne11);
			
 
				 
			
 
				     int i10 = i01;
			
 
				     int i1  = ((global int *)(src1 + i10*nb10 + i11*nb11 + i12*nb12))[0];
			
@@ -152,8 +169,8 @@ kernel void kernel_set_rows_f16_i32(
 
				         ulong         nb01,
			
 
				         ulong         nb02,
			
 
				         ulong         nb03,
			
 
				-        int           ne11,
			
 
				-        int           ne12,
			
 
				+        uint4         ne11,
			
 
				+        uint4         ne12,
			
 
				         ulong         nb10,
			
 
				         ulong         nb11,
			
 
				         ulong         nb12,
			
@@ -174,8 +191,10 @@ kernel void kernel_set_rows_f16_i32(
 
				         return;
			
 
				     }
			
 
				 
			
 
				-    int i12 = i03%ne12;
			
 
				-    int i11 = i02%ne11;
			
 
				+    //int i12 = i03%ne12;
			
 
				+    //int i11 = i02%ne11;
			
 
				+    int i12 = fastmod(i03, ne12);
			
 
				+    int i11 = fastmod(i02, ne11);
			
 
				 
			
 
				     int i10 = i01;
			
 
				     int i1  = ((global int *)(src1 + i10*nb10 + i11*nb11 + i12*nb12))[0];