1 год назад · 43b35e38ba
--- a/examples/cvector-generator/pca.hpp
+++ b/examples/cvector-generator/pca.hpp
@@ -64,15 +64,15 @@ struct pca_model {
 
															     struct ggml_tensor * dev_eigenvector;
														
 
															     pca_model(struct ggml_tensor * t_input) {
														
 
															-// TODO: enable GPU support when support for GGML_OP_SQRT is added
														
 
															-// #ifdef GGML_USE_CUDA
														
 
															-//         fprintf(stderr, "%s: using CUDA backend\n", __func__);
														
 
															-//         backend = ggml_backend_cuda_init(0); // init device 0
														
 
															-//         if (!backend) {
														
 
															-//             fprintf(stderr, "%s: ggml_backend_cuda_init() failed\n", __func__);
														
 
															-//         }
														
 
															-// #endif
														
 
															+#ifdef GGML_USE_CUDA
														
 
															+        fprintf(stderr, "%s: using CUDA backend\n", __func__);
														
 
															+        backend = ggml_backend_cuda_init(0); // init device 0
														
 
															+        if (!backend) {
														
 
															+            fprintf(stderr, "%s: ggml_backend_cuda_init() failed\n", __func__);
														
 
															+        }
														
 
															+#endif
														
 
															+// TODO: enable Metal support when support for GGML_OP_SQRT is added
														
 
															 // #ifdef GGML_USE_METAL
														
 
															 //         fprintf(stderr, "%s: using Metal backend\n", __func__);
														
 
															 //         backend = ggml_backend_metal_init();
														
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -2267,6 +2267,9 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
 
															         case GGML_OP_SQR:
														
 
															             ggml_cuda_op_sqr(ctx, dst);
														
 
															             break;
														
 
															+        case GGML_OP_SQRT:
														
 
															+            ggml_cuda_op_sqrt(ctx, dst);
														
 
															+            break;
														
 
															         case GGML_OP_CLAMP:
														
 
															             ggml_cuda_op_clamp(ctx, dst);
														
 
															             break;
														
@@ -2830,6 +2833,7 @@ GGML_CALL static bool ggml_backend_cuda_supports_op(ggml_backend_t backend, cons
 
															         case GGML_OP_RMS_NORM:
														
 
															         case GGML_OP_SCALE:
														
 
															         case GGML_OP_SQR:
														
 
															+        case GGML_OP_SQRT:
														
 
															         case GGML_OP_CLAMP:
														
 
															         case GGML_OP_CONT:
														
 
															         case GGML_OP_DIAG_MASK_INF:
														
--- a/ggml-cuda/unary.cu
+++ b/ggml-cuda/unary.cu
@@ -92,6 +92,15 @@ static __global__ void sqr_f32(const float * x, float * dst, const int k) {
 
															     dst[i] = x[i] * x[i];
														
 
															 }
														
 
															+static __global__ void sqrt_f32(const float * x, float * dst, const int k) {
														
 
															+    const int i = blockDim.x*blockIdx.x + threadIdx.x;
														
 
															+
														
 
															+    if (i >= k) {
														
 
															+        return;
														
 
															+    }
														
 
															+    dst[i] = sqrtf(x[i]);
														
 
															+}
														
 
															+
														
 
															 static void gelu_f32_cuda(const float * x, float * dst, const int k, cudaStream_t stream) {
														
 
															     const int num_blocks = (k + CUDA_GELU_BLOCK_SIZE - 1) / CUDA_GELU_BLOCK_SIZE;
														
 
															     gelu_f32<<<num_blocks, CUDA_GELU_BLOCK_SIZE, 0, stream>>>(x, dst, k);
														
@@ -142,6 +151,11 @@ static void sqr_f32_cuda(const float * x, float * dst, const int k, cudaStream_t
 
															     sqr_f32<<<num_blocks, CUDA_SQR_BLOCK_SIZE, 0, stream>>>(x, dst, k);
														
 
															 }
														
 
															+static void sqrt_f32_cuda(const float * x, float * dst, const int k, cudaStream_t stream) {
														
 
															+    const int num_blocks = (k + CUDA_SQRT_BLOCK_SIZE - 1) / CUDA_SQRT_BLOCK_SIZE;
														
 
															+    sqrt_f32<<<num_blocks, CUDA_SQRT_BLOCK_SIZE, 0, stream>>>(x, dst, k);
														
 
															+}
														
 
															+
														
 
															 void ggml_cuda_op_gelu(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
														
 
															     const ggml_tensor * src0 = dst->src[0];
														
 
															     const float * src0_d = (const float *)src0->data;
														
@@ -284,3 +298,17 @@ void ggml_cuda_op_sqr(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
 
															     sqr_f32_cuda(src0_d, dst_d, ggml_nelements(src0), stream);
														
 
															 }
														
 
															+
														
 
															+void ggml_cuda_op_sqrt(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
														
 
															+    const ggml_tensor * src0 = dst->src[0];
														
 
															+    const float * src0_d = (const float *)src0->data;
														
 
															+    float * dst_d = (float *)dst->data;
														
 
															+    cudaStream_t stream = ctx.stream();
														
 
															+
														
 
															+    GGML_ASSERT(ggml_is_contiguous(src0));
														
 
															+
														
 
															+    GGML_ASSERT(src0->type == GGML_TYPE_F32);
														
 
															+    GGML_ASSERT( dst->type == GGML_TYPE_F32);
														
 
															+
														
 
															+    sqrt_f32_cuda(src0_d, dst_d, ggml_nelements(src0), stream);
														
 
															+}
														
--- a/ggml-cuda/unary.cuh
+++ b/ggml-cuda/unary.cuh
@@ -8,6 +8,7 @@
 
															 #define CUDA_HARDSIGMOID_BLOCK_SIZE 256
														
 
															 #define CUDA_HARDSWISH_BLOCK_SIZE 256
														
 
															 #define CUDA_SQR_BLOCK_SIZE 256
														
 
															+#define CUDA_SQRT_BLOCK_SIZE 256
														
 
															 void ggml_cuda_op_gelu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
														
@@ -28,3 +29,5 @@ void ggml_cuda_op_hardswish(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
 
															 void ggml_cuda_op_leaky_relu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
														
 
															 void ggml_cuda_op_sqr(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
														
 
															+
														
 
															+void ggml_cuda_op_sqrt(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
														
--- a/tests/test-backend-ops.cpp
+++ b/tests/test-backend-ops.cpp
@@ -1063,6 +1063,33 @@ struct test_sqr : public test_case {
 
															     }
														
 
															 };
														
 
															+// GGML_OP_SQRT
														
 
															+struct test_sqrt : public test_case {
														
 
															+    const ggml_type type;
														
 
															+    const std::array<int64_t, 4> ne;
														
 
															+
														
 
															+    std::string vars() override {
														
 
															+        return VARS_TO_STR2(type, ne);
														
 
															+    }
														
 
															+
														
 
															+    test_sqrt(ggml_type type = GGML_TYPE_F32,
														
 
															+            std::array<int64_t, 4> ne = {10, 10, 10, 10})
														
 
															+        : type(type), ne(ne) {}
														
 
															+
														
 
															+    ggml_tensor * build_graph(ggml_context * ctx) override {
														
 
															+        ggml_tensor * a = ggml_new_tensor(ctx, type, 4, ne.data());
														
 
															+        ggml_tensor * out = ggml_sqrt(ctx, a);
														
 
															+        return out;
														
 
															+    }
														
 
															+
														
 
															+    void initialize_tensors(ggml_context * ctx) override {
														
 
															+        // fill with positive values
														
 
															+        for (ggml_tensor * t = ggml_get_first_tensor(ctx); t != NULL; t = ggml_get_next_tensor(ctx, t)) {
														
 
															+            init_tensor_uniform(t, 0.0f, 100.0f);
														
 
															+        }
														
 
															+    }
														
 
															+};
														
 
															+
														
 
															 // GGML_OP_CLAMP
														
 
															 struct test_clamp : public test_case {
														
 
															     const ggml_type type;
														
@@ -2200,6 +2227,7 @@ static bool test_backend(ggml_backend_t backend, test_mode mode, const char * op
 
															     }
														
 
															     test_cases.emplace_back(new test_sqr());
														
 
															+    test_cases.emplace_back(new test_sqrt());
														
 
															     test_cases.emplace_back(new test_clamp());
														
 
															     test_cases.emplace_back(new test_diag_mask_inf(GGML_TYPE_F32, {10, 10,  1,  1}, 5));