9 tháng trước cách đây · ff067dbcb9
--- a/ggml/src/ggml-cpu/ggml-cpu-impl.h
+++ b/ggml/src/ggml-cpu/ggml-cpu-impl.h
@@ -4,13 +4,13 @@
 
				 
			
 
				 #include "ggml.h"
			
 
				 #include "ggml-impl.h"
			
 
				+
			
 
				 #include <stdlib.h> // load `stdlib.h` before other headers to work around MinGW bug: https://sourceforge.net/p/mingw-w64/bugs/192/
			
 
				 //#include <stddef.h>
			
 
				 #include <stdbool.h>
			
 
				 #include <string.h> // memcpy
			
 
				 #include <math.h>   // fabsf
			
 
				 
			
 
				-
			
 
				 #ifdef __cplusplus
			
 
				 extern "C" {
			
 
				 #endif
			
@@ -69,33 +69,16 @@ struct ggml_compute_params {
 
				 #endif
			
 
				 
			
 
				 #if defined(__ARM_FEATURE_SVE)
			
 
				-#include <arm_sve.h>
			
 
				 #include <sys/prctl.h>
			
 
				 #endif
			
 
				 
			
 
				-// 16-bit float
			
 
				-// on Arm, we use __fp16
			
 
				-// on x86, we use uint16_t
			
 
				 #if defined(__ARM_NEON)
			
 
				 
			
 
				-// if YCM cannot find <arm_neon.h>, make a symbolic link to it, for example:
			
 
				-//
			
 
				-//   $ ln -sfn /Library/Developer/CommandLineTools/usr/lib/clang/13.1.6/include/arm_neon.h ./src/
			
 
				-//
			
 
				-#include <arm_neon.h>
			
 
				-
			
 
				+// ref: https://github.com/ggml-org/llama.cpp/pull/5404
			
 
				 #ifdef _MSC_VER
			
 
				-
			
 
				-typedef uint16_t ggml_fp16_internal_t;
			
 
				-
			
 
				 #define ggml_vld1q_u32(w,x,y,z) { ((w) + ((uint64_t)(x) << 32)), ((y) + ((uint64_t)(z) << 32)) }
			
 
				-
			
 
				 #else
			
 
				-
			
 
				-typedef __fp16 ggml_fp16_internal_t;
			
 
				-
			
 
				 #define ggml_vld1q_u32(w,x,y,z) { (w), (x), (y), (z) }
			
 
				-
			
 
				 #endif // _MSC_VER
			
 
				 
			
 
				 #if !defined(__aarch64__)
			
--- a/ggml/src/ggml-cpu/simd-mappings.h
+++ b/ggml/src/ggml-cpu/simd-mappings.h
@@ -71,7 +71,7 @@
 
				     #define GGML_F16x8              float16x8_t
			
 
				     #define GGML_F16x8_ZERO         vdupq_n_f16(0.0f)
			
 
				     #define GGML_F16x8_SET1(x)      vdupq_n_f16(x)
			
 
				-    #define GGML_F16x8_LOAD(x)      vld1q_f16((const ggml_fp16_internal_t *)(x))
			
 
				+    #define GGML_F16x8_LOAD(x)      vld1q_f16((const __fp16 *)(x))
			
 
				     #define GGML_F16x8_STORE        vst1q_f16
			
 
				     #define GGML_F16x8_FMA(a, b, c) vfmaq_f16(a, b, c)
			
 
				     #define GGML_F16x8_ADD          vaddq_f16
			
@@ -99,7 +99,7 @@
 
				     #define GGML_F16_VEC_ZERO           GGML_F16x8_ZERO
			
 
				     #define GGML_F16_VEC_SET1           GGML_F16x8_SET1
			
 
				     #define GGML_F16_VEC_LOAD(p, i)     GGML_F16x8_LOAD(p)
			
 
				-    #define GGML_F16_VEC_STORE(p, r, i) GGML_F16x8_STORE((ggml_fp16_internal_t *)(p), (r)[i])
			
 
				+    #define GGML_F16_VEC_STORE(p, r, i) GGML_F16x8_STORE((__fp16 *)(p), (r)[i])
			
 
				     #define GGML_F16_VEC_FMA            GGML_F16x8_FMA
			
 
				     #define GGML_F16_VEC_ADD            GGML_F16x8_ADD
			
 
				     #define GGML_F16_VEC_MUL            GGML_F16x8_MUL
			
@@ -114,7 +114,7 @@
 
				     #define GGML_F32Cx4              float32x4_t
			
 
				     #define GGML_F32Cx4_ZERO         vdupq_n_f32(0.0f)
			
 
				     #define GGML_F32Cx4_SET1(x)      vdupq_n_f32(x)
			
 
				-    #define GGML_F32Cx4_LOAD(x)      vcvt_f32_f16(vld1_f16((const ggml_fp16_internal_t *)(x)))
			
 
				+    #define GGML_F32Cx4_LOAD(x)      vcvt_f32_f16(vld1_f16((const __fp16 *)(x)))
			
 
				     #define GGML_F32Cx4_STORE(x, y)  vst1_f16(x, vcvt_f16_f32(y))
			
 
				     #define GGML_F32Cx4_FMA(a, b, c) vfmaq_f32(a, b, c)
			
 
				     #define GGML_F32Cx4_ADD          vaddq_f32
			
@@ -125,7 +125,7 @@
 
				     #define GGML_F16_VEC_ZERO           GGML_F32Cx4_ZERO
			
 
				     #define GGML_F16_VEC_SET1           GGML_F32Cx4_SET1
			
 
				     #define GGML_F16_VEC_LOAD(p, i)     GGML_F32Cx4_LOAD(p)
			
 
				-    #define GGML_F16_VEC_STORE(p, r, i) GGML_F32Cx4_STORE((ggml_fp16_internal_t *)(p), r[i])
			
 
				+    #define GGML_F16_VEC_STORE(p, r, i) GGML_F32Cx4_STORE((__fp16 *)(p), r[i])
			
 
				     #define GGML_F16_VEC_FMA            GGML_F32Cx4_FMA
			
 
				     #define GGML_F16_VEC_ADD            GGML_F32Cx4_ADD
			
 
				     #define GGML_F16_VEC_MUL            GGML_F32Cx4_MUL
			
--- a/ggml/src/ggml-impl.h
+++ b/ggml/src/ggml-impl.h
@@ -16,14 +16,6 @@
 
				 #include <arm_sve.h>
			
 
				 #endif // __ARM_FEATURE_SVE
			
 
				 
			
 
				-#if defined(__ARM_NEON) && !defined(__CUDACC__) && !defined(__MUSACC__)
			
 
				-// if YCM cannot find <arm_neon.h>, make a symbolic link to it, for example:
			
 
				-//
			
 
				-//   $ ln -sfn /Library/Developer/CommandLineTools/usr/lib/clang/13.1.6/include/arm_neon.h ./src/
			
 
				-//
			
 
				-#include <arm_neon.h>
			
 
				-#endif
			
 
				-
			
 
				 #if defined(__F16C__)
			
 
				 #include <immintrin.h>
			
 
				 #endif
			
@@ -311,29 +303,35 @@ GGML_API void ggml_aligned_free(void * ptr, size_t size);
 
				 
			
 
				 // FP16 to FP32 conversion
			
 
				 
			
 
				-#if defined(__ARM_NEON)
			
 
				-    #if defined(_MSC_VER) || (defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11)
			
 
				-        typedef uint16_t ggml_fp16_internal_t;
			
 
				-    #else
			
 
				-        typedef __fp16 ggml_fp16_internal_t;
			
 
				-    #endif
			
 
				-#endif
			
 
				+// 16-bit float
			
 
				+// on Arm, we use __fp16
			
 
				+// on x86, we use uint16_t
			
 
				+//
			
 
				+// for old CUDA compilers (<= 11), we use uint16_t: ref https://github.com/ggml-org/llama.cpp/pull/10616
			
 
				+// for     MUSA compilers        , we use uint16_t: ref https://github.com/ggml-org/llama.cpp/pull/11843
			
 
				+//
			
 
				+#if defined(__ARM_NEON) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11) && !defined(__MUSACC__)
			
 
				+
			
 
				+    // if YCM cannot find <arm_neon.h>, make a symbolic link to it, for example:
			
 
				+    //
			
 
				+    //   $ ln -sfn /Library/Developer/CommandLineTools/usr/lib/clang/13.1.6/include/arm_neon.h ./src/
			
 
				+    //
			
 
				+    #include <arm_neon.h>
			
 
				 
			
 
				-#if defined(__ARM_NEON) && !defined(_MSC_VER) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11)
			
 
				     #define GGML_COMPUTE_FP16_TO_FP32(x) ggml_compute_fp16_to_fp32(x)
			
 
				     #define GGML_COMPUTE_FP32_TO_FP16(x) ggml_compute_fp32_to_fp16(x)
			
 
				 
			
 
				     #define GGML_FP16_TO_FP32(x) ggml_compute_fp16_to_fp32(x)
			
 
				 
			
 
				     static inline float ggml_compute_fp16_to_fp32(ggml_fp16_t h) {
			
 
				-        ggml_fp16_internal_t tmp;
			
 
				+        __fp16 tmp;
			
 
				         memcpy(&tmp, &h, sizeof(ggml_fp16_t));
			
 
				         return (float)tmp;
			
 
				     }
			
 
				 
			
 
				     static inline ggml_fp16_t ggml_compute_fp32_to_fp16(float f) {
			
 
				         ggml_fp16_t res;
			
 
				-        ggml_fp16_internal_t tmp = f;
			
 
				+        __fp16 tmp = f;
			
 
				         memcpy(&res, &tmp, sizeof(ggml_fp16_t));
			
 
				         return res;
			
 
				     }
			
@@ -485,7 +483,7 @@ GGML_API void ggml_aligned_free(void * ptr, size_t size);
 
				     #define GGML_COMPUTE_FP16_TO_FP32(x) ggml_compute_fp16_to_fp32(x)
			
 
				     #define GGML_COMPUTE_FP32_TO_FP16(x) ggml_compute_fp32_to_fp16(x)
			
 
				 
			
 
				-#endif // defined(__ARM_NEON) && (!defined(__MSC_VER)
			
 
				+#endif // defined(__ARM_NEON) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11) && !defined(__MUSACC__)
			
 
				 
			
 
				 // precomputed f32 table for f16 (256 KB)
			
 
				 // defined in ggml.c, initialized in ggml_init()