před 4 týdny · ce734a8a2f
--- a/docs/backend/hexagon/CMakeUserPresets.json
+++ b/docs/backend/hexagon/CMakeUserPresets.json
@@ -22,6 +22,7 @@
 
				             "GGML_LLAMAFILE":   "OFF",
			
 
				             "GGML_OPENCL":      "ON",
			
 
				             "GGML_HEXAGON":     "ON",
			
 
				+            "GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE": "128",
			
 
				             "LLAMA_CURL":       "OFF"
			
 
				         }
			
 
				     },
			
@@ -36,6 +37,7 @@
 
				             "GGML_LLAMAFILE":   "OFF",
			
 
				             "GGML_OPENCL":      "ON",
			
 
				             "GGML_HEXAGON":     "ON",
			
 
				+            "GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE": "128",
			
 
				             "LLAMA_CURL":       "OFF"
			
 
				         }
			
 
				     },
			
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@@ -254,6 +254,7 @@ set   (GGML_OPENCL_TARGET_VERSION "300" CACHE STRING
 
				                                             "gmml: OpenCL API version to target")
			
 
				 
			
 
				 option(GGML_HEXAGON                         "ggml: enable Hexagon backend"                    OFF)
			
 
				+set(GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE 128 CACHE STRING "ggml: quantize group size (32, 64, or 128)")
			
 
				 
			
 
				 # toolchain for vulkan-shaders-gen
			
 
				 set   (GGML_VULKAN_SHADERS_GEN_TOOLCHAIN "" CACHE FILEPATH "ggml: toolchain file for vulkan-shaders-gen")
			
--- a/ggml/src/ggml-hexagon/CMakeLists.txt
+++ b/ggml/src/ggml-hexagon/CMakeLists.txt
@@ -2,6 +2,7 @@ include(${HEXAGON_SDK_ROOT}/build/cmake/hexagon_fun.cmake)
 
				 include(ExternalProject)
			
 
				 
			
 
				 option(GGML_HEXAGON_HTP_DEBUG "ggml-hexagon: enable HTP debug output" OFF)
			
 
				+set(GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE 128 CACHE STRING "ggml-hexagon: quantize group size (32, 64, or 128)")
			
 
				 
			
 
				 add_library(htp_iface OBJECT
			
 
				     ${CMAKE_CURRENT_BINARY_DIR}/htp_iface_stub.c)
			
@@ -41,7 +42,8 @@ set(HTP_CMAKE_ARGS
 
				     -DCMAKE_INSTALL_LIBDIR=${CMAKE_CURRENT_BINARY_DIR}
			
 
				     -DHEXAGON_SDK_ROOT=$ENV{HEXAGON_SDK_ROOT}
			
 
				     -DHEXAGON_TOOLS_ROOT=$ENV{HEXAGON_TOOLS_ROOT}
			
 
				-    -DHEXAGON_HTP_DEBUG=${GGML_HEXAGON_HTP_DEBUG})
			
 
				+    -DHEXAGON_HTP_DEBUG=${GGML_HEXAGON_HTP_DEBUG}
			
 
				+    -DGGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE=${GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE})
			
 
				 
			
 
				 ExternalProject_Add(htp-v68
			
 
				     SOURCE_DIR ${CMAKE_CURRENT_SOURCE_DIR}/htp BUILD_ALWAYS ON
			
--- a/ggml/src/ggml-hexagon/htp/CMakeLists.txt
+++ b/ggml/src/ggml-hexagon/htp/CMakeLists.txt
@@ -31,7 +31,8 @@ add_library(${HTP_LIB} SHARED
 
				 )
			
 
				 
			
 
				 target_compile_definitions(${HTP_LIB} PRIVATE
			
 
				-    $<IF:$<BOOL:${HEXAGON_HTP_DEBUG}>,HTP_DEBUG=1,NDEBUG=1>)
			
 
				+    $<IF:$<BOOL:${HEXAGON_HTP_DEBUG}>,HTP_DEBUG=1,NDEBUG=1>
			
 
				+    FP32_QUANTIZE_GROUP_SIZE=${GGML_HEXAGON_FP32_QUANTIZE_GROUP_SIZE})
			
 
				 
			
 
				 build_idl(htp_iface.idl ${HTP_LIB})
			
 
				 
			
--- a/ggml/src/ggml-hexagon/htp/matmul-ops.c
+++ b/ggml/src/ggml-hexagon/htp/matmul-ops.c
@@ -92,6 +92,18 @@ static const uint8_t __attribute__((aligned(128))) repl_1x_fp16[128] = {
 
				     0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				 };
			
 
				 
			
 
				+// vdelta control to replicate first fp16 value across all elements
			
 
				+static const uint8_t __attribute__((aligned(128))) repl_2x_fp16[128] = {
			
 
				+    0x00, 0x00, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x10, 0x10, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x20, 0x20, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x10, 0x10, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x00, 0x00, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x10, 0x10, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x20, 0x20, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+    0x10, 0x10, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02, 0x08, 0x08, 0x02, 0x02, 0x04, 0x04, 0x02, 0x02,
			
 
				+};
			
 
				+
			
 
				 // vdelta control to expand first 32 e8m0 values into 32 uint32 elements
			
 
				 static const uint8_t __attribute__((aligned(128))) expand_x32_e8m0[128] = {
			
 
				     0x00, 0x00, 0x00, 0x00, 0x01, 0x04, 0x00, 0x00, 0x02, 0x00, 0x08, 0x08, 0x01, 0x02, 0x00, 0x04, 0x04, 0x00, 0x00,
			
@@ -1594,6 +1606,118 @@ static void matmul_f16_f32(struct htp_tensor * restrict src0,
 
				 
			
 
				 // *** dynamic quant
			
 
				 
			
 
				+static inline void quantize_block_fp32_q8x1(float * restrict x, uint8_t * restrict y_q, uint8_t * restrict y_d) {
			
 
				+    assert((unsigned long) x % 128 == 0);
			
 
				+    assert((unsigned long) y_q % 128 == 0);
			
 
				+
			
 
				+    HVX_Vector * vx = (HVX_Vector *) x;
			
 
				+    HVX_Vector zero   = Q6_V_vsplat_R(0);
			
 
				+
			
 
				+    // Use reduce max fp32 to find max(abs(e)) first
			
 
				+    HVX_Vector vmax0_sf = hvx_vec_reduce_max_fp32(hvx_vec_abs_fp32(vx[0]));
			
 
				+    HVX_Vector vmax1_sf = hvx_vec_reduce_max_fp32(hvx_vec_abs_fp32(vx[1]));
			
 
				+    HVX_Vector vmax2_sf = hvx_vec_reduce_max_fp32(hvx_vec_abs_fp32(vx[2]));
			
 
				+    HVX_Vector vmax3_sf = hvx_vec_reduce_max_fp32(hvx_vec_abs_fp32(vx[3]));
			
 
				+    // Load and convert into QF32
			
 
				+    HVX_Vector vx0_qf = Q6_Vqf32_vsub_VsfVsf(vx[0], zero);  // 32 elements
			
 
				+    HVX_Vector vx1_qf = Q6_Vqf32_vsub_VsfVsf(vx[1], zero);  // 32 elements
			
 
				+    HVX_Vector vx2_qf = Q6_Vqf32_vsub_VsfVsf(vx[2], zero);  // 32 elements
			
 
				+    HVX_Vector vx3_qf = Q6_Vqf32_vsub_VsfVsf(vx[3], zero);  // 32 elements
			
 
				+
			
 
				+    // Convert to QF32
			
 
				+    HVX_Vector vmax0_qf = Q6_Vqf32_vsub_VsfVsf(vmax0_sf, zero);
			
 
				+    HVX_Vector vmax1_qf = Q6_Vqf32_vsub_VsfVsf(vmax1_sf, zero);
			
 
				+    HVX_Vector vmax2_qf = Q6_Vqf32_vsub_VsfVsf(vmax2_sf, zero);
			
 
				+    HVX_Vector vmax3_qf = Q6_Vqf32_vsub_VsfVsf(vmax3_sf, zero);
			
 
				+
			
 
				+    // Combine and convert to fp16
			
 
				+    HVX_Vector vmax01_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vmax1_qf, vmax0_qf)));
			
 
				+    HVX_Vector vmax23_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vmax3_qf, vmax2_qf)));
			
 
				+
			
 
				+    // Convert into fp16
			
 
				+    HVX_Vector vx01_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vx1_qf, vx0_qf)));
			
 
				+    HVX_Vector vx23_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vx3_qf, vx2_qf)));
			
 
				+
			
 
				+    // Replicate first fp16 scale across all lanes
			
 
				+    HVX_Vector ctrl = *(const HVX_Vector *) repl_2x_fp16;
			
 
				+    vmax01_hf         = Q6_V_vdelta_VV(vmax01_hf, ctrl);
			
 
				+    vmax23_hf         = Q6_V_vdelta_VV(vmax23_hf, ctrl);
			
 
				+
			
 
				+    HVX_Vector vd01_qf16 = Q6_Vqf16_vmpy_VhfVhf(vmax01_hf, Q6_Vh_vsplat_R(0x2008));  // 1.0 / 127.0
			
 
				+    HVX_Vector vd23_qf16 = Q6_Vqf16_vmpy_VhfVhf(vmax23_hf, Q6_Vh_vsplat_R(0x2008));  // 1.0 / 127.0
			
 
				+    HVX_Vector vd01_hf   = Q6_Vhf_equals_Vqf16(vd01_qf16);
			
 
				+    HVX_Vector vd23_hf   = Q6_Vhf_equals_Vqf16(vd23_qf16);
			
 
				+
			
 
				+    hvx_vec_store_u(y_d + 0, 2, vd01_hf);
			
 
				+    HVX_Vector rotated_vd_hf = Q6_V_vror_VR(vd01_hf, 64);
			
 
				+    hvx_vec_store_u(y_d + 2, 2, rotated_vd_hf);
			
 
				+
			
 
				+    hvx_vec_store_u(y_d + 4, 2, vd23_hf);
			
 
				+    rotated_vd_hf = Q6_V_vror_VR(vd23_hf, 64);
			
 
				+    hvx_vec_store_u(y_d + 6, 2, rotated_vd_hf);
			
 
				+
			
 
				+    // Divide input by the scale
			
 
				+    HVX_Vector vd01_inv_hf = hvx_vec_inverse_fp16(vd01_hf);
			
 
				+    HVX_Vector vd23_inv_hf = hvx_vec_inverse_fp16(vd23_hf);
			
 
				+    vx01_hf              = Q6_Vhf_equals_Vqf16(Q6_Vqf16_vmpy_VhfVhf(vx01_hf, vd01_inv_hf));
			
 
				+    vx23_hf              = Q6_Vhf_equals_Vqf16(Q6_Vqf16_vmpy_VhfVhf(vx23_hf, vd23_inv_hf));
			
 
				+
			
 
				+    // Convert to int8
			
 
				+    HVX_Vector vx01_i16 = hvx_vec_i16_from_hf_rnd_sat(vx01_hf);
			
 
				+    HVX_Vector vx23_i16 = hvx_vec_i16_from_hf_rnd_sat(vx23_hf);
			
 
				+    HVX_Vector vx_i8    = Q6_Vb_vpack_VhVh_sat(vx23_i16, vx01_i16);
			
 
				+
			
 
				+    *(HVX_Vector *) y_q = vx_i8;
			
 
				+}
			
 
				+
			
 
				+static inline void quantize_block_fp32_q8x2(float * restrict x, uint8_t * restrict y_q, uint8_t * restrict y_d) {
			
 
				+    assert((unsigned long) x % 128 == 0);
			
 
				+    assert((unsigned long) y_q % 128 == 0);
			
 
				+
			
 
				+    HVX_Vector * vx = (HVX_Vector *) x;
			
 
				+
			
 
				+    // Load and convert into QF32
			
 
				+    HVX_Vector zero   = Q6_V_vsplat_R(0);
			
 
				+    HVX_Vector vx0_qf = Q6_Vqf32_vsub_VsfVsf(vx[0], zero);  // 32 elements
			
 
				+    HVX_Vector vx1_qf = Q6_Vqf32_vsub_VsfVsf(vx[1], zero);  // 32 elements
			
 
				+    HVX_Vector vx2_qf = Q6_Vqf32_vsub_VsfVsf(vx[2], zero);  // 32 elements
			
 
				+    HVX_Vector vx3_qf = Q6_Vqf32_vsub_VsfVsf(vx[3], zero);  // 32 elements
			
 
				+
			
 
				+    // Convert into fp16
			
 
				+    HVX_Vector vx01_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vx1_qf, vx0_qf)));
			
 
				+    HVX_Vector vx23_hf = Q6_Vh_vdeal_Vh(Q6_Vhf_equals_Wqf32(Q6_W_vcombine_VV(vx3_qf, vx2_qf)));
			
 
				+
			
 
				+    // Compute max and scale
			
 
				+    HVX_Vector vmax01_hf = hvx_vec_reduce_max_fp16(hvx_vec_abs_fp16(vx01_hf));
			
 
				+    HVX_Vector vmax23_hf = hvx_vec_reduce_max_fp16(hvx_vec_abs_fp16(vx23_hf));
			
 
				+
			
 
				+    // Replicate first fp16 scale across all lanes
			
 
				+    HVX_Vector ctrl = *(const HVX_Vector *) repl_1x_fp16;
			
 
				+    vmax01_hf         = Q6_V_vdelta_VV(vmax01_hf, ctrl);
			
 
				+    vmax23_hf         = Q6_V_vdelta_VV(vmax23_hf, ctrl);
			
 
				+
			
 
				+    HVX_Vector vd01_qf16 = Q6_Vqf16_vmpy_VhfVhf(vmax01_hf, Q6_Vh_vsplat_R(0x2008));  // 1.0 / 127.0
			
 
				+    HVX_Vector vd23_qf16 = Q6_Vqf16_vmpy_VhfVhf(vmax23_hf, Q6_Vh_vsplat_R(0x2008));  // 1.0 / 127.0
			
 
				+    HVX_Vector vd01_hf   = Q6_Vhf_equals_Vqf16(vd01_qf16);
			
 
				+    HVX_Vector vd23_hf   = Q6_Vhf_equals_Vqf16(vd23_qf16);
			
 
				+
			
 
				+    hvx_vec_store_u(y_d + 0, 4, vd01_hf);
			
 
				+    hvx_vec_store_u(y_d + 4, 4, vd23_hf);
			
 
				+
			
 
				+    // Divide input by the scale
			
 
				+    HVX_Vector vd01_inv_hf = hvx_vec_inverse_fp16(vd01_hf);
			
 
				+    HVX_Vector vd23_inv_hf = hvx_vec_inverse_fp16(vd23_hf);
			
 
				+    vx01_hf              = Q6_Vhf_equals_Vqf16(Q6_Vqf16_vmpy_VhfVhf(vx01_hf, vd01_inv_hf));
			
 
				+    vx23_hf              = Q6_Vhf_equals_Vqf16(Q6_Vqf16_vmpy_VhfVhf(vx23_hf, vd23_inv_hf));
			
 
				+
			
 
				+    // Convert to int8
			
 
				+    HVX_Vector vx01_i16 = hvx_vec_i16_from_hf_rnd_sat(vx01_hf);
			
 
				+    HVX_Vector vx23_i16 = hvx_vec_i16_from_hf_rnd_sat(vx23_hf);
			
 
				+    HVX_Vector vx_i8    = Q6_Vb_vpack_VhVh_sat(vx23_i16, vx01_i16);
			
 
				+
			
 
				+    *(HVX_Vector *) y_q = vx_i8;
			
 
				+}
			
 
				+
			
 
				 static inline void quantize_block_fp32_q8x4(float * restrict x, uint8_t * restrict y_q, uint8_t * restrict y_d) {
			
 
				     assert((unsigned long) x % 128 == 0);
			
 
				     assert((unsigned long) y_q % 128 == 0);
			
@@ -1655,10 +1779,24 @@ static void quantize_row_fp32_q8x4x2(float * restrict x, uint8_t * restrict y, u
 
				     uint8_t * restrict t_d = (uint8_t *) x;
			
 
				 
			
 
				     for (uint32_t i = 0; i < nb; i++) {
			
 
				+#if FP32_QUANTIZE_GROUP_SIZE == 32
			
 
				+        quantize_block_fp32_q8x1(x + (i * 2 + 0) * qk / 2, y_q + (i * 2 + 0) * qblk_size / 2,
			
 
				+                                 t_d + (i * 2 + 0) * dblk_size / 2);
			
 
				+        quantize_block_fp32_q8x1(x + (i * 2 + 1) * qk / 2, y_q + (i * 2 + 1) * qblk_size / 2,
			
 
				+                                 t_d + (i * 2 + 1) * dblk_size / 2);
			
 
				+#elif FP32_QUANTIZE_GROUP_SIZE == 64
			
 
				+        quantize_block_fp32_q8x2(x + (i * 2 + 0) * qk / 2, y_q + (i * 2 + 0) * qblk_size / 2,
			
 
				+                                 t_d + (i * 2 + 0) * dblk_size / 2);
			
 
				+        quantize_block_fp32_q8x2(x + (i * 2 + 1) * qk / 2, y_q + (i * 2 + 1) * qblk_size / 2,
			
 
				+                                 t_d + (i * 2 + 1) * dblk_size / 2);
			
 
				+#elif FP32_QUANTIZE_GROUP_SIZE == 128
			
 
				         quantize_block_fp32_q8x4(x + (i * 2 + 0) * qk / 2, y_q + (i * 2 + 0) * qblk_size / 2,
			
 
				                                  t_d + (i * 2 + 0) * dblk_size / 2);
			
 
				         quantize_block_fp32_q8x4(x + (i * 2 + 1) * qk / 2, y_q + (i * 2 + 1) * qblk_size / 2,
			
 
				                                  t_d + (i * 2 + 1) * dblk_size / 2);
			
 
				+#else
			
 
				+#error "FP32_QUANTIZE_GROUP_SIZE must be 32, 64, or 128"
			
 
				+#endif
			
 
				     }
			
 
				 
			
 
				     // now copy the scales into final location
			
@@ -1671,6 +1809,7 @@ static void quantize_fp32_q8x4x2(const struct htp_tensor * src,
 
				                                  uint32_t          nth,
			
 
				                                  uint32_t          ith,
			
 
				                                  uint32_t          nrows_per_thread) {
			
 
				+
			
 
				     uint64_t t1 = HAP_perf_get_qtimer_count();
			
 
				 
			
 
				     const uint32_t ne0 = src->ne[0];