Kawrakow
|
4d76a5f49b
Faster Q3_K implementation on Metal (#2307)
|
2 tahun lalu |
Kawrakow
|
e68c96f7fe
Faster Q2_K on Metal (#2297)
|
2 tahun lalu |
Kawrakow
|
e782c9e735
Faster Q5_K and Q6_K on Metal (#2294)
|
2 tahun lalu |
Kawrakow
|
785829dfe8
Faster Q4_K on Metal (#2290)
|
2 tahun lalu |
Shouzheng Liu
|
417a85a001
metal: minor q4 optimization and reduce code size (#2248)
|
2 tahun lalu |
Xiao-Yong Jin
|
6e7cca4047
llama : add custom RoPE (#2054)
|
2 tahun lalu |
Kawrakow
|
27ad57a69b
Metal: faster Q4_0 and Q4_1 matrix x vector kernels (#2212)
|
2 tahun lalu |
Shouzheng Liu
|
1cbf561466
metal : new q4_0 matrix-vector kernel (#2188)
|
2 tahun lalu |
Spencer Sutton
|
5bf2a27718
ggml : remove src0 and src1 from ggml_tensor and rename opt to src (#2178)
|
2 tahun lalu |
Evan Miller
|
5656d10599
mpi : add support for distributed inference via MPI (#2099)
|
2 tahun lalu |
Qingyou Meng
|
1d656d6360
ggml : change ggml_graph_compute() API to not require context (#1999)
|
2 tahun lalu |
Aaron Miller
|
2f8cd979ec
metal : release buffers when freeing metal context (#2062)
|
2 tahun lalu |
Kawrakow
|
6769e944c7
k-quants : support for super-block size of 64 (#2001)
|
2 tahun lalu |
Georgi Gerganov
|
ce2c7d72e2
metal : handle buffers larger than device's maxBufferLength (#1826)
|
2 tahun lalu |
Georgi Gerganov
|
4f9c43e3bd
minor : warning fixes
|
2 tahun lalu |
Aaron Miller
|
0711a5f6dc
metal : add norm, cpy f16->f16, alibi kernels (#1823)
|
2 tahun lalu |
Georgi Gerganov
|
4bfcc855ab
metal : parallel command buffer encoding (#1860)
|
2 tahun lalu |
Kawrakow
|
74a6d922f1
Metal implementation for all k_quants (#1807)
|
2 tahun lalu |
Kawrakow
|
8c0a10e64d
metal : fix failure to load model (#1817)
|
2 tahun lalu |
Andrei
|
303f5809f1
metal : fix issue with ggml-metal.metal path. Closes #1769 (#1782)
|
2 tahun lalu |
Kawrakow
|
e9b66ee982
metal : add Q4_1 implementation (#1785)
|
2 tahun lalu |
AT
|
92f44ff7f7
metal : add GELU implementation (#1770)
|
2 tahun lalu |
Kawrakow
|
245fc3c37d
metal : faster q4_0 (#1775)
|
2 tahun lalu |
Kawrakow
|
72ff5282bf
metal : add Q2_K implementation (#1762)
|
2 tahun lalu |
Kawrakow
|
0f291e1f65
metal : Q6_K implementation (#1752)
|
2 tahun lalu |
Kawrakow
|
4161bdc04d
metal : add Q4_K implementation (#1733)
|
2 tahun lalu |
Georgi Gerganov
|
44f906e853
metal : add f16 support
|
2 tahun lalu |
Spencer Sutton
|
590250f7a9
metal : add checks for buffer size (#1706)
|
2 tahun lalu |
kiltyj
|
9d0693bce3
metal : use shared buffers between CPU and GPU (#1696)
|
2 tahun lalu |
Georgi Gerganov
|
ecb217db4f
llama : Metal inference (#1642)
|
2 tahun lalu |