Kawrakow
|
ca82cf7bac
metal : more optimizations (#2959)
|
vor 2 Jahren |
Karsten Weiss
|
8b56b4f2c3
metal : show all Metal device instances in the system (#2952)
|
vor 2 Jahren |
Georgi Gerganov
|
13268c5331
metal : slight speed-up for add and mul kernels (#2917)
|
vor 2 Jahren |
Kawrakow
|
e8d9158925
metal: somewhat faster f16 x f32 matrix multiply kernel (#2951)
|
vor 2 Jahren |
Georgi Gerganov
|
3a007648f2
metal : add option to disable debug logs (close #2764)
|
vor 2 Jahren |
Georgi Gerganov
|
f55538c3cc
metal : fix memory leak (#2762)
|
vor 2 Jahren |
Georgi Gerganov
|
d67777c202
metal : add Q8_0 support (#2763)
|
vor 2 Jahren |
Georgi Gerganov
|
cf658adc83
llm : add Falcon support (#2717)
|
vor 2 Jahren |
Georgi Gerganov
|
6381d4e110
gguf : new file format with flexible meta data (beta) (#2398)
|
vor 2 Jahren |
Jhen-Jie Hong
|
ed53db86c3
metal : print error of load pipeline state (#2564)
|
vor 2 Jahren |
Shouzheng Liu
|
fc8ef549e5
metal : enable ggml-alloc (#2627)
|
vor 2 Jahren |
Shouzheng Liu
|
bf83bff674
metal : matrix-matrix multiplication kernel (#2615)
|
vor 2 Jahren |
Jhen-Jie Hong
|
d783f7982e
metal : return null instead of exit(1) (#2573)
|
vor 2 Jahren |
Georgi Gerganov
|
f6f9896ac3
metal : fix out-of-bounds access + inc concurrency nodes (#2416)
|
vor 2 Jahren |
Matteo Boschini
|
1873ff586b
metal : add gqa8 kernel to allow llama-2-70B on metal (#2459)
|
vor 2 Jahren |
Shouzheng Liu
|
1aa18ef994
metal : concurrently dispatch commands (#2358)
|
vor 2 Jahren |
slaren
|
41c674161f
make rms_norm_eps a parameter (#2374)
|
vor 2 Jahren |
Georgi Gerganov
|
5b2b2dc6ae
ggml : sync (unary ops refactor, static-correctness) (#2370)
|
vor 2 Jahren |
slaren
|
95a6c595e7
ggml: move op parameters from tensors to ggml_tensor::op_params (#2333)
|
vor 2 Jahren |
Jiahao Li
|
83a00ce69b
metal : support bcast add & dup & cont op (#2323)
|
vor 2 Jahren |
Kawrakow
|
4d76a5f49b
Faster Q3_K implementation on Metal (#2307)
|
vor 2 Jahren |
Kawrakow
|
e68c96f7fe
Faster Q2_K on Metal (#2297)
|
vor 2 Jahren |
Kawrakow
|
e782c9e735
Faster Q5_K and Q6_K on Metal (#2294)
|
vor 2 Jahren |
Kawrakow
|
785829dfe8
Faster Q4_K on Metal (#2290)
|
vor 2 Jahren |
Shouzheng Liu
|
417a85a001
metal: minor q4 optimization and reduce code size (#2248)
|
vor 2 Jahren |
Xiao-Yong Jin
|
6e7cca4047
llama : add custom RoPE (#2054)
|
vor 2 Jahren |
Kawrakow
|
27ad57a69b
Metal: faster Q4_0 and Q4_1 matrix x vector kernels (#2212)
|
vor 2 Jahren |
Shouzheng Liu
|
1cbf561466
metal : new q4_0 matrix-vector kernel (#2188)
|
vor 2 Jahren |
Spencer Sutton
|
5bf2a27718
ggml : remove src0 and src1 from ggml_tensor and rename opt to src (#2178)
|
vor 2 Jahren |
Evan Miller
|
5656d10599
mpi : add support for distributed inference via MPI (#2099)
|
vor 2 Jahren |