Georgi Gerganov
|
4be5ef556d
metal : remove old API (#4919)
|
vor 2 Jahren |
Georgi Gerganov
|
2d57de5255
metal : disable log for loaded kernels (#4794)
|
vor 2 Jahren |
Georgi Gerganov
|
b38b5e93ae
metal : refactor kernel loading code (#4794)
|
vor 2 Jahren |
slaren
|
e7e4df031b
llama : ggml-backend integration (#4766)
|
vor 2 Jahren |
Kawrakow
|
49662cbed3
ggml : SOTA 2-bit quants (add IQ2_XS) (#4856)
|
vor 2 Jahren |
Paul Tsochantaris
|
2a7c94db5f
metal : put encoder debug group behind a define (#4873)
|
vor 2 Jahren |
Georgi Gerganov
|
3267c2abc7
metal : fix deprecation warning (ggml/690)
|
vor 2 Jahren |
Jack Mousseau
|
5362e43962
metal : wrap each operation in debug group (ggml/690)
|
vor 2 Jahren |
Kawrakow
|
dd5ae06405
SOTA 2-bit quants (#4773)
|
vor 2 Jahren |
Georgi Gerganov
|
91d38876df
metal : switch back to default.metallib (ggml/681)
|
vor 2 Jahren |
Finn Voorhees
|
1bf681f90e
ggml : add error handling to graph_compute (whisper/1714)
|
vor 2 Jahren |
Georgi Gerganov
|
289313716f
metal : add kernel_get_rows_i32
|
vor 2 Jahren |
Georgi Gerganov
|
f3f62f0d83
metal : optimize ggml_mul_mat_id (faster Mixtral PP) (#4725)
|
vor 2 Jahren |
Georgi Gerganov
|
58ba655af0
metal : enable shader debugging (cmake option) (#4705)
|
vor 2 Jahren |
Georgi Gerganov
|
afefa319f1
ggml : change ggml_scale to take a float instead of tensor (#4573)
|
vor 2 Jahren |
slaren
|
d232aca5a7
llama : initial ggml-backend integration (#4520)
|
vor 2 Jahren |
Georgi Gerganov
|
4d98d9a656
sync : ggml (SD ops, tests, kernels) (#4444)
|
vor 2 Jahren |
slaren
|
799a1cb13b
llama : add Mixtral support (#4406)
|
vor 2 Jahren |
Georgi Gerganov
|
fe680e3d10
sync : ggml (new ops, tests, backend, etc.) (#4359)
|
vor 2 Jahren |
Georgi Gerganov
|
bcc0eb4591
llama : per-layer KV cache + quantum K cache (#4309)
|
vor 2 Jahren |
Georgi Gerganov
|
d7b800b8bc
llama : pad KV cache size (#4280)
|
vor 2 Jahren |
Georgi Gerganov
|
ef47ec18da
ggml : add ggml_soft_max_ext (#4256)
|
vor 2 Jahren |
Xiao-Yong Jin
|
22da05536f
metal : fix yarn (#4220)
|
vor 2 Jahren |
Georgi Gerganov
|
4f447a4833
llama : fix data units (#4101)
|
vor 2 Jahren |
Georgi Gerganov
|
3d68f364f1
ggml : sync (im2col, GPU conv, 32-bit arm compat) (#4060)
|
vor 2 Jahren |
Georgi Gerganov
|
4760e7cc0b
sync : ggml (backend v2) (#3912)
|
vor 2 Jahren |
Peter Sugihara
|
d9b33fe95b
metal : round up to 16 to fix MTLDebugComputeCommandEncoder assertion (#3938)
|
vor 2 Jahren |
Xiao-Yong Jin
|
5ba3746171
ggml-metal: fix yarn rope (#3937)
|
vor 2 Jahren |
Georgi Gerganov
|
183b3fac6c
metal : fix build errors and kernel sig after #2268 (#3898)
|
vor 2 Jahren |
cebtenzzre
|
898aeca90a
llama : implement YaRN RoPE scaling (#2268)
|
vor 2 Jahren |