Molly Sophia
|
2d5dd7bb3f
ggml : add epsilon as a parameter for group_norm (#8818)
|
hace 1 año |
0cc4m
|
064cdc265f
vulkan : fix Qantized Mat-Vec Mul on AMD GPUs for ncols < 64 (#8855)
|
hace 1 año |
Mengqing Cao
|
e09a800f9a
cann: Fix ggml_cann_im2col for 1D im2col (#8819)
|
hace 1 año |
slaren
|
7a11eb3a26
cuda : fix dmmv cols requirement to 2*GGML_CUDA_DMMV_X (#8800)
|
hace 1 año |
slaren
|
2b1f616b20
ggml : reduce hash table reset cost (#8698)
|
hace 1 año |
slaren
|
87e397d00b
ggml : fix quant dot product with odd number of blocks (#8549)
|
hace 1 año |
hipudding
|
1bdd8ae19f
[CANN] Add Ascend NPU backend (#6035)
|
hace 1 año |
Georgi Gerganov
|
6847d54c4f
tests : fix whitespace (#0)
|
hace 1 año |
John Balis
|
fde13b3bb9
feat: cuda implementation for `ggml_conv_transpose_1d` (ggml/854)
|
hace 1 año |
slaren
|
0e0590adab
cuda : update supports_op for matrix multiplication (#8245)
|
hace 1 año |
Georgi Gerganov
|
f3f65429c4
llama : reorganize source code + improve CMake (#8006)
|
hace 1 año |
slaren
|
b6b9a8e606
fix CI failures (#8066)
|
hace 1 año |
Calvin Laurenson
|
43b35e38ba
Add support for sqrt on CUDA (#7953)
|
hace 1 año |
Georgi Gerganov
|
a9cae48003
tests : add non-cont unary tests (#7857)
|
hace 1 año |
Georgi Gerganov
|
2b3389677a
ggml : refactor rope norm/neox (#7634)
|
hace 1 año |
Johannes Gäßler
|
e141ce624a
Fix FlashAttention debug test, FP32 assert (#7684)
|
hace 1 año |
Johannes Gäßler
|
9b596417af
CUDA: quantized KV support for FA vec (#7527)
|
hace 1 año |
Georgi Gerganov
|
fb76ec31a9
ggml : fix YARN + add tests + add asserts (#7617)
|
hace 1 año |
Georgi Gerganov
|
cce3dcffc5
cuda : non-cont concat support (#7610)
|
hace 1 año |
Georgi Gerganov
|
0548a4187f
ggml : generalize GGML_OP_CONCAT (#7563)
|
hace 1 año |
Georgi Gerganov
|
3e5faa8503
cuda : fix rope + add tests (#7452)
|
hace 1 año |
liuwei-git
|
201cc11afa
llama : add phi3 128K model support (#7225)
|
hace 1 año |
slaren
|
05834841dc
ggml : fix quants nans when all the group weights are very close to zero (#7313)
|
hace 1 año |
John Balis
|
48aa8fd1f2
ggml : add `ggml_upscale_ext` (ggml/814)
|
hace 1 año |
Georgi Gerganov
|
e8a7fd4fb0
metal : support FA without mask + add asserts (#7278)
|
hace 1 año |
Johannes Gäßler
|
dc685be466
CUDA: add FP32 FlashAttention vector kernel (#7188)
|
hace 1 año |
Georgi Gerganov
|
9cb317f77e
ggml : full ALiBi support (#7192)
|
hace 1 año |
Johannes Gäßler
|
a743d76a01
CUDA: generalize FP16 fattn vec kernel (#7061)
|
hace 1 año |
Justine Tunney
|
3855416027
ggml : introduce bfloat16 support (#6412)
|
hace 1 año |
Georgi Gerganov
|
9c67c2773d
ggml : add Flash Attention (#5021)
|
hace 1 año |