Georgi Gerganov
|
bb5f819975
sync : ggml
|
1 an în urmă |
Georgi Gerganov
|
c038931615
examples : adapt to ggml.h changes (ggml/0)
|
1 an în urmă |
Georgi Gerganov
|
31ac5834fe
llama : keep track of all EOG tokens in the vocab (#9609)
|
1 an în urmă |
Georgi Gerganov
|
cea1486ecf
log : add CONT level for continuing previous log entry (#9610)
|
1 an în urmă |
StrangeBytesDev
|
0aa15011e3
server : add newline after chat example (#9616)
|
1 an în urmă |
Georgi Gerganov
|
b0f27361f3
sampling : avoid expensive softmax during greedy sampling (#9605)
|
1 an în urmă |
Max Krasnyansky
|
c087b6f11d
threads: fix msvc build without openmp (#9615)
|
1 an în urmă |
Ivan
|
116efee0ee
cuda: add q8_0->f32 cpy operation (#9571)
|
1 an în urmă |
Xuan Son Nguyen
|
0b3bf966f4
server : add --no-context-shift option (#9607)
|
1 an în urmă |
Max Krasnyansky
|
f0c7b5edf8
threads: improve ggml_barrier scaling with large number of threads (#9598)
|
1 an în urmă |
Riceball LEE
|
1d48e98e4f
readme : add programmable prompt engine language CLI (#9599)
|
1 an în urmă |
Georgi Gerganov
|
f3979df762
flake.lock: Update (#9586)
|
1 an în urmă |
Srihari-mcw
|
1e7b9299c6
ggml : AVX512 gemm for Q4_0_8_8 (#9532)
|
1 an în urmă |
Georgi Gerganov
|
37f8c7b4c9
perplexity : remove extra new lines after chunks (#9596)
|
1 an în urmă |
Georgi Gerganov
|
bf9c1013ac
metal : use F32 prec for K*Q in vec FA (#9595)
|
1 an în urmă |
Akarshan Biswas
|
e62e9789cd
Revert "[SYCL] fallback mmvq (#9088)" (#9579)
|
1 an în urmă |
R0CKSTAR
|
c35e586ea5
musa: enable building fat binaries, enable unified memory, and disable Flash Attention on QY1 (MTT S80) (#9526)
|
1 an în urmă |
Molly Sophia
|
912c331d3d
Fix merge error in #9454 (#9589)
|
1 an în urmă |
Johannes Gäßler
|
a5b57b08ce
CUDA: enable Gemma FA for HIP/Pascal (#9581)
|
1 an în urmă |
Shankar
|
ecd5d6b65b
llama: remove redundant loop when constructing ubatch (#9574)
|
1 an în urmă |
Molly Sophia
|
2a63caaa69
RWKV v6: RWKV_WKV op CUDA implementation (#9454)
|
1 an în urmă |
slaren
|
d09770cae7
ggml-alloc : fix list of allocated tensors with GGML_ALLOCATOR_DEBUG (#9573)
|
1 an în urmă |
agray3
|
41f477879f
Update CUDA graph on scale change plus clear nodes/params (#9550)
|
1 an în urmă |
Huang Qi
|
e948a7da7a
CI: Provide prebuilt windows binary for hip (#9467)
|
1 an în urmă |
slaren
|
63351143b2
quantize : improve type name parsing (#9570)
|
1 an în urmă |
Georgi Gerganov
|
d13edb17ed
ggml : fix builds (#0)
|
1 an în urmă |
Georgi Gerganov
|
27609c49b9
ggml : fix trailing whitespace (#0)
|
1 an în urmă |
Georgi Gerganov
|
4301535326
sync : ggml
|
1 an în urmă |
Johannes Gäßler
|
424c5d00a9
ggml/examples: add backend support for numerical optimization (ggml/949)
|
1 an în urmă |
Georgi Gerganov
|
a6809c6a2e
examples : add null threadpool args where needed (ggml/0)
|
1 an în urmă |