Georgi Gerganov
|
87c91c0766
ci : reduce 3b ppl chunks to 1 to avoid timeout (#5771)
|
vor 1 Jahr |
Eve
|
317709b2a8
make portability_enumeration_ext apple only (#5757)
|
vor 1 Jahr |
Georgi Gerganov
|
08c5ee87e4
llama : remove deprecated API (#5770)
|
vor 1 Jahr |
Georgi Gerganov
|
78aacf3634
awq-py : remove (#5768)
|
vor 1 Jahr |
Georgi Gerganov
|
8c0e8f4e73
sync : ggml
|
vor 1 Jahr |
slaren
|
2774b0c974
add google magika inference example (ggml/748)
|
vor 1 Jahr |
UEXTM.com
|
5f70671856
Introduce backend GUIDs (ggml/743)
|
vor 1 Jahr |
Xuan Son Nguyen
|
a693bea1e6
server : hit Ctrl+C twice to exit (#5734)
|
vor 1 Jahr |
compilade
|
adcb12a9ba
llama : fix non-quantization of expert gating tensors (#5754)
|
vor 1 Jahr |
Douglas Hanley
|
177628bfd8
llama : improve BERT tokenization (#5740)
|
vor 1 Jahr |
Daniel Bevenius
|
6c4416868d
readme : add link to LLaVA 1.6 models (#5758)
|
vor 1 Jahr |
Jorge A
|
efc72253f7
server : add "/chat/completions" alias for "/v1/...` (#5722)
|
vor 1 Jahr |
Kawrakow
|
7c4263d426
ggml : make i-quants work with super-blocks of 64 (CPU,Metal) (#5760)
|
vor 1 Jahr |
Kawrakow
|
cb49e0f8c9
Attempt to fix android build (#5752)
|
vor 1 Jahr |
Kawrakow
|
0becb22ac0
IQ4_XS: a 4.25 bpw quantization (#5747)
|
vor 1 Jahr |
Engininja2
|
c24a2a6e60
cuda : replace remaining shfl_xor with calls to warp_reduce functions (#5744)
|
vor 1 Jahr |
Engininja2
|
1f30b7a9f1
ggml-quants : fix avx2 iq1_s vec_dot when compiled with gcc (#5742)
|
vor 1 Jahr |
Georgi Gerganov
|
9d533a77d0
llama : fix defrag bugs + add parameter (#5735)
|
vor 1 Jahr |
le.chang
|
cbbd1efa06
Makefile: use variables for cublas (#5689)
|
vor 1 Jahr |
Xuan Son Nguyen
|
b11a93df41
fix server hangs on empty prompt (#5733)
|
vor 1 Jahr |
Kawrakow
|
a33e6a0d2a
Adding IQ2_S and IQ2_M to complete coverage of the 2-3 bit quantization range (#5721)
|
vor 1 Jahr |
Johannes Gäßler
|
47bb7b48c7
CUDA: fix DEBUG_CUDA_MALLOC (#5729)
|
vor 1 Jahr |
Artem
|
c4d7f81786
readme : update ui list (#5731)
|
vor 1 Jahr |
AidanBeltonS
|
e849078c6e
[SYCL] Add support for soft_max ALiBi (#5639)
|
vor 1 Jahr |
Georgi Gerganov
|
67fd33132f
unicode : reuse iterator (#5726)
|
vor 1 Jahr |
Pierrick Hymbert
|
4804215cb8
server: CI fix trailing space (#5728)
|
vor 1 Jahr |
Pierrick Hymbert
|
8a533f0d90
server: CI tests reduce build matrix (#5725)
|
vor 1 Jahr |
Georgi Gerganov
|
269de86ba0
llama : fix Gemma rope type (#5691)
|
vor 1 Jahr |
github-actions[bot]
|
c393733988
flake.lock: Update
|
vor 1 Jahr |
Pierrick Hymbert
|
e3965cf35a
server: tests - slow inference causes timeout on the CI (#5715)
|
vor 1 Jahr |