compilade
|
c2101a2e90
llama : support Mamba Selective State Space Models (#5328)
|
vor 1 Jahr |
compilade
|
515f7d0d4f
llama : fix quantization of shared token_embd (#5944)
|
vor 1 Jahr |
Don Mahurin
|
e457fb3540
llama : assume tied weights if lm_head/output weights is missing (#5824)
|
vor 1 Jahr |
Neo Zhang Jianyu
|
89fb735fcf
Revert "[SYCL] fix error when set main gpu to non-zero (#5901)" (#5918)
|
vor 1 Jahr |
Georgi Gerganov
|
2002bc96bf
server : refactor (#5882)
|
vor 1 Jahr |
Neo Zhang Jianyu
|
ceca1aef07
[SYCL] fix error when set main gpu to non-zero (#5901)
|
vor 1 Jahr |
0cc4m
|
61d1c88e15
Vulkan Improvements (#5835)
|
vor 1 Jahr |
Georgi Gerganov
|
29ae62d2ae
llama : fix embeddings (#5796)
|
vor 1 Jahr |
Xuan Son Nguyen
|
4ffcdce2ff
add alias for chat template (#5858)
|
vor 1 Jahr |
Douglas Hanley
|
475df1d6cf
llama : allow for user specified embedding pooling type (#5849)
|
vor 1 Jahr |
compilade
|
de9692a7d2
llama : fix llama_copy_state_data with fragmented KV cache (#5840)
|
vor 1 Jahr |
Michael Podvitskiy
|
4a6e2d6142
llama : add abort_callback to interrupt computation (#5409)
|
vor 1 Jahr |
Xuan Son Nguyen
|
6c32d8c7ad
llama : refactor internal quantization functions (#5830)
|
vor 1 Jahr |
compilade
|
802da0091b
llama : fix segfault from unknown model arch name (#5820)
|
vor 1 Jahr |
Neo Zhang Jianyu
|
715641391d
Support multiple GPUs (split mode) on SYCL backend (#5806)
|
vor 1 Jahr |
Sourab Mangrulkar
|
c29af7e225
llama : add StarCoder2 support (#5795)
|
vor 1 Jahr |
Pierrick Hymbert
|
3ab8b3a92e
llama : cleanup unused mmq flags (#5772)
|
vor 1 Jahr |
Douglas Hanley
|
9600d59e01
unicode : switch to multimap based nfd_map (#5799)
|
vor 1 Jahr |
Marcus Dunn
|
d5ab29757e
llama : constified `llama_set_state_data`'s `src` (#5774)
|
vor 1 Jahr |
Georgi Gerganov
|
08c5ee87e4
llama : remove deprecated API (#5770)
|
vor 1 Jahr |
compilade
|
adcb12a9ba
llama : fix non-quantization of expert gating tensors (#5754)
|
vor 1 Jahr |
Douglas Hanley
|
177628bfd8
llama : improve BERT tokenization (#5740)
|
vor 1 Jahr |
Kawrakow
|
0becb22ac0
IQ4_XS: a 4.25 bpw quantization (#5747)
|
vor 1 Jahr |
Georgi Gerganov
|
9d533a77d0
llama : fix defrag bugs + add parameter (#5735)
|
vor 1 Jahr |
Kawrakow
|
a33e6a0d2a
Adding IQ2_S and IQ2_M to complete coverage of the 2-3 bit quantization range (#5721)
|
vor 1 Jahr |
AidanBeltonS
|
e849078c6e
[SYCL] Add support for soft_max ALiBi (#5639)
|
vor 1 Jahr |
Georgi Gerganov
|
269de86ba0
llama : fix Gemma rope type (#5691)
|
vor 1 Jahr |
Georgi Gerganov
|
bf08e00643
llama : refactor k-shift implementation + KV defragmentation (#5691)
|
vor 1 Jahr |
Georgi Gerganov
|
ab336a9d5e
code : normalize enum names (#5697)
|
vor 1 Jahr |
Kawrakow
|
4c4cb30736
IQ3_S: a much better alternative to Q3_K (#5676)
|
vor 1 Jahr |