Georgi Gerganov
|
a51b687657
metal : relax conditions on fast matrix multiplication kernel (#3168)
|
hace 2 años |
Andrei
|
76164fe2e6
cmake : fix llama.h location when built outside of root directory (#3179)
|
hace 2 años |
Ali Tariq
|
c2ab6fe661
ci : Cloud-V for RISC-V builds (#3160)
|
hace 2 años |
Roland
|
2d770505a8
llama : remove mtest (#3177)
|
hace 2 años |
Cebtenzzre
|
98311c4277
llama : make quantize example up to 2.7x faster (#3115)
|
hace 2 años |
jneem
|
feea179e9f
flake : allow $out/include to already exist (#3175)
|
hace 2 años |
Andrei
|
769266a543
cmake : compile ggml-rocm with -fpic when building shared library (#3158)
|
hace 2 años |
Asbjørn Olling
|
cf8238e7f4
flake : include llama.h in nix output (#3159)
|
hace 2 años |
Cebtenzzre
|
4b8560e72a
make : fix clang++ detection, move some definitions to CPPFLAGS (#3155)
|
hace 2 años |
Alon
|
83a53b753a
CI: add FreeBSD & simplify CUDA windows (#3053)
|
hace 2 años |
akawrykow
|
5c872dbca2
falcon : use stated vocab size (#2914)
|
hace 2 años |
bandoti
|
990a5e226a
cmake : add relocatable Llama package (#2960)
|
hace 2 años |
dylan
|
980ab41afb
docker : add gpu image CI builds (#3103)
|
hace 2 años |
Kerfuffle
|
e394084166
gguf-py : support identity operation in TensorNameMap (#3095)
|
hace 2 años |
jameswu2014
|
4c8643dd6e
feature : support Baichuan serial models (#3009)
|
hace 2 años |
Leng Yue
|
35f73049af
speculative : add heuristic algorithm (#3006)
|
hace 2 años |
goerch
|
71ca2fad7d
whisper : tokenizer fix + re-enable tokenizer test for LLaMa (#3096)
|
hace 2 años |
Tristan Ross
|
1b6c650d16
cmake : add a compiler flag check for FP16 format (#3086)
|
hace 2 años |
Johannes Gäßler
|
0a5eebb45d
CUDA: mul_mat_q RDNA2 tunings (#2910)
|
hace 2 años |
FK
|
84e723653c
speculative: add --n-gpu-layers-draft option (#3063)
|
hace 2 años |
Eric Sommerlade
|
b52b29ab9d
arm64 support for windows (#3007)
|
hace 2 años |
Johannes Gäßler
|
4f7cd6ba9c
CUDA: fix LoRAs (#3130)
|
hace 2 años |
Johannes Gäßler
|
89e89599fd
CUDA: fix mul_mat_q not used for output tensor (#3127)
|
hace 2 años |
Johannes Gäßler
|
d54a4027a6
CUDA: lower GPU latency + fix Windows performance (#3110)
|
hace 2 años |
Jhen-Jie Hong
|
1b0d09259e
cmake : support build for iOS/tvOS (#3116)
|
hace 2 años |
Johannes Gäßler
|
8a4ca9af56
CUDA: add device number to error messages (#3112)
|
hace 2 años |
Kawrakow
|
f31b6f4e2d
metal : PP speedup (#3084)
|
hace 2 años |
Erik Scholz
|
6eeb4d9083
convert: remove most of the n_mult usage in convert.py (#3098)
|
hace 2 años |
kchro3
|
21ac3a1503
metal : support for Swift (#3078)
|
hace 2 años |
Jhen-Jie Hong
|
4fd5477955
metal : support build for iOS/tvOS (#3089)
|
hace 2 años |