Xuan Son Nguyen
|
45abe0f74e
server : replace behave with pytest (#10416)
|
1 vuosi sitten |
Neo Zhang Jianyu
|
0bbd2262a3
restore the condistion to build & update pacakge when merge (#10507)
|
1 vuosi sitten |
Georgi Gerganov
|
ab96610b1e
cmake : enable warnings in llama (#10474)
|
1 vuosi sitten |
Diego Devesa
|
7db3846a94
ci : publish the docker images created during scheduled runs (#10515)
|
1 vuosi sitten |
Diego Devesa
|
c6807b3f28
ci : add ubuntu cuda build, build with one arch on windows (#10456)
|
1 vuosi sitten |
Charles Xu
|
25669aa92c
ggml-cpu: cmake add arm64 cpu feature check for macos (#10487)
|
1 vuosi sitten |
Georgi Gerganov
|
84e1c33cde
server : fix parallel speculative decoding (#10513)
|
1 vuosi sitten |
Georgi Gerganov
|
811872a59d
speculative : simplify the implementation (#10504)
|
1 vuosi sitten |
Shanshan Shen
|
9a4b79bcfa
CANN: Improve the Inferencing Performance for Ascend NPU Device (#10454)
|
1 vuosi sitten |
Chenguang Li
|
7066b4cce2
CANN: RoPE and CANCAT operator optimization (#10488)
|
1 vuosi sitten |
Junil Kim
|
0eb4e12bee
vulkan: Fix a vulkan-shaders-gen arugment parsing error (#10484)
|
1 vuosi sitten |
Eric Curtin
|
0cc63754b8
Introduce llama-run (#10291)
|
1 vuosi sitten |
Diego Devesa
|
50d5cecbda
ci : build docker images only once daily (#10503)
|
1 vuosi sitten |
Georgi Gerganov
|
9fd8c2687f
server : add more information about error (#10455)
|
1 vuosi sitten |
Georgi Gerganov
|
47f931c8f9
server : enable cache_prompt by default (#10501)
|
1 vuosi sitten |
Georgi Gerganov
|
106964e3d2
metal : enable mat-vec kernels for bs <= 4 (#10491)
|
1 vuosi sitten |
Shane A
|
80acb7b430
Rename Olmo1124 to Olmo2 (#10500)
|
1 vuosi sitten |
Diego Devesa
|
10bce0450f
llama : accept a list of devices to use to offload a model (#10497)
|
1 vuosi sitten |
Johannes Gäßler
|
1f922254f0
Github: update issue templates [no ci] (#10489)
|
1 vuosi sitten |
brucepro
|
a9a678a6b2
Add download chat feature to server chat (#10481)
|
1 vuosi sitten |
Georgi Gerganov
|
9ca2e67762
server : add speculative decoding support (#10455)
|
1 vuosi sitten |
Diego Devesa
|
5931c1f233
ggml : add support for dynamic loading of backends (#10469)
|
1 vuosi sitten |
Georgi Gerganov
|
f6d12e7df8
tests : fix compile warning
|
1 vuosi sitten |
Georgi Gerganov
|
b756441104
metal : minor code formatting
|
1 vuosi sitten |
Neo Zhang Jianyu
|
5a8987793f
[SYCL] Fix building Win package for oneAPI 2025.0 update (#10483)
|
1 vuosi sitten |
Georgi Gerganov
|
d9d54e498d
speculative : refactor and add a simpler example (#10362)
|
1 vuosi sitten |
Georgi Gerganov
|
cce5a90075
flake.lock: Update (#10470)
|
1 vuosi sitten |
Diego Devesa
|
dc39012cba
llama : fix op mul check with command-r-plus (#10476)
|
1 vuosi sitten |
Gabe Goodhart
|
9336db462c
convert : XLMRoberta Type Vocab Size (#10458)
|
1 vuosi sitten |
momonga
|
96fa2c5e2d
fix gguf-py: Conversion error when multiple licenses are configured (#9807)
|
1 vuosi sitten |