Someone
|
d8d90aa343
ci: nix-flake-update: new token with pr permissions (#4879)
|
2 ani în urmă |
pudepiedj
|
43f76bf1c3
main : print total token count and tokens consumed so far (#4874)
|
2 ani în urmă |
Isaac McFadyen
|
2f043328e3
server : fix typo in model name (#4876)
|
2 ani în urmă |
Paul Tsochantaris
|
2a7c94db5f
metal : put encoder debug group behind a define (#4873)
|
2 ani în urmă |
Georgi Gerganov
|
64802ec00d
sync : ggml
|
2 ani în urmă |
Georgi Gerganov
|
3267c2abc7
metal : fix deprecation warning (ggml/690)
|
2 ani în urmă |
Timothy Cronin
|
f85a973aa1
ggml : remove ggml_cpy_inplace and ggml_cont_inplace (ggml/693)
|
2 ani în urmă |
Jack Mousseau
|
5362e43962
metal : wrap each operation in debug group (ggml/690)
|
2 ani în urmă |
leejet
|
e739de7909
ggml : change GGML_MAX_NAME at compile time (ggml/682)
|
2 ani în urmă |
Halalaluyafail3
|
c910e3c28a
Fix execlp call (ggml/689)
|
2 ani în urmă |
Erik Scholz
|
f34432ca1e
fix : cuda order of synchronization when setting a buffer (ggml/679)
|
2 ani în urmă |
Behnam M
|
7a9f75c38b
server : update readme to document the new `/health` endpoint (#4866)
|
2 ani în urmă |
Georgi Gerganov
|
5c1980d8d4
server : fix build + rename enums (#4870)
|
2 ani în urmă |
Behnam M
|
cd108e641d
server : add a `/health` endpoint (#4860)
|
2 ani în urmă |
Brian
|
57d016ba2d
llama : add additional suffixes for model params (#4834)
|
2 ani în urmă |
Austin
|
329ff61569
llama : recognize 1B phi models (#4847)
|
2 ani în urmă |
John
|
d34633d8db
clip : support more quantization types (#4846)
|
2 ani în urmă |
Johannes Gäßler
|
4f56458d34
Python script to compare commits with llama-bench (#4844)
|
2 ani în urmă |
Austin
|
6efb8eb30e
convert.py : fix vanilla LLaMA model conversion (#4818)
|
2 ani în urmă |
Justine Tunney
|
36e5a08b20
llava-cli : don't crash if --image flag is invalid (#4835)
|
2 ani în urmă |
Georgi Gerganov
|
4dccb38d9a
metal : improve dequantize precision to match CPU (#4836)
|
2 ani în urmă |
Georgi Gerganov
|
9a818f7c42
scripts : improve get-pg.sh (#4838)
|
2 ani în urmă |
iohub
|
18adb4e9bb
readme : add 3rd party collama reference to UI list (#4840)
|
2 ani în urmă |
Georgi Gerganov
|
d9653894df
scripts : script to get Paul Graham essays in txt format (#4838)
|
2 ani în urmă |
Behnam M
|
128de3585b
server : update readme about token probs (#4777)
|
2 ani în urmă |
Zsapi
|
8c58330318
server : add api-key flag to documentation (#4832)
|
2 ani în urmă |
Georgi Gerganov
|
18c2e1752c
ggml : fix vld1q_s8_x4 32-bit compat (#4828)
|
2 ani în urmă |
Johannes Gäßler
|
8f900abfc0
CUDA: faster softmax via shared memory + fp16 math (#4742)
|
2 ani în urmă |
howlger
|
1fc2f265ff
common : fix the short form of `--grp-attn-w`, not `-gat` (#4825)
|
2 ani în urmă |
Georgi Gerganov
|
a9a8c5de3d
readme : add link to SOTA models
|
2 ani în urmă |