Georgi Gerganov
|
922754a8d6
lookahead : add example for lookahead decoding (#4207)
|
vor 2 Jahren |
Xiao-Yong Jin
|
22da05536f
metal : fix yarn (#4220)
|
vor 2 Jahren |
Galunid
|
1ddb52ec38
scripts : Use mmap in torch load (#4202)
|
vor 2 Jahren |
Marcus Dunn
|
f837c3a992
llama : grammar `reserve` space in `decode_utf8` (#4210)
|
vor 2 Jahren |
crasm
|
3014b5415d
Update docs for yarn_ext_factor <0.0 as unspecified instead of NaN (#4189)
|
vor 2 Jahren |
Georgi Gerganov
|
04814e718e
readme : update hot topics
|
vor 2 Jahren |
Georgi Gerganov
|
af19d35734
server : OAI API compatibility (#4198)
|
vor 2 Jahren |
slaren
|
e9c13ff781
llama : set metal log callback correctly (#4204)
|
vor 2 Jahren |
slaren
|
8a052c131e
ggml-cuda : support stablelm rope (#4156)
|
vor 2 Jahren |
Galunid
|
189d68446e
convert : fix tensors using grad in some models (#4173)
|
vor 2 Jahren |
eastriver
|
2568a4bf54
main.swift : fix eos checking (#4197)
|
vor 2 Jahren |
Aaryaman Vasishta
|
b35f3d0def
readme : use PATH for Windows ROCm (#4195)
|
vor 2 Jahren |
Haohui Mai
|
55978ce09b
Fix incorrect format strings and uninitialized variables. (#4133)
|
vor 2 Jahren |
Georgi Gerganov
|
6b0a7420d0
llama : KV cache view API + better KV cache management (#4170)
|
vor 2 Jahren |
Georgi Gerganov
|
d103d935c0
readme : update hot topics
|
vor 2 Jahren |
Daniel Bevenius
|
9d5949f04b
examples : fix typo in parallel example doc comment (#4181)
|
vor 2 Jahren |
Georgi Gerganov
|
ff8238f71d
docs : add llama-star arch idea
|
vor 2 Jahren |
Galunid
|
8e672efe63
stablelm : simplify + speedup generation (#4153)
|
vor 2 Jahren |
Galunid
|
0b871f1a04
finetune - update readme to mention llama support only (#4148)
|
vor 2 Jahren |
Aaryaman Vasishta
|
dfc7cd48b1
readme : update ROCm Windows instructions (#4122)
|
vor 2 Jahren |
Seb C
|
881800d1f0
main : Add ChatML functionality to main example (#4046)
|
vor 2 Jahren |
Galunid
|
f23c0359a3
ci : add flake8 to github actions (python linting) (#4129)
|
vor 2 Jahren |
Branden Butler
|
40a34fe8d0
speculative : fix prompt tokenization in speculative example (#4025)
|
vor 2 Jahren |
Georgi Gerganov
|
dae06c06e5
Revert "finetune : add --n-gpu-layers flag info to --help (#4128)"
|
vor 2 Jahren |
Clark Saben
|
05e8301e45
finetune : add --n-gpu-layers flag info to --help (#4128)
|
vor 2 Jahren |
SoftwareRenderer
|
936c79b227
server : relay error messages (#4131)
|
vor 2 Jahren |
kchro3
|
262005ad9d
common : comma should be semicolon (#4137)
|
vor 2 Jahren |
Georgi Gerganov
|
35985acffa
gitignore : tokenize
|
vor 2 Jahren |
slaren
|
e937066420
gguf-py : export chat templates (#4125)
|
vor 2 Jahren |
Kerfuffle
|
28a2e6e7d4
tokenize example: Respect normal add BOS token behavior (#4126)
|
vor 2 Jahren |