Denis Spasyuk
|
a8db2a9ce6
Update llama-cli documentation (#8315)
|
hace 1 año |
Olivier Chafik
|
1c641e6aac
`build`: rename main → llama-cli, server → llama-server, llava-cli → llama-llava-cli, etc... (#7809)
|
hace 1 año |
arch-btw
|
9973e81c5c
readme : remove -ins (#7759)
|
hace 1 año |
Georgi Gerganov
|
1442677f92
common : refactor cli arg parsing (#7675)
|
hace 1 año |
Amir
|
11474e756d
examples: cache hf model when --model not provided (#7353)
|
hace 1 año |
omahs
|
04976db7a8
docs: fix typos (#7124)
|
hace 1 año |
Olivier Chafik
|
8843a98c2b
Improve usability of --model-url & related flags (#6930)
|
hace 1 año |
Olivier Chafik
|
7593639ce3
`main`: add --json-schema / -j flag (#6659)
|
hace 1 año |
Rene Leonhardt
|
5c4d767ac0
chore: Fix markdown warnings (#6625)
|
hace 1 año |
Ting Sun
|
cfc4d75df6
doc: fix outdated default value of batch size (#6336)
|
hace 1 año |
slaren
|
280345968d
cuda : rename build flag to LLAMA_CUDA (#6299)
|
hace 1 año |
Pierrick Hymbert
|
d01b3c4c32
common: llama_load_model_from_url using --model-url (#6098)
|
hace 1 año |
bmwl
|
f486f6e1e5
ggml : add numa options (#5377)
|
hace 1 año |
Richard Kiss
|
532dd74e38
Fix some documentation typos/grammar mistakes (#4032)
|
hace 2 años |
kalomaze
|
238657db23
samplers : Min-P sampler implementation [alternative to Top P/Top K] (#3841)
|
hace 2 años |
slaren
|
16bc66d947
llama.cpp : split llama_context_params into model and context params (#3301)
|
hace 2 años |
Roland
|
2d770505a8
llama : remove mtest (#3177)
|
hace 2 años |
ZHAOKAI WANG
|
69fdbb9abc
readme : quick start command fix (#2908)
|
hace 2 años |
Evan Jones
|
f5fe98d11b
docs : add grammar docs (#2701)
|
hace 2 años |
Christian Demsar
|
e59fcb2bc1
Add --n-predict -2 for stopping generation on full context (#2565)
|
hace 2 años |
klosax
|
f3c3b4b167
Add --rope-scale parameter (#2544)
|
hace 2 años |
Weird Constructor
|
d91f3f0c55
readme : fix the description of the Tail free sampling (TFS) method (#2431)
|
hace 2 años |
Howard Su
|
32c5411631
Revert "Support using mmap when applying LoRA (#2095)" (#2206)
|
hace 2 años |
Howard Su
|
2347463201
Support using mmap when applying LoRA (#2095)
|
hace 2 años |
Howard Su
|
b8c8dda75f
Use unsigned for random seed (#2006)
|
hace 2 años |
zrm
|
b853d45601
ggml : add NUMA support (#1556)
|
hace 2 años |
Johannes Gäßler
|
254a7a7a5f
CUDA full GPU acceleration, KV cache in VRAM (#1827)
|
hace 2 años |
Johannes Gäßler
|
17366df842
Multi GPU support, CUDA refactor, CUDA scratch buffer (#1703)
|
hace 2 años |
Kerfuffle
|
1b78ed2081
Only show -ngl option when relevant + other doc/arg handling updates (#1625)
|
hace 2 años |
Kerfuffle
|
66874d4fbc
Some improvements to loading the session with --prompt-cache (#1550)
|
hace 2 años |