Alex Klinkhamer
|
48be797ffb
llama : expose model's rope_freq_scale in the API (#3418)
|
hace 2 años |
Jiahao Li
|
f56e1baec3
metal : alibi for arbitrary number of heads (#3426)
|
hace 2 años |
Eve
|
017efe899d
cmake : make LLAMA_NATIVE flag actually use the instructions supported by the processor (#3273)
|
hace 2 años |
goerch
|
ff5a3f0c09
Work on the BPE tokenizer (#3252)
|
hace 2 años |
cebtenzzre
|
1c84003c08
convert : fix vocab size when not defined in hparams (#3421)
|
hace 2 años |
cebtenzzre
|
e78f0b0d05
cmake : increase minimum version for add_link_options (#3444)
|
hace 2 años |
shibe2
|
665018c749
CLBlast: Add broadcast support for matrix multiplication (#3402)
|
hace 2 años |
cebtenzzre
|
29a404a951
gguf : add BERT, MPT, and GPT-J arch info (#3408)
|
hace 2 años |
cebtenzzre
|
0fe321031a
gguf : general usability improvements (#3409)
|
hace 2 años |
cebtenzzre
|
9476b01226
cmake : make CUDA flags more similar to the Makefile (#3420)
|
hace 2 años |
xaedes
|
a03ce38455
finetune : fix #3404 (#3437)
|
hace 2 años |
Adrian
|
a847676984
metal : set log callback before initializing (#3427)
|
hace 2 años |
bandoti
|
095231dfd3
cmake : fix transient definitions in find pkg (#3411)
|
hace 2 años |
Kevin Ji
|
ea55295a74
docker : ignore Git files (#3314)
|
hace 2 años |
vvhg1
|
c97f01c362
infill : add new example + extend server API (#3296)
|
hace 2 años |
slaren
|
f5ef5cfb18
ggml-cuda : perform cublas mat mul of quantized types as f16 (#3412)
|
hace 2 años |
slaren
|
40e07a60f9
llama.cpp : add documentation about rope_freq_base and scale values (#3401)
|
hace 2 años |
Georgi Gerganov
|
bc34dd4f5b
train : fix KQ_pos allocation (#3392)
|
hace 2 años |
Cebtenzzre
|
2777a84be4
llama : quantize up to 31% faster on Linux and Windows with mmap (#3206)
|
hace 2 años |
BarfingLemurs
|
0a4a4a0982
readme : update hot topics + model links (#3399)
|
hace 2 años |
Andrew Duffy
|
569550df20
readme : add link to grammars app (#3388)
|
hace 2 años |
Jhen-Jie Hong
|
c71bf2c45c
swift : fix build on xcode 15 (#3387)
|
hace 2 años |
Cebtenzzre
|
bc39553c90
build : enable more non-default compiler warnings (#3200)
|
hace 2 años |
Hua Jiang
|
0ccfc62a96
ggml_tensor: update the structure comments. (#3283)
|
hace 2 años |
Qu Zongfu
|
7f1a0fe709
ggml : release the requested thread pool resource (#3292)
|
hace 2 años |
slaren
|
16bc66d947
llama.cpp : split llama_context_params into model and context params (#3301)
|
hace 2 años |
Eve
|
0512d66670
ci : multithreaded builds (#3311)
|
hace 2 años |
xaedes
|
0e76a8992c
train : finetune LORA (#2632)
|
hace 2 años |
Cebtenzzre
|
2db94d98ed
gguf : basic type checking in gguf_get_* (#3346)
|
hace 2 años |
Cebtenzzre
|
ecf90b1a51
gguf : make token scores and types optional (#3347)
|
hace 2 años |