Gavin Zhao
|
82ca83db3c
ROCm: use native CMake HIP support (#5966)
|
hace 1 año |
agray3
|
bc4bba364f
Introduction of CUDA Graphs to LLama.cpp (#6766)
|
hace 1 año |
Georgi Gerganov
|
92139b90af
tests : add test-tokenizer-0.sh + fix some tokenizers (#7036)
|
hace 1 año |
Georgi Gerganov
|
f4ab2a4147
llama : fix BPE pre-tokenization (#6920)
|
hace 1 año |
Przemysław Pawełczyk
|
577277ffd2
make : change GNU make default CXX from g++ to c++ (#6966)
|
hace 1 año |
Pierrick Hymbert
|
0c4d489e29
quantize: add imatrix and dataset metadata in GGUF (#6658)
|
hace 1 año |
Justine Tunney
|
192090bae4
llamafile : improve sgemm.cpp (#6796)
|
hace 1 año |
Olivier Chafik
|
5cf5e7d490
`build`: generate hex dump of server assets during build (#6661)
|
hace 1 año |
Georgi Gerganov
|
40f74e4d73
llama : add option to render special/control tokens (#6807)
|
hace 1 año |
Georgi Gerganov
|
3b8f1ec4b1
llamafile : tmp disable + build sgemm.o when needed (#6716)
|
hace 1 año |
Georgi Gerganov
|
666867b799
ggml : fix llamafile sgemm wdata offsets (#6710)
|
hace 1 año |
Justine Tunney
|
8cc91dc63c
ggml : add llamafile sgemm (#6414)
|
hace 1 año |
Olivier Chafik
|
7593639ce3
`main`: add --json-schema / -j flag (#6659)
|
hace 1 año |
Nikolas
|
a474f50ebb
Refactor Error Handling for CUDA (#6575)
|
hace 1 año |
Pierrick Hymbert
|
b804b1ef77
eval-callback: Example how to use eval callback for debugging (#6576)
|
hace 1 año |
Clint Herron
|
57dd02c44b
Tests: Added integration tests for GBNF parser (#6472)
|
hace 1 año |
Clint Herron
|
9b84ae1806
examples : add GBNF validator program (#5948)
|
hace 1 año |
Georgi Gerganov
|
3a0345970e
make : whitespace
|
hace 1 año |
Jared Van Bortel
|
32c8486e1f
wpm : portable unicode tolower (#6305)
|
hace 1 año |
slaren
|
280345968d
cuda : rename build flag to LLAMA_CUDA (#6299)
|
hace 1 año |
slaren
|
ae1f211ce2
cuda : refactor into multiple files (#6269)
|
hace 1 año |
Minsoo Cheong
|
64e7b47c69
examples : add "retrieval" (#6193)
|
hace 1 año |
Pierrick Hymbert
|
21cad01b6e
split: add gguf-split in the make build target (#6262)
|
hace 1 año |
Johannes Gäßler
|
50ccaf5eac
lookup: complement data from context with general text statistics (#5479)
|
hace 1 año |
slaren
|
2f0e81e053
cuda : add LLAMA_CUDA_NO_PEER_COPY to workaround broken ROCm p2p copy (#6208)
|
hace 1 año |
Olivier Chafik
|
5b7b0ac8df
json-schema-to-grammar improvements (+ added to server) (#5978)
|
hace 1 año |
Pierrick Hymbert
|
d0d5de42e5
gguf-split: split and merge gguf per batch of tensors (#6135)
|
hace 1 año |
Pierrick Hymbert
|
d01b3c4c32
common: llama_load_model_from_url using --model-url (#6098)
|
hace 1 año |
Georgi Gerganov
|
131b058409
make : ggml-metal.o depends on ggml.h
|
hace 1 año |
Georgi Gerganov
|
381da2d9f0
metal : build metallib + fix embed path (#6015)
|
hace 1 año |