Historial de Commits

Autor SHA1 Mensaje Fecha
  Nexesenex e80f06d2a1 llama : correction of the attn.v.weight quantization for IQ3_XS (#6209) hace 1 año
  Olivier Chafik f77a8ffd3b tests : conditional python & node json schema tests (#6207) hace 1 año
  Olivier Chafik 72114edf06 json-schema-to-grammar : fix order of props + non-str const/enum (#6232) hace 1 año
  slaren 2f0e81e053 cuda : add LLAMA_CUDA_NO_PEER_COPY to workaround broken ROCm p2p copy (#6208) hace 1 año
  Xiaoyi Chen 29ab270e65 readme : add RecurseChat to the list of UIs (#6219) hace 1 año
  Jan Boon 6b8bb3a31d server : fix n_keep always showing as 0 in response (#6211) hace 1 año
  Georgi Gerganov 68e210b354 server : enable continuous batching by default (#6231) hace 1 año
  Georgi Gerganov b3e94f26ba metal : proper assert for mat-mat memory alignment (#6225) hace 1 año
  Vaibhav Srivastav b2075fd6a5 ci : add CURL flag for the mac builds (#6214) hace 1 año
  Georgi Gerganov 95d576b48e metal : pad n_ctx by 32 (#6177) hace 1 año
  Neo Zhang Jianyu 59c17f02de add blog link (#6222) hace 1 año
  DAN™ fa046eafbc Fix params underscore convert to dash. (#6203) hace 1 año
  Jan Boon be07a03217 server : update readme doc from `slot_id` to `id_slot` (#6213) hace 1 año
  slaren d0a71233fb cuda : disable host register by default (#6206) hace 1 año
  semidark f372c49ccd Corrected typo to wrong file (#6199) hace 1 año
  Georgi Gerganov 924ce1dce7 tests : disable system() calls (#6198) hace 1 año
  slaren 03a8f8fafe cuda : fix LLAMA_CUDA_F16 build (#6197) hace 1 año
  Kawrakow cfd3be76e3 ggml : same IQ4_NL quantization for CPU/CUDA/Metal (#6196) hace 1 año
  Olivier Chafik 5b7b0ac8df json-schema-to-grammar improvements (+ added to server) (#5978) hace 1 año
  Vaibhav Srivastav 1943c01981 ci : fix indentation error (#6195) hace 1 año
  Vaibhav Srivastav 5e43ba8742 build : add mac pre-build binaries (#6182) hace 1 año
  Kawrakow 76aa30a263 Add ability to use Q5_0, Q5_1, and IQ4_NL for quantized K cache (#6183) hace 1 año
  AidanBeltonS c5b8595e3f Add nvidia and amd backends (#6157) hace 1 año
  slaren 42e21c6882 cuda : fix conflict with std::swap (#6186) hace 1 año
  slaren 1c51f98adc cuda : print the returned error when CUDA initialization fails (#6185) hace 1 año
  Ziang Wu f9c7ba3447 llava : update MobileVLM-README.md (#6180) hace 1 año
  Ziang Wu 272935b281 llava : add MobileVLM_V2 backup (#6175) hace 1 año
  slaren ccf58aa3ec cuda : refactor to remove global resources (#6170) hace 1 año
  Xuan Son Nguyen 91f8ad167d Server: version bump for httplib and json (#6169) hace 1 año
  Georgi Gerganov 6b7e76d28c gitignore : ignore curl-related files hace 1 año