Histórico de Commits

Autor SHA1 Mensagem Data
  Diego Devesa dea5e86051 ggml : check tensor name lengths in gguf files (#10100) há 1 ano atrás
  Sergio López 1329c0a75e kompute: add mul_mat_q4_k shader (#10097) há 1 ano atrás
  Sergio López 61408e7fad kompute: add backend registry / device interfaces (#10045) há 1 ano atrás
  Diego Devesa b9e02e8184 ggml : fix memory leaks when loading invalid gguf files (#10094) há 1 ano atrás
  Rich Dougherty 6763f713bb readme : more lora detail in main example readme (#10064) há 1 ano atrás
  Rich Dougherty 79a2bc042d convert : more detailed convert lora usage docs (#10065) há 1 ano atrás
  xctan fc83a9e584 ggml : add Q4_0_8_8 RISC-V GEMV and GEMM kernels (#10029) há 1 ano atrás
  Diego Devesa c5b0f4b5d9 llama : refactor model loader with backend registry (#10026) há 1 ano atrás
  Changyeon Kim 8f275a7c45 ggml: Add POOL2D OP for GPU acceleration to the Vulkan backend in the MobileVLM model. (#9763) há 1 ano atrás
  Georgi Gerganov 8d8ff71536 llama : remove Tail-Free sampling (#10071) há 1 ano atrás
  arch-btw 61715d5cc8 llama : Add IBM granite template (#10013) há 1 ano atrás
  Georgi Gerganov 07028f9d74 flake.lock: Update (#10063) há 1 ano atrás
  R0CKSTAR 524afeec9d musa: workaround for Guilty Lockup in cleaning src0 (#10042) há 1 ano atrás
  Georgi Gerganov 8125e6cbfc server : don't overfill the batch during infill (#10018) há 1 ano atrás
  Georgi Gerganov 8841ce3f43 llama : switch KQ multiplication to F32 precision by default (#10015) há 1 ano atrás
  Georgi Gerganov cc2983d375 sync : ggml há 1 ano atrás
  bssrdf 8c60a8a462 increase cuda_cpy block size (ggml/996) há 1 ano atrás
  Georgi Gerganov 9e4a2563ea scripts : fix amx sync [no ci] há 1 ano atrás
  Georgi Gerganov 668750357e metal : support permuted matrix multiplicaions (#10033) há 1 ano atrás
  wwoodsTM ff252ea48e llama : add DRY sampler (#9702) há 1 ano atrás
  Michael Podvitskiy d80fb71f8b llama: string_split fix (#10022) há 1 ano atrás
  Srihari-mcw 2f8bd2b901 llamafile : extend sgemm.cpp support for Q5_0 models (#10010) há 1 ano atrás
  Georgi Gerganov bc5ba007b2 server : check that the prompt fits in the slot's context (#10030) há 1 ano atrás
  Xuan Son Nguyen 958367bf53 server : refactor slot input data, move tokenizer to HTTP thread (#10023) há 1 ano atrás
  Georgi Gerganov 40f2555797 ci : fix cmake flags for SYCL há 1 ano atrás
  Johannes Gäßler 167a515651 CUDA: fix insufficient buffer clearing for MMQ (#10032) há 1 ano atrás
  Johannes Gäßler c39665f589 CUDA: fix MMQ for non-contiguous src0, add tests (#10021) há 1 ano atrás
  wwoodsTM 0a1c750c80 server : samplers accept the prompt correctly (#10019) há 1 ano atrás
  Georgi Gerganov 190a37d797 sync : ggml há 1 ano atrás
  Georgi Gerganov 2d3aba9ee8 llama.vim : bump generation time limit to 3s [no ci] há 1 ano atrás