Historie revizí

Autor SHA1 Zpráva Datum
  Kawrakow a14679cc30 IQ4_NL: 4-bit non-linear quants with blocks of 32 (#5590) před 1 rokem
  Xuan Son Nguyen 9c405c9f9a Server: use llama_chat_apply_template (#5593) před 1 rokem
  Georgi Gerganov f53119cec4 minor : fix trailing whitespace (#5538) před 1 rokem
  Xuan Son Nguyen 11b12de39b llama : add llama_chat_apply_template() (#5538) před 1 rokem
  Kawrakow bd2d4e393b 1.5 bit quantization (#5453) před 1 rokem
  Georgi Gerganov 8f1be0d42f ggml : add ALiBi support for ggml_soft_max_ext (#5488) před 1 rokem
  Herman Semenov 65085c713e llama : minor fixed return int value (#5529) před 1 rokem
  bmwl f486f6e1e5 ggml : add numa options (#5377) před 1 rokem
  Douglas Hanley 4524290e87 Use correct type of pooling for embedding models (#5500) před 1 rokem
  Jared Van Bortel ea9c8e1143 llama : add support for Nomic Embed (#5468) před 1 rokem
  Aarni Koskela c4e6dd59e4 llama : allow raw byte in SPM vocabs; don't crash on nl 404 (#5478) před 1 rokem
  Aarni Koskela 037259be68 llama : make load error reporting more granular (#5477) před 1 rokem
  Georgi Gerganov cf45252a7c tests : multi-thread the tokenizer tests (#5474) před 1 rokem
  Douglas Hanley 03bf161eb6 llama : support batched embeddings (#5466) před 1 rokem
  Georgi Gerganov 49cc1f7d67 bert : add tests + fix quantization (#5475) před 1 rokem
  Georgi Gerganov 099afc6274 llama : fix quantization when tensors are missing (#5423) před 1 rokem
  Georgi Gerganov 3b169441df sync : ggml (#5452) před 1 rokem
  Douglas Hanley 2891c8aa9a Add support for BERT embedding models (#5423) před 1 rokem
  snadampal a07d0fee1f ggml : add mmla kernels for quantized GEMM (#4966) před 1 rokem
  Paul Tsochantaris e5ca3937c6 llama : do not cap thread count when MoE on CPU (#5419) před 1 rokem
  slaren 41f308f58e llama : do not print "offloading layers" message in CPU-only builds (#5416) před 1 rokem
  Johannes Gäßler b7b74cef36 fix trailing whitespace (#5407) před 1 rokem
  runfuture 4aa43fab56 llama : fix MiniCPM (#5392) před 1 rokem
  Johannes Gäßler 26d4efd11e sampling: fix top_k <= 0 (#5388) před 1 rokem
  0cc4m ee1628bdfe Basic Vulkan Multi-GPU implementation (#5321) před 1 rokem
  runfuture 316c7faf77 llama : add MiniCPM support (#5346) před 1 rokem
  Kawrakow 89503dcb5f iq3_xxs: quards for the no-imatrix situation (#5334) před 1 rokem
  Jared Van Bortel 1ec3332ade YaRN : store rope scaling type as int32_t in memory (#5285) před 1 rokem
  Ian Bull e1e721094d llama : fix memory leak in llama_batch_free (#5252) před 2 roky
  Guoteng ce32060198 llama : support InternLM2 (#5184) před 2 roky