Historial de Commits

Autor SHA1 Mensaje Fecha
  Gabe Goodhart 5e7d95e22e fix: Move build_inp_pos to the top of the graph section for build_granite (#13538) hace 8 meses
  Gabe Goodhart d590cd4c24 model : Granite MoE shared (#13269) hace 8 meses
  Johannes Gäßler 10d2af0eaa llama/ggml: add LLM training support (#10544) hace 8 meses
  Diego Devesa 27ebfcacba llama : do not crash if there is no CPU backend (#13395) hace 8 meses
  Xuan-Son Nguyen 3f96aeff39 llama : one-off chat template fix for Mistral-Small-2503 (#13398) hace 8 meses
  Georgi Gerganov 6562e5a4d6 context : allow cache-less context for embeddings (#13108) hace 8 meses
  Diego Devesa f061021206 llama : print size and type of overridden tensors (#13364) hace 8 meses
  Sigbjørn Skjæret bc4e1128f7 llama : deci : support ffn-free with attention (#13296) hace 8 meses
  piDack 6c7fd67b64 llama : support tie embedding for chatglm models (#13328) hace 8 meses
  ymcki 3bf785f3ef llama : Llama-3_1-Nemotron-Ultra-253B-v1 support (#12843) hace 8 meses
  Jared Van Bortel 2f567611c0 llama-model : support Qwen2 embedding models and pooling_mode_lasttoken (#13245) hace 8 meses
  Georgi Gerganov c642bc014c kv-cache : separate recurrent vs non-recurrent impl (#12799) hace 8 meses
  Sigbjørn Skjæret cb06a3c363 llama : orion rope type is neox (#13261) hace 8 meses
  Sigbjørn Skjæret 626083faf7 llama : plamo rope type is neox (#13260) hace 8 meses
  Jared Van Bortel a70183eb00 llama-model : fix the reported size class for nomic-embed-text-v2-moe (#13223) hace 8 meses
  Johannes Gäßler cdf76586b2 CUDA: fix non-cont. inputs for batched mat mul (#13155) hace 8 meses
  Sigbjørn Skjæret 7d3af70b08 llama : llm_type order by size (#13177) hace 8 meses
  Sigbjørn Skjæret e98b3692be llama : set qwen3 model type sizes (#13175) hace 8 meses
  AT 5f5e39e1ba model : Nomic Embed Text V2 with Mixture-of-Experts (MoE) architecture (#12466) hace 8 meses
  Johannes Gäßler 69699be48a CUDA: fix q_nope_absorbed prec for DS 2 Lite f16 (#13137) hace 8 meses
  Georgi Gerganov 2f74c354c0 graph : make FA compatible with MLA + add initial Metal kernels (#12953) hace 9 meses
  Juk Armstrong daa422881a llama : DeepSeek V2/V3 MLA implementation (#12801) hace 9 meses
  Yuxuan Zhang 06bb53ad9b llama-model : add Glm4Model implementation for GLM-4-0414 (#12867) hace 9 meses
  Xuan-Son Nguyen 8b91d5355a llama : correct rms norm for llama 4 (#12882) hace 9 meses
  Bo Zheng d3bd7193ba llama : Support Qwen3 and Qwen3MoE (#12828) hace 9 meses
  Xuan-Son Nguyen 1466621e73 llama : Support llama 4 text-only (#12791) hace 9 meses
  Diego Devesa e0e912f49b llama : add option to override model tensor buffers (#11397) hace 9 meses
  Sigbjørn Skjæret 2c3f8b850a llama : support BailingMoE (Ling) (#12634) hace 9 meses
  Djip007 0bb2919335 llama : change cpu_buft_list order: ACCEL -> GPU host -> CPU extra -> CPU (#12632) hace 9 meses
  Sigbjørn Skjæret 3714c3ee1a llama : fix incorrect Qwen2Moe ffn_moe_out graph callback (#12631) hace 9 meses