地端模型真的越來越猛了…
用 GTX 3050 8GB 跑 35B (IQ2_M) 模型,
還能有 30 t/s 的速度
>llama-server.exe -m models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf –mmproj models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf -c 16384 -np 1 -t 6 –flash-attn on –image-min-tokens 1024 –no-mmap


Leave a comment