本地部署AI Agent,6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

发布时间:2026/7/3 2:44:21
本地部署AI Agent,6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程 读完这篇你能做到这三件事1️⃣ 用 6G 显存跑 35B 超大模型MoE 架构的黑魔法2️⃣ 把你的 Windows 电脑变成一台完全不花钱、不联网、无限 token 的本地 AI 服务器3️⃣ 接入 Hermes Agent打造真正属于自己的 AI 助手——数据不出本机一、先看最终效果你的个人 AI 基础设施浏览器打开http://localhost:8080。你能看到一个完整的对话界面像 ChatGPT 一样聊天上传图片模型能看图分析、OCR 识别、描述画面接入 Hermes Agent 后它能自动查资料、写代码、执行命令、调用工具全程本地运行。不消耗任何 API 费用。数据不出你的电脑。没有 token 限制想聊多少聊多少。二、为什么是这个模型MoE 架构详解2.1 35B 总参数只激活 3BQwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoEMixture of Experts模型Apache 2.0 协议完全开源。它的核心创新在于35B 总参数但每次推理只激活 3B 参数。这意味着它拥有 35B 模型的知识容量但只消耗 3B 模型的算力。SWE-bench Verified 得分73.4%超过了全部激活 31B 参数的 Gemma 4-31B52.0%。在 Artificial Analysis 排行榜上40B 以内开源模型中属于第一梯队。2.2 MoE 不是偷工减料是架构创新很多人第一次听说 MoE 时会有疑惑35B 参数为什么只激活 3B这不是欺诈吗传统 Dense 模型35B 参数全部参与每次推理。以 FP16 精度计算仅加载模型就需要 70GB 显存。量化到 Q4 也需要约 20GB。普通消费级显卡根本扛不住。MoE 模型35B 参数被分成256 个专家Expert外加一个路由网络Router。对于每个输入 token路由器只挑选最相关的 9 个专家激活其余专家处于休眠状态。实际激活参数量仅约 3B。打个比方传统模型像一个 35 人的公司无论什么任务所有人都得参与——写一行代码也要 35 个人开会。MoE 模型像一个 35 人的专家团队收到任务后“项目经理”路由器快速判断任务类型只派 2-3 个最擅长的人去干。所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存跑起来的速度接近 3B 模型但输出质量接近 35B 模型。这不是参数注水这是架构效率的革命。2.3 与其他本地模型的对比模型架构总参数量激活参数6G显存可跑SWE-benchQwen3.6-35B-A3BMoE35B3B✅ (IQ2_M)73.4%Qwen2.5-32BDense32B32B❌-Llama 3.1-8BDense8B8B✅ (Q4)~25%Gemma 4-31BDense31B31B❌52.0%DeepSeek-V2-LiteMoE16B2.4B✅-可以看到在 6G 显存能跑的模型中Qwen3.6-35B-A3B 是知识密度最高的选择。它用 MoE 架构打破了显存大小决定模型大小的物理限制。三、前提条件你的电脑能跑吗配置项最低要求推荐配置操作系统Windows 10/11 64位Windows 11 64位显卡显存6GB8-12GB系统内存16GB32GB磁盘空间25GB40GBSSD显卡类型NVIDIA/AMD/Intel 独显NVIDIA RTX 30/40 系列**⚠️ 注意**纯 CPU 也能跑但速度会慢很多。以 IQ2_M 量化为例CPU 模式下约 1-2 token/sGPU 加速可达 10-30 token/s。强烈建议使用支持 CUDA 的 NVIDIA 显卡。四、阶段一下载 llama.cpp——本地推理引擎第一步选择正确版本打开 llama.cpp Releases找最新版本本文写作时最新为 b9326。你的显卡下载文件NVIDIA RTX 30/40 系列llama-b9326-bin-win-cuda-12.4-x64.zipAMD RX 系列llama-b9326-bin-win-hip-radeon-x64.zipIntel Arcllama-b9326-bin-win-vulkan-x64.zip没有独显llama-b9326-bin-win-cpu-x64.zip**NVIDIA 用户注意**除了主包还要下载cudart-llama-bin-win-cuda-12.4-x64.zip它包含 CUDA 运行时 DLL缺失会导致启动报错。第二步解压与目录准备⚠️ 铁律路径不能有中文。llama.cpp 对中文路径支持不佳解压到中文目录会报各种莫名其妙的错误。将压缩包解压到纯英文路径例如D:\llama-cpp或C:\llama。CUDA 用户把 DLL 包的内容也解压到同一目录覆盖相同文件即可。新建一个models子目录D:\llama-cpp\ ├── llama-server.exe ← 主程序这是我们要用的 ├── llama-cli.exe ← 命令行推理工具 ├── llama-quantize.exe ← 量化工具 ├── models\ ← 放模型文件 │ ├── Qwen3.6-35B-A3B-Q4_K_M.gguf │ └── mmproj-Qwen3.6-35B-A3B-f16.gguf └── *.dll (CUDA DLLs) 科普llama.cpp 是什么llama.cpp 是一个纯 C/C 实现的大模型推理引擎由社区开发者 ggerganov 创建。它不依赖 Python、PyTorch 等重型框架只需一个 exe 就能跑大模型。它支持 GGUF 格式一种高效的模型量化格式自带 K-Quants 量化算法能将模型从 FP16 压缩到 2-8 bit同时尽量保持精度。它还内置了 HTTP 服务器llama-server提供兼容 OpenAI API 的接口让任何支持 OpenAI SDK 的工具都能接入。五、阶段二下载模型——选择合适的量化等级第三步理解 GGUF 量化GGUF 是 llama.cpp 团队开发的模型文件格式。简单说它将模型权重从原始的 FP32/FP16 压缩到更低的精度。就好像把一张超高分辨率照片从 RAW 格式压缩成 JPEG——文件小了但人眼看不出太大差别。在 HuggingFace 搜索Qwen3.6-35B-A3B GGUF推荐从 bartowski 或 unsloth 的仓库下载他们是 GGUF 格式的主要贡献者量化质量有保障。显存推荐量化文件大小系统内存推理速度说明24GB (4090)Q4_K_M~21GB16GB~130 tok/s完全GPU极致速度12-16GBIQ4_XS~19GB32GB~40-60 tok/s分层加载部分走内存8GBQ3_K_M / IQ4_NL~16GB32GB~15-30 tok/s大部分走内存6GBIQ2_M~11GB16GB~8-15 tok/s几乎全走内存GPU仅辅助量化级别说明Q4_K_M4-bit K-quants 的中间版本精度和压缩率的最佳平衡点推荐显存充足时使用Q3_K_M3-bit K-quants牺牲少量精度换取更小体积IQ2_M2-bit 工业量化压缩率最高但精度损失最大是 6G 显存的救命稻草**还要下载这个文件**想要多模态看图功能还必须下载对应的mmproj投影文件约 1.3GB。这个文件负责将视觉编码器的输出投影到语言模型的嵌入空间让 LLM 能看懂图片。没有它上传按钮会灰色不可点击。全部放进models\目录。 为何量化版本的模型文件比原始参数小这么多原始 FP16 精度35B × 2 bytes 70GBQ4_K_M 量化后35B × 0.5 bytes ≈ 17.5GB加上 overhead 约 21GBIQ2_M 量化后35B × 0.25 bytes ≈ 8.75GB加上 overhead 约 11GB这就是量化的魔力——用 15%-30% 的精度损失换来 4-8 倍的显存节省。六、阶段三启动模型——让大模型跑起来第四步一条命令启动在D:\llama-cpp\目录打开 PowerShellShift 右键空白处 → 在此处打开 PowerShell。纯文本对话不需要看图.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080多模态支持看图.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 80806G 显存用户用 IQ2_M缩小 context.\llama-server.exe -m “models\Qwen3.6-35B-A3B-IQ2_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 8192 -n 4096 --jinja --port 8080参数详解-m模型文件路径--mmproj多模态投影文件路径。不加就不能看图-ngl 999尽量把模型层卸载到 GPU 显存。999 是能放就放放不下的自动走系统内存-c上下文长度context size。8192 ≈ 6000 字中文。显存小就设小一点-n最大生成长度max tokens。4096 ≈ 3000 字中文--jinjaQwen3.6 必须加这个参数。它启用 Jinja2 模板引擎来渲染聊天模板。不加会出现回复异常、格式错乱、无限重复等问题--portHTTP 服务端口默认 8080看到这行输出就成功了main: server is listening on http://127.0.0.1:8080浏览器打开 http://localhost:8080。你就能看到一个完整的聊天界面了。第五步一键启动脚本每次敲命令太烦。新建一个启动模型.cmd文件粘贴以下内容echo off chcp 65001 nul cd /d %~dp0 echo echo Qwen3.6-35B-A3B 本地大模型启动器 echo echo. echo [1] Q4_K_M24G 显存推荐高速 echo [2] IQ4_NL8-12G 显存均衡 echo [3] IQ2_M6G 显存省显存模式 echo [4] 自定义模型文件 echo. set /p choice请输入数字 [1-4] if %choice%1 set MODELQwen3.6-35B-A3B-Q4_K_M.gguf set CTX-c 32768 -n 8192 if %choice%2 set MODELQwen3.6-35B-A3B-IQ4_NL.gguf set CTX-c 32768 -n 8192 if %choice%3 set MODELQwen3.6-35B-A3B-IQ2_M.gguf set CTX-c 8192 -n 4096 .\llama-server.exe -m models\%MODEL% -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080 pause放在D:\llama-cpp\目录双击运行即可。七、阶段四接入 Hermes Agent——你的本地 AI 助手第六步安装 Hermes AgentHermes Agent 是一个开源的 AI Agent 框架支持本地部署。它能让大模型自动规划任务、调用工具、执行代码。pipx install hermes-agent pipx 是什么pipx 是一个专门用于安装 Python 命令行工具的包管理器。它会为每个工具创建独立的虚拟环境避免依赖冲突。如果你还没安装 pipx先运行python -m pip install pipx第七步配置连接本地模型hermes model选择Custom endpoint然后填写Base URLhttp://127.0.0.1:8080/v1API Key任意值或留空Model留空即可验证配置在终端输入hermes然后发一条消息。如果 Agent 正常回复同时 llama-server 窗口有请求日志就说明全部搞定。第八步Hermes Agent 能做什么接入后你的本地模型不再只是聊天机器人而是真正能干活的 AI 助手自动执行任务“帮我写一个 Python 脚本读取当前目录下所有 CSV 文件并合并”调用工具它可以搜索文件、运行命令、操作 API自主规划复杂任务可拆解为多个步骤逐步执行代码生成生成代码并自动运行调试图片分析上传截图让它分析问题、提取文字八、拓展应用你的电脑 AI 基础设施跑起来之后你的电脑就变成了一台完整的 AI 服务器远超聊天的范畴8.1 当 OpenAI API 的平替任何支持 OpenAI SDK 的工具只要把base_url改成http://localhost:8080/v1就能直接使用本地模型。举例from openai import OpenAI client OpenAI( base_urlhttp://localhost:8080/v1, api_keynot-needed ) response client.chat.completions.create( modelnot-needed, # llama.cpp 会自动使用已加载的模型 messages[ {role: system, content: 你是一个AI编程助手}, {role: user, content: 用Python写一个冒泡排序} ], max_tokens2048, temperature0.7 ) print(response.choices[0].message.content)8.2 接入本地知识库结合 LangChain 或 LlamaIndex喂入你的私有文档构建完全本地运行的 RAG 系统pip install langchain langchain-community chromadb # 示例用本地模型做文档问答 from langchain_community.llms import LlamaCpp from langchain.chains import RetrievalQA from langchain_community.vectorstores import Chroma # ... 你的文档全部本地处理数据不出本机8.3 作为 IDE 的 AI 插件后端在 Continue.dev 或 Tabby 等代码补全工具中将 API 端点指向本机让 AI 辅助编程Continue.dev 配置apiBase: http://localhost:8080代码审查、重构建议、测试生成——全部本地完成九、常见坑与排查指南症状原因解决方案启动报错file not found路径有中文或模型文件名不对检查路径纯英文确认文件确实在 models 目录下error loading modelGGUF 文件损坏或未下载完整重新下载检查文件大小是否与 HuggingFace 标注一致回复异常、无限重复启动时没加--jinja加上--jinja参数重启上传图片按钮灰色没下载 mmproj 文件下载 mmproj 文件启动时加--mmproj参数missing DLL错误CUDA DLL 缺失下载 cudart 包DLL 放到同一目录显存爆了(OOM)Context 太大或量化等级太高减小-c或换更低的量化Q3→IQ2模型文件只有几十KBHuggingFace 下载受限用curl -I URL验证链接或换镜像源速度极慢 2 tok/s没有 GPU 加速或-ngl太小确认-ngl 999参数开启检查是否使用 CUDA 版本Hermes Agent 连不上Base URL 配置错误确认 llama-server 已启动且端口正确十、性能调优让你的模型跑得更快10.1 关键参数调优建议-ngl调优对于 6G 显存-ngl 20到-ngl 30可能比-ngl 999更快因为减少了显存-内存之间的频繁数据交换。建议从-ngl 999开始然后逐步调低找到最佳吞吐量点。Thread 数加-t 6到-t 8指定 CPU 线程数充分发挥多核性能。Batch size-ub 1024可以充分利用 GPU 并行计算能力。Flash Attention加--flash-attn可以显著降低显存占用特别是长上下文场景。优化版启动命令.\llama-server.exe -m models\Qwen3.6-35B-A3B-IQ2_M.gguf --mmproj models\mmproj-Qwen3.6-35B-A3B-f16.gguf -ngl 28 -c 8192 -n 4096 -t 8 -ub 1024 --flash-attn --jinja --port 808010.2 不同配置的预期性能配置组合量化推理速度首 token 延迟体验评分RTX 4090 64GB 内存Q4_K_M~130 tok/s 0.5s⭐⭐⭐⭐⭐RTX 3060 12GB 32GBIQ4_XS~40-60 tok/s~1s⭐⭐⭐⭐RTX 2060 6GB 32GBIQ2_M~8-15 tok/s~2-3s⭐⭐⭐纯 CPU (i7-13700 32GB)IQ2_M~1-3 tok/s~5-10s⭐⭐** 体验建议**如果能达到 10 tok/s 以上普通对话已经足够流畅。6-8 tok/s 可以接受但稍有等待感。低于 5 tok/s 更适合做批量处理而非实时对话。十一、MoE 架构的深层理解最后让我们深入理解一下 MoE 到底是怎么回事。毕竟你正在使用的这个模型就是靠这种架构才得以在 6G 显存上运行的。11.1 MoE 的工作流程每个 MoE 层包含三部分共享专家Shared Expert所有 token 都必须经过处理通用知识路由专家Routed Experts256 个专家各有专长路由器Router一个轻量级网络决定每个 token 应该由哪些专家处理当一个 token 进入 MoE 层路由器给 256 个专家打分选择得分最高的 9 个专家top-9 routing只有这 9 个专家 1 个共享专家参与计算输出加权合并这就是35B 总参3B 激活的来源256 个专家中只激活 9 个加上共享专家的参数实际每 token 只跑约 3B 参数。11.2 MoE 的负载均衡MoE 面临的一个核心挑战是负载均衡如果路由器总是派任务给同一个专家其他专家就饿死了。这会导致模型部分参数从未被训练损害容量。Qwen3.6 的解决方案包括辅助损失Auxiliary Loss在训练时惩罚不均衡的路由分配专家容量限制每个专家的 token 处理数有上限路由器正则化鼓励更均匀的专家选择这也是为什么 MoE 模型在推理时虽然效率极高但训练时需要更多技巧。好在——我们只用推理不用训练。11.3 MoE 与量化双重压缩的艺术Qwen3.6-35B-A3B 能在 6G 显存上运行其实用到了两层压缩MoE 层推理时只激活 ~9% 的参数35B → 3B量化再将每个参数从 16-bit 压缩到 2-bit3B × 2 bytes → 3B × 0.25 bytes 0.75GB实际显存占用还包括 KV Cache约 2-4GB、中间激活值、mmproj 等 overhead所以最终 6G 显存刚好能跑起来。如果你仔细算就会发现不是 MoE 模型太小而是压缩技术太强。十二、本地 AI 时代的意义Qwen3.6-35B-A3B 的出现加上 llama.cpp Hermes Agent 的工具链意味着AI 不再是云端特权。一台普通电脑就能跑起能打的大模型数据主权回归用户。敏感数据不必上传第三方 API零边际成本。没有 token 计费没有月费想用多少用多少可定制、可离线。断网也能用没有审查限制以前我们需要 24GB 显存才能流畅运行的 7B 模型现在已经可以在 6GB 显存上跑 35B 模型。这不仅仅是效率的提升更是本地 AI 从玩具向工具跨越的标志性节点。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】