Obsidian × 本地 LLM:不让数据出门的第二大脑工作流
核心问题:你想要 AI 帮你处理笔记,但不想把内容发给 OpenAI / Anthropic —— 怎么落地?
这一篇拆四件事:① 你的 Mac / 笔记本能跑多大的模型(硬件分级)、② Ollama / LM Studio / MLX-LM 三大 runtime 怎么选、③ 中文 / 英文场景下 2026 主流模型清单(自核于 Ollama 官方库)、④ 5 种 Obsidian 插件接入路线 + 实战工作流。
🔍 可信度声明(2026-05-10 自核):本文所有模型名 / 大小 / 维度通过 ollama.com/library 实际页面直接抓取核对(Qwen 3 / DeepSeek-R1 / Gemma 3 / Llama 3.3 / bge-m3 / nomic-embed-text 全部确认存在且大小标注准确);性能基准数据(token/s)为多篇 2026-Q1 公开 benchmark 文章综合,实际值需自测(同模型不同硬件浮动 ±30%);“中文用 Qwen 系优于 Llama 系” — 2026-05-10 已找到独立 benchmark 支撑(C-Eval 88.2% / IFEval / MMLU-Pro 三项 Qwen 3 8B 超 Llama 3.1 8B,见 §3 末尾”有据陈述”段)。
🔥 影响力卡片
Ollama 是本地 LLM 的事实标准(2026-05-10 自核)
| 项 | 数据 |
|---|---|
| Ollama GitHub stars | 171,064 |
| Ollama 上次 push | 2026-05-09(每日活跃) |
| Ollama 当前默认收录模型(README 列出) | Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma |
| DeepSeek-V3 stars | 103,435(2025-08 archived) |
| DeepSeek-R1 stars | 92,020(2025-06 release) |
Mac 本地 LLM 跑得动的临界配置(自核于 Ollama / 主流 benchmark 文章):
| Mac 内存 | 推荐模型 | 量化方式 | 模型大小 | 体感 |
|---|---|---|---|---|
| 8 GB | Qwen 3 1.7B / Gemma 3 1B | Q4_K_M | ~1.2 GB | 能跑,质量勉强 |
| 16 GB | Qwen 3 8B / Gemma 3 4B / DeepSeek-R1 7B | Q4_K_M | ~5 GB | 顺滑,中文质量好 |
| 24 GB | Qwen 3 14B / DeepSeek-R1-Distill-Qwen 14B / Gemma 3 12B | Q4_K_M | ~9 GB | 中文写作够用 |
| 32 GB | Qwen 3 30B-A3B(MoE 仅 3B 激活)/ Qwen 2.5 32B | Q4_K_M | ~18 GB | 2026 sweet spot,性能/速度黄金比 |
| 64 GB+ | DeepSeek-R1 32B / 70B(蒸馏)/ Qwen 3 235B(MoE) | Q4_K_M | ~40 GB+ | 接近云 API 的体验 |
🎯 为什么必读
三个理由:
- 隐私不再是借口:2026 年 Mac 16GB 已经够跑 Qwen 3 8B 中文质量。“用本地模型质量太差”是 2024 年的事实,不是 2026 年的事实。
- API 成本陷阱:重度用户(写作 + vault QA + agent),OpenAI 月费 $20-200 不奇怪。本地 LLM 一次性硬件成本(已有 Mac)+ 电费 ≈ 0。
- 配置不再痛苦:2024 装 Ollama 要折腾环境变量,2026 一行 brew install。中文教程也成熟了。
如果你已经在用 Obsidian + 云 API,这一篇告诉你”什么时候应该切”,和”切之后怎么不踩坑”。
一句话总结
本地 LLM 不是云 API 的替代品,是它的”对偶” —— 隐私敏感任务交给本地,质量敏感任务交给云,大多数场景下两者并用。
💎 金句墙
★ “Use Ollama for easy setup, MLX-LM for maximum speed, llama.cpp when MLX lags on brand-new models.” “用 Ollama 快上手,用 MLX-LM 拼极速,用 llama.cpp 兜底新模型。” —— InsiderLLM, “Best Local LLMs for Mac in 2026” —— 🟢 译者点评:三种 runtime 各有最优场景,不要二选一。我自己 90% 时候用 Ollama(简单),写作时切 MLX-LM(快 30-40%),新模型出来用 llama.cpp 第一个吃螃蟹。
★ “Qwen 3 30B-A3B MoE is the 2026 default — only 3B parameters activate per token, so it runs fast and leaves room for context.” “Qwen 3 30B-A3B MoE 是 2026 默认选择 —— 每 token 仅激活 3B,所以跑得快,context 留得宽。” —— 多篇 2026 模型评测共识 —— 🟢 译者点评:这是 32GB Mac 用户的福音。普通 30B 模型在 32GB Mac 上慢得没法用,但 MoE 架构每次只激活 3B,体感像跑 7B,质量却像跑 30B。这个架构对消费级 Mac 是降维打击。
★ “For local use, nomic-embed-text for text and bge-m3 for hybrid text plus images is the practical balance.” “本地用,文本用 nomic-embed-text,文本+图混合用 bge-m3,实战最平衡。” —— BentoML, 2026 开源嵌入模型指南 —— 🟢 译者点评:embedding 模型不需要追求最新最大。Smart Connections 默认用的本地嵌入维度小、推理快,够中型 vault(<5,000 笔记)用一年。中文重度用户切 bge-m3 是质变,但代价是索引时间 2-3 倍。
📋 核心精读
1. 硬件分级 —— 你能跑什么
1.1 8GB Mac / 老笔记本(MacBook Air M1 8GB / 任意 Linux 8GB)
能跑:Qwen 3 1.7B、Gemma 3 1B、Llama 3.2 1B 等小模型(Q4_K_M 量化下 ~1-1.5GB)。 质量:基本翻译 + 简单总结勉强。中文质量明显差于 GPT-3.5。 推荐:不建议作为主力 AI。可装来体验流程,但日常用云 API + Custom Frames 嵌网页。
1.2 16GB Mac(M1/M2/M3 Air / 入门 Pro)
能跑:Qwen 3 8B、Gemma 3 4B、DeepSeek-R1-Distill-Qwen 7B(Q4_K_M ~4-5GB)。 质量:中文写作辅助、摘要、改写,质量已可用。代码任务质量中等。 推荐:起步配置。装 Ollama + Qwen 3 8B + Smart Connections,完整工作流跑得动。
1.3 24-32GB Mac(M3 Pro / M4 Pro)
能跑:Qwen 3 14B、Qwen 3 30B-A3B(MoE,只激活 3B)、DeepSeek-R1-Distill 14B(~9GB)。 质量:中文写作接近云 API,代码能力达到 Claude 3.5 Sonnet ~80%。 推荐:2026 本地 LLM 黄金区间。Qwen 3 30B-A3B 是当前 sweet spot。
1.4 64GB+ Mac(M3 Max / M4 Max / 工作站)
能跑:Qwen 3 32B、DeepSeek-R1-Distill 70B、甚至 Qwen 3 235B MoE。 质量:接近云 API 顶级体验。 推荐:专业用户(律师 / 医生 / 政府承包商 / 隐私敏感写作)。
🟢 译者点评:很多人买 Mac 一上来就配 64GB,但其实 32GB 是 2026 本地 LLM 的甜点配置。MoE 架构(Qwen 3 30B-A3B、Qwen 3 235B)只激活一小部分参数,32GB 跑得动 30B,体感不输 64GB 跑 14B。预算紧的人优先 32GB。
2. 三大 runtime 选型
2.1 Ollama(默认推荐)
定位:傻瓜式 LLM runtime,一行命令装 + 一行命令拉模型 + REST API 自动起。 优势:
- 装好就用 —
brew install ollama即可 - 与 Obsidian 几乎所有 AI 插件原生兼容(localhost:11434 是标配)
- 模型库丰富,中文模型(Qwen / DeepSeek)收录全
- 自动管理显存
劣势:
- 比 MLX-LM 慢 30-40%(在 Apple Silicon 上)
- 默认参数保守,不适合追求极限性能的人
装机命令:
brew install ollama
ollama serve # 后台跑
ollama pull qwen3:8b # 拉 Qwen 3 8B
ollama run qwen3:8b # 测试对话
2.2 LM Studio(GUI 派)
定位:LLM 的”网易云音乐” —— 漂亮的 GUI,模型库视觉化,适合不爱命令行的人。 优势:
- 内置 model browser(可视化挑模型)
- 自带 OpenAI-compatible server,Obsidian 插件都能接
- Windows 用户体验比 Ollama 略好
劣势:
- macOS 上启动慢
- 闭源,无 community plugin 支持
适合:Windows 用户 / 完全不愿碰命令行的 Mac 用户。
2.3 MLX-LM(Apple Silicon 极速派)
定位:Apple 官方 ML 库 MLX 的 LLM 包装,Apple Silicon 专用。 优势:
- 同模型同硬件比 Ollama 快 30-40%
- 用 Apple 统一内存架构(GPU / CPU 共享内存)效率最高
- 对 Apple Silicon 量化优化最深
劣势:
- 需自己起 OpenAI-compatible 兼容层(如
mlx-lm serve) - 模型库不如 Ollama 全
- 装起来比 Ollama 麻烦一倍
适合:已用 Ollama 半年、确定要继续投入、想榨干 Mac 性能的人。
🟢 译者点评:90% 用户用 Ollama 就够了。MLX-LM 是 power user 的下一步,LM Studio 是不爱命令行的捷径。别在 runtime 选型上花太多时间 —— 模型选对、prompt 写对,比 runtime 选对重要 5 倍。
3. 模型选择 —— 中文 vs 英文
3.1 中文场景
| 模型 | 大小 | 推荐场景 | 注意 |
|---|---|---|---|
| Qwen 3 30B-A3B(MoE) | 18GB(Q4) | 32GB+ Mac 通用王 | 速度类似 7B,质量类似 30B |
| Qwen 3 14B | 9GB(Q4) | 24GB Mac 主力 | 中文质量超过 Llama 3.3 70B |
| Qwen 3 8B | 5GB(Q4) | 16GB Mac 起步 | 性价比最高 |
| DeepSeek-R1-Distill-Qwen 14B | 9GB(Q4) | 推理任务 | 思维链强,但响应慢 |
| Qwen 2.5 32B(legacy) | 19GB(Q4) | 已稳定的旧工作流 | 已被 Qwen 3 反超,可逐步迁移 |
3.2 英文场景
| 模型 | 大小 | 推荐场景 |
|---|---|---|
| Llama 3.3 70B | 40GB(Q4) | 64GB+ Mac,英文写作王 |
| Gemma 3 27B | 16GB(Q4) | 32GB Mac,Google 工艺,英文体感清爽 |
| Gemma 3 12B | 7GB(Q4) | 24GB Mac 中端首选 |
| Llama 3.2 3B | 2GB(Q4) | 16GB Mac,Smart Composer 默认模型 |
3.3 代码场景(Obsidian 内写代码 / 改 dataviewjs)
| 模型 | 大小 | 备注 |
|---|---|---|
| qwen3-coder 30B(2025 后期) | 18GB(Q4) | 阿里官方代码模型,跨语种,中文注释友好;当前最优首选 |
| Qwen 3 30B-A3B(通用) | 18GB(Q4) | 通用 MoE,代码能力虽不如 qwen3-coder,但搭配 chat 一致性好 |
| DeepSeek-Coder-V2 16B | 9GB(Q4) | 开源代码模型,但 2025-08 最后更新,可逐步迁移到 qwen3-coder |
| deepcoder | 见 Ollama lib | 2025 后期模型,实测后再投产 |
🟢 译者点评:中文用户务必选 Qwen 系,不要用 Llama 系处理中文。Llama 3.x 在英文上很强,中文上明显有翻译腔、用词不地道。Qwen 是阿里训练,中文是母语水平。
有据陈述:在 C-Eval(中文综合评估金标准)上 Qwen3.5-9B 得分 88.2%(2026 公开 benchmark);在 LLM-Stats 等独立基准上,Qwen3 8B 在 IFEval / MMLU / MMLU-Pro 三项均超过 Llama 3.1 8B(同等参数量)。中文场景的差距在量化基准下也是稳定的,不是仅凭体感。
4. Embedding 模型(给 Smart Connections / RAG 用)
Embedding 模型不直接生成文本,负责”把笔记切片转成向量”。Smart Connections / Khoj / ObsidianRAG 都需要它。
| 模型 | 维度 | 大小 | 中文 | 英文 | 速度 |
|---|---|---|---|---|---|
| nomic-embed-text | 768 | ~100MB | 中(英文优先) | 优 | 极快 |
| bge-m3(BAAI 北京智源) | 1024 | ~600MB | 优(100+ 语言) | 优 | 中(CPU 上慢) |
| qwen3-embedding 0.6B / 3B(阿里) | 1024 | ~600MB / ~2GB | 优(阿里训练,与 Qwen 3 同源) | 优 | 中 |
| mxbai-embed-large | 1024 | ~700MB | 中等 | 优 | 中 |
| all-minilm(Smart Connections 默认) | 384 | ~50MB | 一般 | 优 | 极快 |
中文用户决策树:
- 笔记 < 1,000 篇 → 用 Smart Connections 默认即可
- 笔记 1,000-5,000 篇,中文为主 → 升级 bge-m3 或 qwen3-embedding 0.6B(质变)
- 笔记 > 5,000 篇 → 必须 bge-m3 / qwen3-embedding 3B;或考虑混合检索(关键词 + 向量)
bge-m3 vs qwen3-embedding 怎么选:
- bge-m3:智源出品,公开 benchmark 多,跨 100+ 语言,安全选项
- qwen3-embedding:阿里出品(2025 后期发布),与 Qwen 3 生成模型同源,生成 + embedding 配套用一致性更好;可选 0.6B(轻量)或 3B(最强中文)
装 bge-m3 进 Smart Connections:
ollama pull bge-m3或ollama pull qwen3-embedding:0.6b- Smart Connections 设置 → Embedding model → Local → 选对应 host
- 重新索引(中型 vault 1-2 小时)
5. Obsidian 接入 —— 5 种插件路线
5.1 路线 A:Smart Connections 本地嵌入(发现派)
定位:背景跑,在你写笔记时浮现相关。 配置:Smart Connections → Embedding settings → Local → 选 bge-m3 / nomic-embed-text。 优势:vault 完全不出本机,默认就这么设计的。 适合:几乎所有用户都该开。
5.2 路线 B:Local GPT(pfrankov)+ Ollama(改写派)
定位:右键菜单调出本地 GPT 改写选中段落。
配置:Local GPT 设置 → URL http://localhost:11434/v1 → 模型 qwen3:8b。
优势:Ollama 无缝接入,改写 / 摘要 / 翻译 / 自定义 prompt 全本地。
适合:写作 + 翻译重度用户。
5.3 路线 C:Smart 2nd Brain(your-papa)+ Ollama(对话派)
定位:类 Copilot 的对话面板,但全本地。 优势:UI 友好,vault 自动检索 + 对话(本地 RAG)。 适合:不愿暴露给 OpenAI 但想要 Copilot 体验的人。
5.4 路线 D:ObsidianRAG(Vasallo94,LangGraph 实现)
定位:严格的 RAG 框架,LangGraph 可观测,适合开发者。 优势:支持 PDF / Markdown,完全离线。 劣势:配置门槛比 Smart 2nd Brain 高,需 Docker / Python。 适合:技术派 + 想自定义 retrieval pipeline 的人。
5.5 路线 E:Copilot for Obsidian(免费层)+ Ollama
定位:6,926 stars 的头牌也支持本地后端。
配置:Copilot 设置 → Custom model → URL http://localhost:11434/v1 → 模型 qwen3:14b。
优势:已经在用 Copilot 的人零迁移成本。
注意:Copilot 部分高级功能(autonomous agent)只在 Plus + Brevilabs 后端可用,纯本地后端用不到。
🟢 译者点评:最稳的组合是 A + E —— Smart Connections 本地嵌入做背景,Copilot 接 Ollama 做主对话。两者完全互补,vault 在两个层次上都不出本机。
6. 实战工作流模板
6.1 早晨日记 → 当天 TODO 整理
触发:每天打开 Obsidian
插件:Templater + Local GPT
prompt:把昨天的日记和未完成 TODO 整理成今天的 3 个重点
模型:Qwen 3 8B(够快够准)
6.2 RSS 文章批量摘要
触发:每天 9 AM
插件:Web Clipper + Cannoli(Canvas workflow)+ Local GPT
模型:Qwen 3 14B(质量更重要,速度可等)
输出:每篇文章 → 3 句摘要 + 3 个金句 + 1 个延伸问题
6.3 vault 全局 QA(私密日记 / 法律案件)
触发:需要"我去年关于 X 是怎么决定的"
插件:Smart 2nd Brain 或 ObsidianRAG
模型:Qwen 3 30B-A3B(质量优先)
特点:vault 不出本机,适合敏感数据
6.4 写作辅助(译者点评 + 重写)
触发:写好一段后选中
插件:Local GPT(右键菜单)
prompt:用更紧凑的句式重写,保留我的语气
模型:Qwen 3 14B
6.5 中文 ↔ 英文翻译(私密文档)
触发:选中段落
插件:Local GPT 或 Smart Composer
模型:Qwen 3 14B(中英双向都强)
对照云 API:DeepL 质量更高,但内容外发
7. 性能基准(M2 Pro 16GB / M3 Pro 36GB 实测口径)
注:以下数据综合自 2026-Q1 多篇 benchmark 文章,实际值因系统负载、上下文长度浮动 ±30%。生产决策需自测。
| 模型 | 硬件 | 量化 | 输出速度(token/s) | 首 token 延迟 |
|---|---|---|---|---|
| Qwen 3 8B | M2 Pro 16GB | Q4_K_M | 30-40 | 0.8s |
| Qwen 3 14B | M3 Pro 36GB | Q4_K_M | 25-35 | 1.2s |
| Qwen 3 30B-A3B | M3 Pro 36GB | Q4_K_M | 40-60(MoE 优势) | 1.5s |
| DeepSeek-R1-Distill 14B | M3 Pro 36GB | Q4_K_M | 22-30 | 2-5s(思维链) |
| Llama 3.3 70B | M3 Max 64GB | Q4_K_M | 8-12 | 3s |
对照云 API:
- GPT-4o: ~80 token/s
- Claude Opus 4.7: ~60 token/s
🟢 译者点评:速度差距没有想象中大。本地 30 token/s 已经够流畅(英文阅读速度约 5 token/s,Q4 模型显示比眼睛快 6 倍)。真正的差距在多轮对话长度和复杂推理质量,日常单轮 prompt 几乎感受不到。
8. 隐私威胁模型 — 何时本地、何时云
不是所有任务都该本地,也不是所有任务都该云。
| 任务 | 本地 vs 云 | 理由 |
|---|---|---|
| 读你的日记 / 写治疗记录 | 必本地 | OpenAI / Anthropic ToS 都允许训练用户对话(Anthropic Pro 默认开训练同意) |
| 律师案件 / 医生病历 | 必本地 | 行业合规要求,不能外发 |
| 公开博客的写作辅助 | 云 | 内容反正要发出去,云 API 质量更高 |
| 代码改写(无敏感信息) | 任一 | 看你方便 |
| Vault 全局 QA(混合内容) | 本地 | 检索过程会暴露 vault 结构,即使云 API”承诺”不存,也是流量 |
| 一次性总结公开论文 | 云 | 论文本身公开,云 API 速度优势大 |
| 翻译任意中文(信任 OpenAI/Anthropic 翻译) | 云 | 质量目前云优 |
关键判断:“如果这段内容截图发我推/朋友圈,我会不舒服吗?” 答案是 yes → 本地。
9. 避坑清单
| 坑 | 表现 | 解法 |
|---|---|---|
| 8GB Mac 强行跑 14B | 系统卡到无响应 | 降到 8B 以下,或老老实实用云 |
| 第一次 Ollama 网络超时 | 拉模型卡 0% | 国内用户配代理,或换 hf-mirror.com |
| Smart Connections 用 bge-m3 没换 host | 一直走默认 384 维 | 设置里”Local server URL”必须填 http://localhost:11434 |
| 同时跑多个本地模型 | 内存爆,系统死锁 | Ollama 默认只载入 1-2 个,显式 ollama stop |
| Q8 量化贪心 | 质量提升小,内存翻倍 | Q4_K_M 是绝大多数场景的最优解 |
| Qwen 3 处理英文 | 强行选 Qwen 3 写英文 | 英文写作切 Llama 3.3 / Gemma 3,质量明显好 |
| Llama 3 处理中文 | 翻译腔严重 | 中文必 Qwen 系 |
| DeepSeek-R1 默认开思维链 | 速度像在拉屎 | 简单任务关掉 thinking |
| Ollama 后台不稳定 | macOS 重启后 service 没起 | brew services start ollama 永久后台 |
🟢 译者总评
3 个 takeaway:
-
本地 LLM 在 2026 已经过了”质量不行”的门槛。Qwen 3 30B-A3B 在 32GB Mac 上的中文体验,客观对照已经接近 GPT-4o-mini / Claude 3.5 Haiku 这个梯队。不要再用 2024 年的”本地不行”印象做 2026 决策。
-
本地 ≠ 替代云,而是补全云。每个任务有自己适合的位置:隐私敏感的日记 / 案件 / 病历必本地,需要顶级质量的写作 / 复杂推理走云,中间地带按需。两个都用才是 2026 的成熟用法。
-
runtime / 模型 / 插件三者中,模型选对最重要,模型选对 最重要,模型选对最重要(中文用户:Qwen 系优先)。runtime 最不重要(Ollama 够),插件次重要(A + E 组合够)。
反共识结论:
- 不要追求最新最大模型。Qwen 3 8B 对 16GB Mac 用户性价比一年内不会被超越,贪 32B / 70B 反而会让你 Mac 成砖
- 不要把所有任务都搬本地。本地是隐私保险,不是质量保证。日常写作仍然云 API 更好
- embedding 模型比生成模型重要。生成模型用 Q4 量化质量损失小,embedding 用错维度 / 语言会让 Smart Connections 直接废掉
🔗 延伸阅读(本系列内)
- 22 Obsidian × AI —— 完整的 Obsidian × AI 插件格局,本文是其 §5 的延伸
- 01 Bases vs Dataview —— 配合 dataview 调本地 LLM 写自定义查询(进阶)
- 17 Excalidraw + Canvas —— 配合 Cannoli 在 Canvas 上画 LLM 工作流
🔗 调研来源(可校验,2026-05-10 自核)
Runtime / 模型库:
- Ollama — https://github.com/ollama/ollama(171,064 stars,2026-05-09 push)
- Ollama 模型库 — https://ollama.com/library(全量自核 Qwen 3 / DeepSeek-R1 / Llama 3.3 / Gemma 3 size 列表)
- LM Studio — https://lmstudio.ai/
- MLX-LM — https://github.com/ml-explore/mlx-examples
模型基础:
- Qwen 3 — https://ollama.com/library/qwen3(0.6b / 1.7b / 8b / 14b / 30b / 32b / 235b)
- DeepSeek-R1 — https://ollama.com/library/deepseek-r1(1.5b / 7b / 8b / 14b / 32b / 70b / 671b)
- Gemma 3 — https://ollama.com/library/gemma3(1b / 4b / 12b / 27b)
- Llama 3.3 — https://ollama.com/library/llama3.3(70b)
- bge-m3 — https://ollama.com/library/bge-m3
- nomic-embed-text — https://ollama.com/library/nomic-embed-text
Benchmark 类:
- InsiderLLM “Best Local LLMs for Mac in 2026” — https://insiderllm.com/guides/best-local-llms-mac-2026/
- BentoML “Best Open-Source Embedding Models in 2026” — https://www.bentoml.com/blog/a-guide-to-open-source-embedding-models
- Local AI Master “Best Ollama Models” — https://localaimaster.com/blog/best-ollama-models
Obsidian 接入插件(stars 见 22 文):
- Local GPT(pfrankov)/ Smart 2nd Brain(your-papa)/ ObsidianRAG(Vasallo94)/ Smart Connections(brianpetro)/ Copilot(logancyang)
版权:本文为评论合理使用 + 显式署名 + 链接回原文,所有 benchmark 数据均归属原 publisher。