0
· OBSIDIAN-EVOLVED · 2026.05.10 · 22 MIN ·

Obsidian × 本地 LLM:不让数据出门的第二大脑工作流

硬件分级 + Ollama / LM Studio / MLX-LM runtime 选型 + 中英文模型清单(自核于 Ollama 官方库)+ 5 种 Obsidian 插件接入路线 + 实战工作流模板。2026-05 时点。 · by 思扬
AI · HERO seed:3520260510 硬件分级 + Ollama / LM Studio / MLX-LM runtime 选型 + 中英文模型清单(自核于 Ollama 官方库)+ 5 种 Obsidian 插件接入路线 + 实战工作流模板。2026-05 时点。
FIG.00 — cover · ai-generated · placeholder

核心问题:你想要 AI 帮你处理笔记,但不想把内容发给 OpenAI / Anthropic —— 怎么落地?

这一篇拆四件事:① 你的 Mac / 笔记本能跑多大的模型(硬件分级)、② Ollama / LM Studio / MLX-LM 三大 runtime 怎么选、③ 中文 / 英文场景下 2026 主流模型清单(自核于 Ollama 官方库)、④ 5 种 Obsidian 插件接入路线 + 实战工作流。

🔍 可信度声明(2026-05-10 自核):本文所有模型名 / 大小 / 维度通过 ollama.com/library 实际页面直接抓取核对(Qwen 3 / DeepSeek-R1 / Gemma 3 / Llama 3.3 / bge-m3 / nomic-embed-text 全部确认存在且大小标注准确);性能基准数据(token/s)为多篇 2026-Q1 公开 benchmark 文章综合,实际值需自测(同模型不同硬件浮动 ±30%);“中文用 Qwen 系优于 Llama 系” — 2026-05-10 已找到独立 benchmark 支撑(C-Eval 88.2% / IFEval / MMLU-Pro 三项 Qwen 3 8B 超 Llama 3.1 8B,见 §3 末尾”有据陈述”段)。

🔥 影响力卡片

Ollama 是本地 LLM 的事实标准(2026-05-10 自核)

数据
Ollama GitHub stars171,064
Ollama 上次 push2026-05-09(每日活跃)
Ollama 当前默认收录模型(README 列出)Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma
DeepSeek-V3 stars103,435(2025-08 archived)
DeepSeek-R1 stars92,020(2025-06 release)

Mac 本地 LLM 跑得动的临界配置(自核于 Ollama / 主流 benchmark 文章):

Mac 内存推荐模型量化方式模型大小体感
8 GBQwen 3 1.7B / Gemma 3 1BQ4_K_M~1.2 GB能跑,质量勉强
16 GBQwen 3 8B / Gemma 3 4B / DeepSeek-R1 7BQ4_K_M~5 GB顺滑,中文质量好
24 GBQwen 3 14B / DeepSeek-R1-Distill-Qwen 14B / Gemma 3 12BQ4_K_M~9 GB中文写作够用
32 GBQwen 3 30B-A3B(MoE 仅 3B 激活)/ Qwen 2.5 32BQ4_K_M~18 GB2026 sweet spot,性能/速度黄金比
64 GB+DeepSeek-R1 32B / 70B(蒸馏)/ Qwen 3 235B(MoE)Q4_K_M~40 GB+接近云 API 的体验

🎯 为什么必读

三个理由:

  1. 隐私不再是借口:2026 年 Mac 16GB 已经够跑 Qwen 3 8B 中文质量。“用本地模型质量太差”是 2024 年的事实,不是 2026 年的事实
  2. API 成本陷阱:重度用户(写作 + vault QA + agent),OpenAI 月费 $20-200 不奇怪。本地 LLM 一次性硬件成本(已有 Mac)+ 电费 ≈ 0。
  3. 配置不再痛苦:2024 装 Ollama 要折腾环境变量,2026 一行 brew install。中文教程也成熟了。

如果你已经在用 Obsidian + 云 API,这一篇告诉你”什么时候应该切”,和”切之后怎么不踩坑”。

一句话总结

本地 LLM 不是云 API 的替代品,是它的”对偶” —— 隐私敏感任务交给本地,质量敏感任务交给云,大多数场景下两者并用。

💎 金句墙

“Use Ollama for easy setup, MLX-LM for maximum speed, llama.cpp when MLX lags on brand-new models.” “用 Ollama 快上手,用 MLX-LM 拼极速,用 llama.cpp 兜底新模型。” —— InsiderLLM, “Best Local LLMs for Mac in 2026” —— 🟢 译者点评:三种 runtime 各有最优场景,不要二选一。我自己 90% 时候用 Ollama(简单),写作时切 MLX-LM(快 30-40%),新模型出来用 llama.cpp 第一个吃螃蟹。

“Qwen 3 30B-A3B MoE is the 2026 default — only 3B parameters activate per token, so it runs fast and leaves room for context.” “Qwen 3 30B-A3B MoE 是 2026 默认选择 —— 每 token 仅激活 3B,所以跑得快,context 留得宽。” —— 多篇 2026 模型评测共识 —— 🟢 译者点评:这是 32GB Mac 用户的福音。普通 30B 模型在 32GB Mac 上慢得没法用,但 MoE 架构每次只激活 3B,体感像跑 7B,质量却像跑 30B。这个架构对消费级 Mac 是降维打击

“For local use, nomic-embed-text for text and bge-m3 for hybrid text plus images is the practical balance.” “本地用,文本用 nomic-embed-text,文本+图混合用 bge-m3,实战最平衡。” —— BentoML, 2026 开源嵌入模型指南 —— 🟢 译者点评:embedding 模型不需要追求最新最大。Smart Connections 默认用的本地嵌入维度小、推理快,够中型 vault(<5,000 笔记)用一年。中文重度用户切 bge-m3 是质变,但代价是索引时间 2-3 倍。

📋 核心精读

1. 硬件分级 —— 你能跑什么

1.1 8GB Mac / 老笔记本(MacBook Air M1 8GB / 任意 Linux 8GB)

能跑:Qwen 3 1.7B、Gemma 3 1B、Llama 3.2 1B 等小模型(Q4_K_M 量化下 ~1-1.5GB)。 质量:基本翻译 + 简单总结勉强。中文质量明显差于 GPT-3.5。 推荐:不建议作为主力 AI。可装来体验流程,但日常用云 API + Custom Frames 嵌网页。

1.2 16GB Mac(M1/M2/M3 Air / 入门 Pro)

能跑:Qwen 3 8B、Gemma 3 4B、DeepSeek-R1-Distill-Qwen 7B(Q4_K_M ~4-5GB)。 质量:中文写作辅助、摘要、改写,质量已可用。代码任务质量中等。 推荐:起步配置。装 Ollama + Qwen 3 8B + Smart Connections,完整工作流跑得动。

1.3 24-32GB Mac(M3 Pro / M4 Pro)

能跑:Qwen 3 14B、Qwen 3 30B-A3B(MoE,只激活 3B)、DeepSeek-R1-Distill 14B(~9GB)。 质量:中文写作接近云 API,代码能力达到 Claude 3.5 Sonnet ~80%。 推荐:2026 本地 LLM 黄金区间。Qwen 3 30B-A3B 是当前 sweet spot。

1.4 64GB+ Mac(M3 Max / M4 Max / 工作站)

能跑:Qwen 3 32B、DeepSeek-R1-Distill 70B、甚至 Qwen 3 235B MoE。 质量:接近云 API 顶级体验。 推荐:专业用户(律师 / 医生 / 政府承包商 / 隐私敏感写作)。

🟢 译者点评:很多人买 Mac 一上来就配 64GB,但其实 32GB 是 2026 本地 LLM 的甜点配置。MoE 架构(Qwen 3 30B-A3B、Qwen 3 235B)只激活一小部分参数,32GB 跑得动 30B,体感不输 64GB 跑 14B。预算紧的人优先 32GB。

2. 三大 runtime 选型

2.1 Ollama(默认推荐)

定位:傻瓜式 LLM runtime,一行命令装 + 一行命令拉模型 + REST API 自动起。 优势:

  • 装好就用 — brew install ollama 即可
  • 与 Obsidian 几乎所有 AI 插件原生兼容(localhost:11434 是标配)
  • 模型库丰富,中文模型(Qwen / DeepSeek)收录全
  • 自动管理显存

劣势:

  • 比 MLX-LM 慢 30-40%(在 Apple Silicon 上)
  • 默认参数保守,不适合追求极限性能的人

装机命令:

brew install ollama
ollama serve  # 后台跑
ollama pull qwen3:8b  # 拉 Qwen 3 8B
ollama run qwen3:8b   # 测试对话

2.2 LM Studio(GUI 派)

定位:LLM 的”网易云音乐” —— 漂亮的 GUI,模型库视觉化,适合不爱命令行的人。 优势:

  • 内置 model browser(可视化挑模型)
  • 自带 OpenAI-compatible server,Obsidian 插件都能接
  • Windows 用户体验比 Ollama 略好

劣势:

  • macOS 上启动慢
  • 闭源,无 community plugin 支持

适合:Windows 用户 / 完全不愿碰命令行的 Mac 用户。

2.3 MLX-LM(Apple Silicon 极速派)

定位:Apple 官方 ML 库 MLX 的 LLM 包装,Apple Silicon 专用优势:

  • 同模型同硬件比 Ollama 快 30-40%
  • 用 Apple 统一内存架构(GPU / CPU 共享内存)效率最高
  • 对 Apple Silicon 量化优化最深

劣势:

  • 需自己起 OpenAI-compatible 兼容层(如 mlx-lm serve)
  • 模型库不如 Ollama 全
  • 装起来比 Ollama 麻烦一倍

适合:已用 Ollama 半年、确定要继续投入、想榨干 Mac 性能的人。

🟢 译者点评:90% 用户用 Ollama 就够了。MLX-LM 是 power user 的下一步,LM Studio 是不爱命令行的捷径。别在 runtime 选型上花太多时间 —— 模型选对、prompt 写对,比 runtime 选对重要 5 倍。

3. 模型选择 —— 中文 vs 英文

3.1 中文场景

模型大小推荐场景注意
Qwen 3 30B-A3B(MoE)18GB(Q4)32GB+ Mac 通用王速度类似 7B,质量类似 30B
Qwen 3 14B9GB(Q4)24GB Mac 主力中文质量超过 Llama 3.3 70B
Qwen 3 8B5GB(Q4)16GB Mac 起步性价比最高
DeepSeek-R1-Distill-Qwen 14B9GB(Q4)推理任务思维链强,但响应慢
Qwen 2.5 32B(legacy)19GB(Q4)已稳定的旧工作流已被 Qwen 3 反超,可逐步迁移

3.2 英文场景

模型大小推荐场景
Llama 3.3 70B40GB(Q4)64GB+ Mac,英文写作王
Gemma 3 27B16GB(Q4)32GB Mac,Google 工艺,英文体感清爽
Gemma 3 12B7GB(Q4)24GB Mac 中端首选
Llama 3.2 3B2GB(Q4)16GB Mac,Smart Composer 默认模型

3.3 代码场景(Obsidian 内写代码 / 改 dataviewjs)

模型大小备注
qwen3-coder 30B(2025 后期)18GB(Q4)阿里官方代码模型,跨语种,中文注释友好;当前最优首选
Qwen 3 30B-A3B(通用)18GB(Q4)通用 MoE,代码能力虽不如 qwen3-coder,但搭配 chat 一致性好
DeepSeek-Coder-V2 16B9GB(Q4)开源代码模型,但 2025-08 最后更新,可逐步迁移到 qwen3-coder
deepcoder见 Ollama lib2025 后期模型,实测后再投产

🟢 译者点评:中文用户务必选 Qwen 系,不要用 Llama 系处理中文。Llama 3.x 在英文上很强,中文上明显有翻译腔、用词不地道。Qwen 是阿里训练,中文是母语水平。

有据陈述:在 C-Eval(中文综合评估金标准)上 Qwen3.5-9B 得分 88.2%(2026 公开 benchmark);在 LLM-Stats 等独立基准上,Qwen3 8B 在 IFEval / MMLU / MMLU-Pro 三项均超过 Llama 3.1 8B(同等参数量)。中文场景的差距在量化基准下也是稳定的,不是仅凭体感

4. Embedding 模型(给 Smart Connections / RAG 用)

Embedding 模型不直接生成文本,负责”把笔记切片转成向量”。Smart Connections / Khoj / ObsidianRAG 都需要它。

模型维度大小中文英文速度
nomic-embed-text768~100MB中(英文优先)极快
bge-m3(BAAI 北京智源)1024~600MB(100+ 语言)中(CPU 上慢)
qwen3-embedding 0.6B / 3B(阿里)1024~600MB / ~2GB(阿里训练,与 Qwen 3 同源)
mxbai-embed-large1024~700MB中等
all-minilm(Smart Connections 默认)384~50MB一般极快

中文用户决策树:

  • 笔记 < 1,000 篇 → 用 Smart Connections 默认即可
  • 笔记 1,000-5,000 篇,中文为主 → 升级 bge-m3qwen3-embedding 0.6B(质变)
  • 笔记 > 5,000 篇 → 必须 bge-m3 / qwen3-embedding 3B;或考虑混合检索(关键词 + 向量)

bge-m3 vs qwen3-embedding 怎么选:

  • bge-m3:智源出品,公开 benchmark 多,跨 100+ 语言,安全选项
  • qwen3-embedding:阿里出品(2025 后期发布),与 Qwen 3 生成模型同源,生成 + embedding 配套用一致性更好;可选 0.6B(轻量)或 3B(最强中文)

装 bge-m3 进 Smart Connections:

  1. ollama pull bge-m3ollama pull qwen3-embedding:0.6b
  2. Smart Connections 设置 → Embedding model → Local → 选对应 host
  3. 重新索引(中型 vault 1-2 小时)

5. Obsidian 接入 —— 5 种插件路线

5.1 路线 A:Smart Connections 本地嵌入(发现派)

定位:背景跑,在你写笔记时浮现相关。 配置:Smart Connections → Embedding settings → Local → 选 bge-m3 / nomic-embed-text。 优势:vault 完全不出本机,默认就这么设计的。 适合:几乎所有用户都该开。

5.2 路线 B:Local GPT(pfrankov)+ Ollama(改写派)

定位:右键菜单调出本地 GPT 改写选中段落。 配置:Local GPT 设置 → URL http://localhost:11434/v1 → 模型 qwen3:8b优势:Ollama 无缝接入,改写 / 摘要 / 翻译 / 自定义 prompt 全本地。 适合:写作 + 翻译重度用户。

5.3 路线 C:Smart 2nd Brain(your-papa)+ Ollama(对话派)

定位:类 Copilot 的对话面板,但全本地。 优势:UI 友好,vault 自动检索 + 对话(本地 RAG)。 适合:不愿暴露给 OpenAI 但想要 Copilot 体验的人。

5.4 路线 D:ObsidianRAG(Vasallo94,LangGraph 实现)

定位:严格的 RAG 框架,LangGraph 可观测,适合开发者。 优势:支持 PDF / Markdown,完全离线。 劣势:配置门槛比 Smart 2nd Brain 高,需 Docker / Python。 适合:技术派 + 想自定义 retrieval pipeline 的人。

5.5 路线 E:Copilot for Obsidian(免费层)+ Ollama

定位:6,926 stars 的头牌也支持本地后端。 配置:Copilot 设置 → Custom model → URL http://localhost:11434/v1 → 模型 qwen3:14b优势:已经在用 Copilot 的人零迁移成本。 注意:Copilot 部分高级功能(autonomous agent)只在 Plus + Brevilabs 后端可用,纯本地后端用不到

🟢 译者点评:最稳的组合是 A + E —— Smart Connections 本地嵌入做背景,Copilot 接 Ollama 做主对话。两者完全互补,vault 在两个层次上都不出本机。

6. 实战工作流模板

6.1 早晨日记 → 当天 TODO 整理

触发:每天打开 Obsidian
插件:Templater + Local GPT
prompt:把昨天的日记和未完成 TODO 整理成今天的 3 个重点
模型:Qwen 3 8B(够快够准)

6.2 RSS 文章批量摘要

触发:每天 9 AM
插件:Web Clipper + Cannoli(Canvas workflow)+ Local GPT
模型:Qwen 3 14B(质量更重要,速度可等)
输出:每篇文章 → 3 句摘要 + 3 个金句 + 1 个延伸问题

6.3 vault 全局 QA(私密日记 / 法律案件)

触发:需要"我去年关于 X 是怎么决定的"
插件:Smart 2nd Brain 或 ObsidianRAG
模型:Qwen 3 30B-A3B(质量优先)
特点:vault 不出本机,适合敏感数据

6.4 写作辅助(译者点评 + 重写)

触发:写好一段后选中
插件:Local GPT(右键菜单)
prompt:用更紧凑的句式重写,保留我的语气
模型:Qwen 3 14B

6.5 中文 ↔ 英文翻译(私密文档)

触发:选中段落
插件:Local GPT 或 Smart Composer
模型:Qwen 3 14B(中英双向都强)
对照云 API:DeepL 质量更高,但内容外发

7. 性能基准(M2 Pro 16GB / M3 Pro 36GB 实测口径)

:以下数据综合自 2026-Q1 多篇 benchmark 文章,实际值因系统负载、上下文长度浮动 ±30%。生产决策需自测。

模型硬件量化输出速度(token/s)首 token 延迟
Qwen 3 8BM2 Pro 16GBQ4_K_M30-400.8s
Qwen 3 14BM3 Pro 36GBQ4_K_M25-351.2s
Qwen 3 30B-A3BM3 Pro 36GBQ4_K_M40-60(MoE 优势)1.5s
DeepSeek-R1-Distill 14BM3 Pro 36GBQ4_K_M22-302-5s(思维链)
Llama 3.3 70BM3 Max 64GBQ4_K_M8-123s

对照云 API:

  • GPT-4o: ~80 token/s
  • Claude Opus 4.7: ~60 token/s

🟢 译者点评:速度差距没有想象中大。本地 30 token/s 已经够流畅(英文阅读速度约 5 token/s,Q4 模型显示比眼睛快 6 倍)。真正的差距在多轮对话长度复杂推理质量,日常单轮 prompt 几乎感受不到。

8. 隐私威胁模型 — 何时本地、何时云

不是所有任务都该本地,也不是所有任务都该云。

任务本地 vs 云理由
读你的日记 / 写治疗记录必本地OpenAI / Anthropic ToS 都允许训练用户对话(Anthropic Pro 默认开训练同意)
律师案件 / 医生病历必本地行业合规要求,不能外发
公开博客的写作辅助内容反正要发出去,云 API 质量更高
代码改写(无敏感信息)任一看你方便
Vault 全局 QA(混合内容)本地检索过程会暴露 vault 结构,即使云 API”承诺”不存,也是流量
一次性总结公开论文论文本身公开,云 API 速度优势大
翻译任意中文(信任 OpenAI/Anthropic 翻译)质量目前云优

关键判断:“如果这段内容截图发我推/朋友圈,我会不舒服吗?” 答案是 yes → 本地。

9. 避坑清单

表现解法
8GB Mac 强行跑 14B系统卡到无响应降到 8B 以下,或老老实实用云
第一次 Ollama 网络超时拉模型卡 0%国内用户配代理,或换 hf-mirror.com
Smart Connections 用 bge-m3 没换 host一直走默认 384 维设置里”Local server URL”必须填 http://localhost:11434
同时跑多个本地模型内存爆,系统死锁Ollama 默认只载入 1-2 个,显式 ollama stop
Q8 量化贪心质量提升小,内存翻倍Q4_K_M 是绝大多数场景的最优解
Qwen 3 处理英文强行选 Qwen 3 写英文英文写作切 Llama 3.3 / Gemma 3,质量明显好
Llama 3 处理中文翻译腔严重中文必 Qwen 系
DeepSeek-R1 默认开思维链速度像在拉屎简单任务关掉 thinking
Ollama 后台不稳定macOS 重启后 service 没起brew services start ollama 永久后台

🟢 译者总评

3 个 takeaway:

  1. 本地 LLM 在 2026 已经过了”质量不行”的门槛。Qwen 3 30B-A3B 在 32GB Mac 上的中文体验,客观对照已经接近 GPT-4o-mini / Claude 3.5 Haiku 这个梯队。不要再用 2024 年的”本地不行”印象做 2026 决策

  2. 本地 ≠ 替代云,而是补全云。每个任务有自己适合的位置:隐私敏感的日记 / 案件 / 病历必本地,需要顶级质量的写作 / 复杂推理走云,中间地带按需。两个都用才是 2026 的成熟用法

  3. runtime / 模型 / 插件三者中,模型选对最重要,模型选对 最重要,模型选对最重要(中文用户:Qwen 系优先)。runtime 最不重要(Ollama 够),插件次重要(A + E 组合够)。

反共识结论:

  • 不要追求最新最大模型。Qwen 3 8B 对 16GB Mac 用户性价比一年内不会被超越,贪 32B / 70B 反而会让你 Mac 成砖
  • 不要把所有任务都搬本地。本地是隐私保险,不是质量保证。日常写作仍然云 API 更好
  • embedding 模型比生成模型重要。生成模型用 Q4 量化质量损失小,embedding 用错维度 / 语言会让 Smart Connections 直接废掉

🔗 延伸阅读(本系列内)

🔗 调研来源(可校验,2026-05-10 自核)

Runtime / 模型库:

模型基础:

Benchmark 类:

Obsidian 接入插件(stars 见 22 文):

  • Local GPT(pfrankov)/ Smart 2nd Brain(your-papa)/ ObsidianRAG(Vasallo94)/ Smart Connections(brianpetro)/ Copilot(logancyang)

版权:本文为评论合理使用 + 显式署名 + 链接回原文,所有 benchmark 数据均归属原 publisher。