· OBSIDIAN-EVOLVED · 2026.05.10 · 22 MIN ·

Obsidian × 本地 LLM:不让数据出门的第二大脑工作流

硬件分级 + Ollama / LM Studio / MLX-LM runtime 选型 + 中英文模型清单(自核于 Ollama 官方库)+ 5 种 Obsidian 插件接入路线 + 实战工作流模板。2026-05 时点。 · by 思扬

AI · HERO seed:3520260510 硬件分级 + Ollama / LM Studio / MLX-LM runtime 选型 + 中英文模型清单(自核于 Ollama 官方库)+ 5 种 Obsidian 插件接入路线 + 实战工作流模板。2026-05 时点。

FIG.00 — cover · ai-generated · placeholder

核心问题:你想要 AI 帮你处理笔记,但不想把内容发给 OpenAI / Anthropic —— 怎么落地?

这一篇拆四件事:① 你的 Mac / 笔记本能跑多大的模型(硬件分级)、② Ollama / LM Studio / MLX-LM 三大 runtime 怎么选、③ 中文 / 英文场景下 2026 主流模型清单(自核于 Ollama 官方库)、④ 5 种 Obsidian 插件接入路线 + 实战工作流。

🔍 可信度声明(2026-05-10 自核):本文所有模型名 / 大小 / 维度通过 ollama.com/library 实际页面直接抓取核对(Qwen 3 / DeepSeek-R1 / Gemma 3 / Llama 3.3 / bge-m3 / nomic-embed-text 全部确认存在且大小标注准确);性能基准数据(token/s)为多篇 2026-Q1 公开 benchmark 文章综合,实际值需自测(同模型不同硬件浮动 ±30%);“中文用 Qwen 系优于 Llama 系” — 2026-05-10 已找到独立 benchmark 支撑(C-Eval 88.2% / IFEval / MMLU-Pro 三项 Qwen 3 8B 超 Llama 3.1 8B,见 §3 末尾”有据陈述”段)。

🔥 影响力卡片

Ollama 是本地 LLM 的事实标准(2026-05-10 自核)

项	数据
Ollama GitHub stars	171,064
Ollama 上次 push	2026-05-09(每日活跃)
Ollama 当前默认收录模型(README 列出)	Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma
DeepSeek-V3 stars	103,435(2025-08 archived)
DeepSeek-R1 stars	92,020(2025-06 release)

Mac 本地 LLM 跑得动的临界配置(自核于 Ollama / 主流 benchmark 文章):

Mac 内存	推荐模型	量化方式	模型大小	体感
8 GB	Qwen 3 1.7B / Gemma 3 1B	Q4_K_M	~1.2 GB	能跑,质量勉强
16 GB	Qwen 3 8B / Gemma 3 4B / DeepSeek-R1 7B	Q4_K_M	~5 GB	顺滑,中文质量好
24 GB	Qwen 3 14B / DeepSeek-R1-Distill-Qwen 14B / Gemma 3 12B	Q4_K_M	~9 GB	中文写作够用
32 GB	Qwen 3 30B-A3B(MoE 仅 3B 激活)/ Qwen 2.5 32B	Q4_K_M	~18 GB	2026 sweet spot,性能/速度黄金比
64 GB+	DeepSeek-R1 32B / 70B(蒸馏)/ Qwen 3 235B(MoE)	Q4_K_M	~40 GB+	接近云 API 的体验

🎯 为什么必读

三个理由:

隐私不再是借口:2026 年 Mac 16GB 已经够跑 Qwen 3 8B 中文质量。“用本地模型质量太差”是 2024 年的事实,不是 2026 年的事实。
API 成本陷阱:重度用户(写作 + vault QA + agent),OpenAI 月费 $20-200 不奇怪。本地 LLM 一次性硬件成本(已有 Mac)+ 电费 ≈ 0。
配置不再痛苦:2024 装 Ollama 要折腾环境变量,2026 一行 brew install。中文教程也成熟了。

如果你已经在用 Obsidian + 云 API,这一篇告诉你”什么时候应该切”,和”切之后怎么不踩坑”。

一句话总结

本地 LLM 不是云 API 的替代品,是它的”对偶” —— 隐私敏感任务交给本地,质量敏感任务交给云,大多数场景下两者并用。

💎 金句墙

★ “Use Ollama for easy setup, MLX-LM for maximum speed, llama.cpp when MLX lags on brand-new models.” “用 Ollama 快上手,用 MLX-LM 拼极速,用 llama.cpp 兜底新模型。” —— InsiderLLM, “Best Local LLMs for Mac in 2026” —— 🟢 译者点评:三种 runtime 各有最优场景,不要二选一。我自己 90% 时候用 Ollama(简单),写作时切 MLX-LM(快 30-40%),新模型出来用 llama.cpp 第一个吃螃蟹。

★ “Qwen 3 30B-A3B MoE is the 2026 default — only 3B parameters activate per token, so it runs fast and leaves room for context.” “Qwen 3 30B-A3B MoE 是 2026 默认选择 —— 每 token 仅激活 3B,所以跑得快,context 留得宽。” —— 多篇 2026 模型评测共识 —— 🟢 译者点评:这是 32GB Mac 用户的福音。普通 30B 模型在 32GB Mac 上慢得没法用,但 MoE 架构每次只激活 3B,体感像跑 7B,质量却像跑 30B。这个架构对消费级 Mac 是降维打击。

★ “For local use, nomic-embed-text for text and bge-m3 for hybrid text plus images is the practical balance.” “本地用,文本用 nomic-embed-text,文本+图混合用 bge-m3,实战最平衡。” —— BentoML, 2026 开源嵌入模型指南 —— 🟢 译者点评:embedding 模型不需要追求最新最大。Smart Connections 默认用的本地嵌入维度小、推理快,够中型 vault(<5,000 笔记)用一年。中文重度用户切 bge-m3 是质变,但代价是索引时间 2-3 倍。

📋 核心精读

1. 硬件分级 —— 你能跑什么

1.1 8GB Mac / 老笔记本(MacBook Air M1 8GB / 任意 Linux 8GB)

能跑:Qwen 3 1.7B、Gemma 3 1B、Llama 3.2 1B 等小模型(Q4_K_M 量化下 ~1-1.5GB)。质量:基本翻译 + 简单总结勉强。中文质量明显差于 GPT-3.5。推荐:不建议作为主力 AI。可装来体验流程,但日常用云 API + Custom Frames 嵌网页。

1.2 16GB Mac(M1/M2/M3 Air / 入门 Pro)

能跑:Qwen 3 8B、Gemma 3 4B、DeepSeek-R1-Distill-Qwen 7B(Q4_K_M ~4-5GB)。质量:中文写作辅助、摘要、改写,质量已可用。代码任务质量中等。推荐:起步配置。装 Ollama + Qwen 3 8B + Smart Connections,完整工作流跑得动。

1.3 24-32GB Mac(M3 Pro / M4 Pro)

能跑:Qwen 3 14B、Qwen 3 30B-A3B(MoE,只激活 3B)、DeepSeek-R1-Distill 14B(~9GB)。质量:中文写作接近云 API,代码能力达到 Claude 3.5 Sonnet ~80%。推荐:2026 本地 LLM 黄金区间。Qwen 3 30B-A3B 是当前 sweet spot。

1.4 64GB+ Mac(M3 Max / M4 Max / 工作站)

能跑:Qwen 3 32B、DeepSeek-R1-Distill 70B、甚至 Qwen 3 235B MoE。质量:接近云 API 顶级体验。推荐:专业用户(律师 / 医生 / 政府承包商 / 隐私敏感写作)。

🟢 译者点评:很多人买 Mac 一上来就配 64GB,但其实 32GB 是 2026 本地 LLM 的甜点配置。MoE 架构(Qwen 3 30B-A3B、Qwen 3 235B)只激活一小部分参数,32GB 跑得动 30B,体感不输 64GB 跑 14B。预算紧的人优先 32GB。

2. 三大 runtime 选型

2.1 Ollama(默认推荐)

定位:傻瓜式 LLM runtime,一行命令装 + 一行命令拉模型 + REST API 自动起。优势:

装好就用 — brew install ollama 即可
与 Obsidian 几乎所有 AI 插件原生兼容(localhost:11434 是标配)
模型库丰富,中文模型(Qwen / DeepSeek)收录全
自动管理显存

劣势:

比 MLX-LM 慢 30-40%(在 Apple Silicon 上)
默认参数保守,不适合追求极限性能的人

装机命令:

brew install ollama
ollama serve  # 后台跑
ollama pull qwen3:8b  # 拉 Qwen 3 8B
ollama run qwen3:8b   # 测试对话

2.2 LM Studio(GUI 派)

定位:LLM 的”网易云音乐” —— 漂亮的 GUI,模型库视觉化,适合不爱命令行的人。优势:

内置 model browser(可视化挑模型)
自带 OpenAI-compatible server,Obsidian 插件都能接
Windows 用户体验比 Ollama 略好

劣势:

macOS 上启动慢
闭源,无 community plugin 支持

适合:Windows 用户 / 完全不愿碰命令行的 Mac 用户。

2.3 MLX-LM(Apple Silicon 极速派)

定位:Apple 官方 ML 库 MLX 的 LLM 包装,Apple Silicon 专用。优势:

同模型同硬件比 Ollama 快 30-40%
用 Apple 统一内存架构(GPU / CPU 共享内存)效率最高
对 Apple Silicon 量化优化最深

劣势:

需自己起 OpenAI-compatible 兼容层(如 mlx-lm serve)
模型库不如 Ollama 全
装起来比 Ollama 麻烦一倍

适合:已用 Ollama 半年、确定要继续投入、想榨干 Mac 性能的人。

🟢 译者点评:90% 用户用 Ollama 就够了。MLX-LM 是 power user 的下一步,LM Studio 是不爱命令行的捷径。别在 runtime 选型上花太多时间 —— 模型选对、prompt 写对,比 runtime 选对重要 5 倍。

3. 模型选择 —— 中文 vs 英文

3.1 中文场景

模型	大小	推荐场景	注意
Qwen 3 30B-A3B(MoE)	18GB(Q4)	32GB+ Mac 通用王	速度类似 7B,质量类似 30B
Qwen 3 14B	9GB(Q4)	24GB Mac 主力	中文质量超过 Llama 3.3 70B
Qwen 3 8B	5GB(Q4)	16GB Mac 起步	性价比最高
DeepSeek-R1-Distill-Qwen 14B	9GB(Q4)	推理任务	思维链强,但响应慢
Qwen 2.5 32B(legacy)	19GB(Q4)	已稳定的旧工作流	已被 Qwen 3 反超,可逐步迁移

3.2 英文场景

模型	大小	推荐场景
Llama 3.3 70B	40GB(Q4)	64GB+ Mac,英文写作王
Gemma 3 27B	16GB(Q4)	32GB Mac,Google 工艺,英文体感清爽
Gemma 3 12B	7GB(Q4)	24GB Mac 中端首选
Llama 3.2 3B	2GB(Q4)	16GB Mac,Smart Composer 默认模型

3.3 代码场景(Obsidian 内写代码 / 改 dataviewjs)

模型	大小	备注
qwen3-coder 30B(2025 后期)	18GB(Q4)	阿里官方代码模型,跨语种,中文注释友好;当前最优首选
Qwen 3 30B-A3B(通用)	18GB(Q4)	通用 MoE,代码能力虽不如 qwen3-coder,但搭配 chat 一致性好
DeepSeek-Coder-V2 16B	9GB(Q4)	开源代码模型,但 2025-08 最后更新,可逐步迁移到 qwen3-coder
deepcoder	见 Ollama lib	2025 后期模型,实测后再投产

🟢 译者点评:中文用户务必选 Qwen 系,不要用 Llama 系处理中文。Llama 3.x 在英文上很强,中文上明显有翻译腔、用词不地道。Qwen 是阿里训练,中文是母语水平。

有据陈述:在 C-Eval(中文综合评估金标准)上 Qwen3.5-9B 得分 88.2%(2026 公开 benchmark);在 LLM-Stats 等独立基准上,Qwen3 8B 在 IFEval / MMLU / MMLU-Pro 三项均超过 Llama 3.1 8B(同等参数量)。中文场景的差距在量化基准下也是稳定的,不是仅凭体感。

4. Embedding 模型(给 Smart Connections / RAG 用)

Embedding 模型不直接生成文本,负责”把笔记切片转成向量”。Smart Connections / Khoj / ObsidianRAG 都需要它。

模型	维度	大小	中文	英文	速度
nomic-embed-text	768	~100MB	中(英文优先)	优	极快
bge-m3(BAAI 北京智源)	1024	~600MB	优(100+ 语言)	优	中(CPU 上慢)
qwen3-embedding 0.6B / 3B(阿里)	1024	~600MB / ~2GB	优(阿里训练,与 Qwen 3 同源)	优	中
mxbai-embed-large	1024	~700MB	中等	优	中
all-minilm(Smart Connections 默认)	384	~50MB	一般	优	极快

中文用户决策树:

笔记 < 1,000 篇 → 用 Smart Connections 默认即可
笔记 1,000-5,000 篇,中文为主 → 升级 bge-m3 或 qwen3-embedding 0.6B(质变)
笔记 > 5,000 篇 → 必须 bge-m3 / qwen3-embedding 3B;或考虑混合检索(关键词 + 向量)

bge-m3 vs qwen3-embedding 怎么选:

bge-m3:智源出品,公开 benchmark 多,跨 100+ 语言,安全选项
qwen3-embedding:阿里出品(2025 后期发布),与 Qwen 3 生成模型同源,生成 + embedding 配套用一致性更好;可选 0.6B(轻量)或 3B(最强中文)

装 bge-m3 进 Smart Connections:

ollama pull bge-m3 或 ollama pull qwen3-embedding:0.6b
Smart Connections 设置 → Embedding model → Local → 选对应 host
重新索引(中型 vault 1-2 小时)

5. Obsidian 接入 —— 5 种插件路线

5.1 路线 A:Smart Connections 本地嵌入(发现派)

定位:背景跑,在你写笔记时浮现相关。配置:Smart Connections → Embedding settings → Local → 选 bge-m3 / nomic-embed-text。优势:vault 完全不出本机,默认就这么设计的。适合:几乎所有用户都该开。

5.2 路线 B:Local GPT(pfrankov)+ Ollama(改写派)

定位:右键菜单调出本地 GPT 改写选中段落。配置:Local GPT 设置 → URL http://localhost:11434/v1 → 模型 qwen3:8b。优势:Ollama 无缝接入,改写 / 摘要 / 翻译 / 自定义 prompt 全本地。适合:写作 + 翻译重度用户。

5.3 路线 C:Smart 2nd Brain(your-papa)+ Ollama(对话派)

定位:类 Copilot 的对话面板,但全本地。优势:UI 友好,vault 自动检索 + 对话(本地 RAG)。适合:不愿暴露给 OpenAI 但想要 Copilot 体验的人。

5.4 路线 D:ObsidianRAG(Vasallo94,LangGraph 实现)

定位:严格的 RAG 框架,LangGraph 可观测,适合开发者。优势:支持 PDF / Markdown,完全离线。劣势:配置门槛比 Smart 2nd Brain 高,需 Docker / Python。适合:技术派 + 想自定义 retrieval pipeline 的人。

5.5 路线 E:Copilot for Obsidian(免费层)+ Ollama

定位:6,926 stars 的头牌也支持本地后端。配置:Copilot 设置 → Custom model → URL http://localhost:11434/v1 → 模型 qwen3:14b。优势:已经在用 Copilot 的人零迁移成本。注意:Copilot 部分高级功能(autonomous agent)只在 Plus + Brevilabs 后端可用,纯本地后端用不到。

🟢 译者点评:最稳的组合是 A + E —— Smart Connections 本地嵌入做背景,Copilot 接 Ollama 做主对话。两者完全互补,vault 在两个层次上都不出本机。

6. 实战工作流模板

6.1 早晨日记 → 当天 TODO 整理

触发:每天打开 Obsidian
插件:Templater + Local GPT
prompt:把昨天的日记和未完成 TODO 整理成今天的 3 个重点
模型:Qwen 3 8B(够快够准)

6.2 RSS 文章批量摘要

触发:每天 9 AM
插件:Web Clipper + Cannoli(Canvas workflow)+ Local GPT
模型:Qwen 3 14B(质量更重要,速度可等)
输出:每篇文章 → 3 句摘要 + 3 个金句 + 1 个延伸问题

6.3 vault 全局 QA(私密日记 / 法律案件)

触发:需要"我去年关于 X 是怎么决定的"
插件:Smart 2nd Brain 或 ObsidianRAG
模型:Qwen 3 30B-A3B(质量优先)
特点:vault 不出本机,适合敏感数据

6.4 写作辅助(译者点评 + 重写)

触发:写好一段后选中
插件:Local GPT(右键菜单)
prompt:用更紧凑的句式重写,保留我的语气
模型:Qwen 3 14B

6.5 中文 ↔ 英文翻译(私密文档)

触发:选中段落
插件:Local GPT 或 Smart Composer
模型:Qwen 3 14B(中英双向都强)
对照云 API:DeepL 质量更高,但内容外发

7. 性能基准(M2 Pro 16GB / M3 Pro 36GB 实测口径)

注:以下数据综合自 2026-Q1 多篇 benchmark 文章,实际值因系统负载、上下文长度浮动 ±30%。生产决策需自测。

模型	硬件	量化	输出速度(token/s)	首 token 延迟
Qwen 3 8B	M2 Pro 16GB	Q4_K_M	30-40	0.8s
Qwen 3 14B	M3 Pro 36GB	Q4_K_M	25-35	1.2s
Qwen 3 30B-A3B	M3 Pro 36GB	Q4_K_M	40-60(MoE 优势)	1.5s
DeepSeek-R1-Distill 14B	M3 Pro 36GB	Q4_K_M	22-30	2-5s(思维链)
Llama 3.3 70B	M3 Max 64GB	Q4_K_M	8-12	3s

对照云 API:

GPT-4o: ~80 token/s
Claude Opus 4.7: ~60 token/s

🟢 译者点评:速度差距没有想象中大。本地 30 token/s 已经够流畅(英文阅读速度约 5 token/s,Q4 模型显示比眼睛快 6 倍)。真正的差距在多轮对话长度和复杂推理质量,日常单轮 prompt 几乎感受不到。

8. 隐私威胁模型 — 何时本地、何时云

不是所有任务都该本地,也不是所有任务都该云。

任务	本地 vs 云	理由
读你的日记 / 写治疗记录	必本地	OpenAI / Anthropic ToS 都允许训练用户对话(Anthropic Pro 默认开训练同意)
律师案件 / 医生病历	必本地	行业合规要求,不能外发
公开博客的写作辅助	云	内容反正要发出去,云 API 质量更高
代码改写(无敏感信息)	任一	看你方便
Vault 全局 QA(混合内容)	本地	检索过程会暴露 vault 结构,即使云 API”承诺”不存,也是流量
一次性总结公开论文	云	论文本身公开,云 API 速度优势大
翻译任意中文(信任 OpenAI/Anthropic 翻译)	云	质量目前云优

关键判断:“如果这段内容截图发我推/朋友圈,我会不舒服吗?” 答案是 yes → 本地。

9. 避坑清单

坑	表现	解法
8GB Mac 强行跑 14B	系统卡到无响应	降到 8B 以下,或老老实实用云
第一次 Ollama 网络超时	拉模型卡 0%	国内用户配代理,或换 hf-mirror.com
Smart Connections 用 bge-m3 没换 host	一直走默认 384 维	设置里”Local server URL”必须填 `http://localhost:11434`
同时跑多个本地模型	内存爆,系统死锁	Ollama 默认只载入 1-2 个,显式 `ollama stop`
Q8 量化贪心	质量提升小,内存翻倍	Q4_K_M 是绝大多数场景的最优解
Qwen 3 处理英文	强行选 Qwen 3 写英文	英文写作切 Llama 3.3 / Gemma 3,质量明显好
Llama 3 处理中文	翻译腔严重	中文必 Qwen 系
DeepSeek-R1 默认开思维链	速度像在拉屎	简单任务关掉 thinking
Ollama 后台不稳定	macOS 重启后 service 没起	`brew services start ollama` 永久后台

🟢 译者总评

3 个 takeaway:

本地 LLM 在 2026 已经过了”质量不行”的门槛。Qwen 3 30B-A3B 在 32GB Mac 上的中文体验,客观对照已经接近 GPT-4o-mini / Claude 3.5 Haiku 这个梯队。不要再用 2024 年的”本地不行”印象做 2026 决策。
本地 ≠ 替代云,而是补全云。每个任务有自己适合的位置:隐私敏感的日记 / 案件 / 病历必本地,需要顶级质量的写作 / 复杂推理走云,中间地带按需。两个都用才是 2026 的成熟用法。
runtime / 模型 / 插件三者中,模型选对最重要,模型选对 最重要,模型选对最重要(中文用户:Qwen 系优先)。runtime 最不重要(Ollama 够),插件次重要(A + E 组合够)。

反共识结论:

不要追求最新最大模型。Qwen 3 8B 对 16GB Mac 用户性价比一年内不会被超越,贪 32B / 70B 反而会让你 Mac 成砖
不要把所有任务都搬本地。本地是隐私保险,不是质量保证。日常写作仍然云 API 更好
embedding 模型比生成模型重要。生成模型用 Q4 量化质量损失小,embedding 用错维度 / 语言会让 Smart Connections 直接废掉

🔗 延伸阅读(本系列内)

22 Obsidian × AI —— 完整的 Obsidian × AI 插件格局,本文是其 §5 的延伸
01 Bases vs Dataview —— 配合 dataview 调本地 LLM 写自定义查询(进阶)
17 Excalidraw + Canvas —— 配合 Cannoli 在 Canvas 上画 LLM 工作流

🔗 调研来源(可校验,2026-05-10 自核)

Runtime / 模型库:

Ollama — https://github.com/ollama/ollama(171,064 stars,2026-05-09 push)
Ollama 模型库 — https://ollama.com/library(全量自核 Qwen 3 / DeepSeek-R1 / Llama 3.3 / Gemma 3 size 列表)
LM Studio — https://lmstudio.ai/
MLX-LM — https://github.com/ml-explore/mlx-examples

模型基础:

Qwen 3 — https://ollama.com/library/qwen3(0.6b / 1.7b / 8b / 14b / 30b / 32b / 235b)
DeepSeek-R1 — https://ollama.com/library/deepseek-r1(1.5b / 7b / 8b / 14b / 32b / 70b / 671b)
Gemma 3 — https://ollama.com/library/gemma3(1b / 4b / 12b / 27b)
Llama 3.3 — https://ollama.com/library/llama3.3(70b)
bge-m3 — https://ollama.com/library/bge-m3
nomic-embed-text — https://ollama.com/library/nomic-embed-text

Benchmark 类:

InsiderLLM “Best Local LLMs for Mac in 2026” — https://insiderllm.com/guides/best-local-llms-mac-2026/
BentoML “Best Open-Source Embedding Models in 2026” — https://www.bentoml.com/blog/a-guide-to-open-source-embedding-models
Local AI Master “Best Ollama Models” — https://localaimaster.com/blog/best-ollama-models

Obsidian 接入插件(stars 见 22 文):

Local GPT(pfrankov)/ Smart 2nd Brain(your-papa)/ ObsidianRAG(Vasallo94)/ Smart Connections(brianpetro)/ Copilot(logancyang)

版权:本文为评论合理使用 + 显式署名 + 链接回原文,所有 benchmark 数据均归属原 publisher。