引言
背景介绍
近期大模型圈子真的是来了个王炸,没有比 DeepSeek 更火的了吧!2025年这个春节我应该都是在 DeepSeek-R1 模型带来的震撼中度过的。DeepSeek-R1 在后训练阶段广泛采用了强化学习技术,即使在标注数据极为有限的情况下,也显著提升了模型的推理能力。在数学、编程以及自然语言推理等任务上,其性能能够与 OpenAI o1 正式版相媲美。
这么强大,这么牛逼,深度求索居然把 DeepSeek 的训练技术全部公开了,而且模型也开源了,采用了 MIT 协议。
论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek 这么牛,整个春节假期都基本处于半瘫痪状态,主要原因是圈子里的人都大受震撼,都想尝试一下这个模型,过多的人追捧,导致服务器资源消耗过大,并且在这个节骨眼人红是非多,还遭受外国黑客的持续攻击。
DeepSeek 开源版本可以自己部署来用,并且一下子发布了好几个开源版本,主要有基于 Qwen 和 Llama 的 1.5B/7B/8B/14B/32B/70B 蒸馏版本和 671b 的满血版本。
并且 Ollama 也支持了部署这些版本,苹果的 M 系列芯片也恰好可以支持部分较小的模型。本文就基于苹果 M 系列笔本电脑+Ollama+DeepSeek-R1+Cherry Studio 来部署个人本地的大模型聊天助手和RAG知识库。
主要技术组件说明
MacBook Pro(M3 Pro芯片)
我用的 Mac 电脑是 2023款 MacBook Pro,14英寸,芯片是 M3 Pro(12核CPU,18核GPU),内存 36GB。
Ollama
Ollama 是一款采用 Go 语言开发的本地化大模型运行平台,其设计理念与 Docker 有着异曲同工之妙。该平台提供类似容器管理的模型操作指令集(如 list、pull、push、run 等),在保持开发者对 Docker 操作习惯无缝衔接的同时,构建了专属的大模型资源生态体系。平台预置了 DeepSeek、Llama 2、Mistral、Qwen 等主流模型库,并开放用户自定义模型上传功能,形成灵活开放的模型托管环境。
Ollama 官网:https://ollama.com
DeepSeek-R1 模型
深度求索在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
开源的这些模型可以在 Ollama 的模型市场下载使用。
Nomic-embed-text 模型
nomic-embed-text 是由 Nomic AI 开发的一款开源文本嵌入模型,主要用于将文本语义信息编码为低维向量,以支持多种自然语言处理任务。其核心功能与特点如下:
- 性能优势
- 在短文本和长文本任务中均超越OpenAI的Ada-002和text-embedding-3-small模型,尤其擅长处理长达 8192 tokens 的上下文,适合长文档分析。
- 参数规模仅137M,轻量化设计便于部署。
- 完全开源与可审计性
- 模型权重、训练代码及包含 2.35 亿文本对的训练数据集全部开源,支持复现、修改和审计,解决了闭源模型(如OpenAI API)的透明性问题。
- 应用场景
- 检索增强生成(RAG):为 LLM 提供外部知识库支持,提升生成内容的准确性。
- 语义搜索与信息检索:通过向量化文本实现高效相似性匹配,适用于搜索引擎优化。
- 数据可视化与分类:如聚类分析、知识图谱构建等。
总结来看,nomic-embed-text 通过高性能、全开源的特性,为开发者提供了可替代 OpenAI 嵌入模型的透明化解决方案,尤其适合需要长文本处理与审计需求的场景。
这里我们通过使用 nomic-embed-text 嵌入模型来拆分长文本用以提供 RAG 知识库检索。
为什么基于 RAG 的 AI 知识库要使用文本嵌入模型?
虽然通用大模型具备强大的语义理解和生成能力,但其参数量庞大、推理成本高,直接用它遍历海量知识库会导致计算开销巨大(时间复杂度高),无法满足实时检索需求。文本嵌入模型将文本转换为低维稠密向量(如768维或1024维),通过向量相似度(如余弦相似度)快速匹配查询与知识库内容。这种表示方式使检索复杂度从O(N)(逐条处理)优化为近似O(1)(借助向量索引如FAISS或HNSW)。嵌入模型专门针对语义相似性任务训练,能更精准地捕捉文本的语义关系(如“猫”与“动物”的关联性),而通用大模型可能更关注生成任务的流畅性,对细粒度语义匹配的优化不足。通过检索相关文档作为生成依据,可约束大模型基于事实生成回答,降低虚构内容的概率(减少幻觉)。
nomic-embed-text 模型也可以在Ollama 的模型市场下载使用。
Cherry Studio
Cherry Studio 是一款专为专业用户设计的桌面应用程序,支持多种模型服务,并内置了超过 30 个行业的智能助手,旨在帮助用户在各种场景中提升工作效率。
Cherry Studio 内置了很多服务商,集成了超过 300 多个大语言模型。在使用过程中,可以随意切换模型来回答问题,充分利用各个大模型的优势解决问题。
这里我们后面主要使用 Ollama 模型服务的配置。
Cherry Studio 更多介绍参见链接:https://docs.cherry-ai.com/
部署操作过程
安装 Ollama
打开 Ollama 官网下载 Mac OS 版本的软件包,
解压安装包,将 Ollama 程序移动到应用程序目录
双击打开 Ollama 程序,打开终端工具,执行ollama -v
命令,显示 Ollama 的版本表示安装成功。
(base) macbookpro@localhost ~ % ollama -v
ollama version is 0.5.7
部署 DeepSeek 和 nomic-embed-text 模型
部署 DeepSeek-R1 模型
打开 Ollama 官网的模型市场,DeepSeek 模型链接:https://ollama.com/library/deepseek-r1
这里所有开源版本的模型都可以下载,M3 Pro 36GB 的配置 14b 和 32b 模型都可以运行起来, 这里我们使用 14b 的模型,在终端执行如下命令下载并运行模型:
ollama run deepseek-r1:14b
下载完成运行结果如下:
成功之后,即可在终端窗口进行对话。
部署 nomic-embed-text 模型
nomic-embed-text 模型链接:https://ollama.com/library/nomic-embed-text
在终端执行如下命令下载并运行 nomic-embed-text 模型:
ollama pull nomic-embed-text
下载完成运行结果如下:
安装 Cherry Studio
打开 Cherry Studio 官网,地址:https://cherry-ai.com
下载 Apple 芯片的客户端
打开安装包,将 Cherry Studio 程序移动到应用程序目录
配置 Cherry Studio
打开 Cherry Studio ,在设置选项里选择 Ollama 进行配置,API 地址配置为http://127.0.0.1:11434
在模型选项选择添加按钮,配置模型ID为deepseek-r1:14b
添加完deepseek-r1:14b
模型之后,继续添加nomic-embed-text
所有模型添加完成如下:
体验 Cherry Studio
对话助手
打开对话助手界面,选择deepseek-r1:14b
模型,进行对话操作,如下:
基于知识库回复
打开知识库选项,添加知识库,嵌入模型选择nomic-embed-text
添加文件,待显示为绿色对号,表示文件向量化成功。
返回对话窗口,点击知识库,选择三体小说知识库,进行问答
参考链接
https://api-docs.deepseek.com/zh-cn/news/news250120