本地怎么跑大模型——使用LM Studio吧

最近入了本地大模型的坑，其实一直想入，苦于笔记本的独显是只有 4G 显存的 RTX 3050 Laptop，欲入门而无法。现在好了，发现 Apple 设备推理效果也不错，而且手头恰好有个 M2 的 Mac Mini，实在是尤为幸运，于是有了这篇。

说到用户友好，我们通常指的是可以开箱即用，最好有个图形化界面，docker 与 Ollama 或许算得上开箱即用，但是和图形化就不沾什么关系，我要隆重推荐的就是 ——LM Studio。

前期准备#

为什么要推荐它呢，因为它善。打开它的下载界面，嚯，够现代化的，按着自己的系统要求下载客户端就好，Apple 设备需要 M 系列芯片。

截屏 2024-12-19 下午 11.11.29.png

就正常下载安装，打开后可以看到主界面（当然第一次打开不是这样的）

截屏 2024-12-19 下午 11.14.57.png

把目光移到右下角的齿轮图标上，可以打开设置把语言切换为中文，虽然说翻译不全，但是总比没有强。

截屏 2024-12-19 下午 11.22.40.png

好了，前期的准备到这里就差不多结束了，可以把我们的大模型端上来了。

说 LM Studio 善，首先就在于它有非常便捷的大模型下载路径。

截屏 2024-12-19 下午 11.15.57.png

只要点击这个发现的放大镜（从上往下第四个），就可以搜索各式各样的大模型，由于这些模型都来自 Hugging Face，所以需要有个比较干净的 ip 才可以下载。

截屏 2024-12-20 上午 12.09.46.png

我们可以看着模型大小进行选择，由于 Apple 的 M 系列芯片是统一内存架构，因此内存与显存共用同一个内存池，根据苹果的最新消息，显存最多可以占用总内存的 75%（好像是，记不太清了），而大模型在运行过程中也会消耗一些显存，所以模型大小在总内存大小的一半左右就差不多可以运行。

另外，值得一提的是 LM Studio 支持苹果的 MLX 深度学习框架，数据传输开销比 Pytorch 要小，也比常见的 GGUF 格式更适合 M 系列芯片，所以选择模型时最好选择 MLX 的模型。

把模型下载好之后，就可以加载它了。经过反复实验，我的 8G 内存的 Mac Mini 能跑的最好的模型是 Qwen2-7B-Instruct-4bit 模型，不仅可以拉满 32k 的上下文，而且速度也相当可观，中文的掌握能力也好于国外大模型。

截屏 2024-12-20 上午 12.38.48.png

有一说一，千问模型推出后，我对阿里云的印象可谓是直接反转，虽然说阿里云新加坡机房着火，异地容灾几乎没有，但是训练了 Qwen，还原生支持日语韩语，那就很好，利好漫画翻译，值得赞叹，马云老师可谓是 “一洗万古凡马空”。

然后就可以和 Qwen2-7B 对话，生成速度就丰俭由人，不过可以用我的 M2 做参照。

截屏 2024-12-20 上午 12.42.52.png

大概是 19.9 tokens/s，属于是可用状态，相比于 Phi 3 的胡言乱语，Gemma 2 的不懂中文，Deepseek 的大而无当，Mistral 的自问自答，Qwen2 显得可爱又平和，我爱它，至于 RAG 和本地调用 api 之类的，下次再说吧。

截屏 2024-12-20 下午 6.18.12.png

果然 4bit 量化还是太笨了，改天试试 Qwen2.5 会不会是一样笨笨的，我果然还是爱它，不会骂它是个傻缺。