本地怎麼跑大模型——使用LM Studio吧

最近入了本地大模型的坑，其實一直想入，苦於筆記本的獨顯是只有 4G 顯存的 RTX 3050 Laptop，欲入門而無法。現在好了，發現 Apple 設備推理效果也不錯，而且手頭恰好有個 M2 的 Mac Mini，實在是尤為幸運，於是有了這篇。

說到用戶友好，我們通常指的是可以開箱即用，最好有個圖形化界面，docker 與 Ollama 或許算得上開箱即用，但是和圖形化就不沾什麼關係，我要隆重推薦的就是 ——LM Studio。

前期準備#

為什麼要推薦它呢，因為它善。打開它的下載界面，嚯，夠現代化的，按著自己的系統要求下載客戶端就好，Apple 設備需要 M 系列芯片。

截屏 2024-12-19 下午 11.11.29.png

就正常安裝，打開後可以看到主界面（當然第一次打開不是這樣的）

截屏 2024-12-19 下午 11.14.57.png

把目光移到右下角的齒輪圖標上，可以打開設置把語言切換為中文，雖然說翻譯不全，但是總比沒有強。

截屏 2024-12-19 下午 11.22.40.png

好了，前期的準備到這裡就差不多結束了，可以把我們的大模型端上來了。

說 LM Studio 善，首先就在於它有非常便捷的大模型下載路徑。

截屏 2024-12-19 下午 11.15.57.png

只要點擊這個發現的放大鏡（從上往下第四個），就可以搜索各式各樣的大模型，由於這些模型都來自 Hugging Face，所以需要有個比較乾淨的 ip 才可以下載。

截屏 2024-12-20 上午 12.09.46.png

我們可以看著模型大小進行選擇，由於 Apple 的 M 系列芯片是統一內存架構，因此內存與顯存共用同一個內存池，根據蘋果的最新消息，顯存最多可以佔用總內存的 75%（好像是，記不太清了），而大模型在運行過程中也會消耗一些顯存，所以模型大小在總內存大小的一半左右就差不多可以運行。

另外，值得一提的是 LM Studio 支持蘋果的 MLX 深度學習框架，數據傳輸開銷比 Pytorch 要小，也比常見的 GGUF 格式更適合 M 系列芯片，所以選擇模型時最好選擇 MLX 的模型。

把模型下載好之後，就可以加載它了。經過反復實驗，我的 8G 內存的 Mac Mini 能跑的最好的模型是 Qwen2-7B-Instruct-4bit 模型，不僅可以拉滿 32k 的上下文，而且速度也相當可觀，中文的掌握能力也好於國外大模型。

截屏 2024-12-20 上午 12.38.48.png

有一說一，千問模型推出後，我對阿里雲的印象可謂是直接反轉，雖然說阿里雲新加坡機房著火，異地容災幾乎沒有，但是訓練了 Qwen，還原生支持日語韓語，那就很好，利好漫畫翻譯，值得讚嘆，馬雲老師可謂是 “一洗萬古凡馬空”。

然後就可以和 Qwen2-7B 對話，生成速度就豐儉由人，不過可以用我的 M2 做參照。

截屏 2024-12-20 上午 12.42.52.png

大概是 19.9 tokens/s，屬於是可用狀態，相比於 Phi 3 的胡言亂語，Gemma 2 的不懂中文，Deepseek 的大而無當，Mistral 的自問自答，Qwen2 顯得可愛又平和，我愛它，至於 RAG 和本地調用 api 之類的，下次再說吧。

截屏 2024-12-20 下午 6.18.12.png

果然 4bit 量化還是太笨了，改天試試 Qwen2.5 會不會是樣一樣笨笨的，我果然還是愛它，不會罵它是個傻缺。