HeQihan

HeQihan

本地怎麼跑大模型——使用LM Studio吧

最近入了本地大模型的坑,其實一直想入,苦於筆記本的獨顯是只有 4G 顯存的 RTX 3050 Laptop,欲入門而無法。現在好了,發現 Apple 設備推理效果也不錯,而且手頭恰好有個 M2 的 Mac Mini,實在是尤為幸運,於是有了這篇。

說到用戶友好,我們通常指的是可以開箱即用,最好有個圖形化界面,docker 與 Ollama 或許算得上開箱即用,但是和圖形化就不沾什麼關係,我要隆重推薦的就是 ——LM Studio。

前期準備#

為什麼要推薦它呢,因為它善。打開它的下載界面,嚯,夠現代化的,按著自己的系統要求下載客戶端就好,Apple 設備需要 M 系列芯片。

截屏 2024-12-19 下午 11.11.29.png

就正常安裝,打開後可以看到主界面(當然第一次打開不是這樣的)

截屏 2024-12-19 下午 11.14.57.png

把目光移到右下角的齒輪圖標上,可以打開設置把語言切換為中文,雖然說翻譯不全,但是總比沒有強。

截屏 2024-12-19 下午 11.22.40.png

好了,前期的準備到這裡就差不多結束了,可以把我們的大模型端上來了。

下載加載大模型#

說 LM Studio 善,首先就在於它有非常便捷的大模型下載路徑。

截屏 2024-12-19 下午 11.15.57.png

只要點擊這個發現的放大鏡(從上往下第四個),就可以搜索各式各樣的大模型,由於這些模型都來自 Hugging Face,所以需要有個比較乾淨的 ip 才可以下載。

截屏 2024-12-20 上午 12.09.46.png

我們可以看著模型大小進行選擇,由於 Apple 的 M 系列芯片是統一內存架構,因此內存與顯存共用同一個內存池,根據蘋果的最新消息,顯存最多可以佔用總內存的 75%(好像是,記不太清了),而大模型在運行過程中也會消耗一些顯存,所以模型大小在總內存大小的一半左右就差不多可以運行。

另外,值得一提的是 LM Studio 支持蘋果的 MLX 深度學習框架,數據傳輸開銷比 Pytorch 要小,也比常見的 GGUF 格式更適合 M 系列芯片,所以選擇模型時最好選擇 MLX 的模型。

把模型下載好之後,就可以加載它了。經過反復實驗,我的 8G 內存的 Mac Mini 能跑的最好的模型是 Qwen2-7B-Instruct-4bit 模型,不僅可以拉滿 32k 的上下文,而且速度也相當可觀,中文的掌握能力也好於國外大模型。

截屏 2024-12-20 上午 12.38.48.png

有一說一,千問模型推出後,我對阿里雲的印象可謂是直接反轉,雖然說阿里雲新加坡機房著火,異地容災幾乎沒有,但是訓練了 Qwen,還原生支持日語韓語,那就很好,利好漫畫翻譯,值得讚嘆,馬雲老師可謂是 “一洗萬古凡馬空”。

然後就可以和 Qwen2-7B 對話,生成速度就豐儉由人,不過可以用我的 M2 做參照。

截屏 2024-12-20 上午 12.42.52.png

大概是 19.9 tokens/s,屬於是可用狀態,相比於 Phi 3 的胡言亂語,Gemma 2 的不懂中文,Deepseek 的大而無當,Mistral 的自問自答,Qwen2 顯得可愛又平和,我愛它,至於 RAG 和本地調用 api 之類的,下次再說吧。

截屏 2024-12-20 下午 6.18.12.png

果然 4bit 量化還是太笨了,改天試試 Qwen2.5 會不會是樣一樣笨笨的,我果然還是愛它,不會罵它是個傻缺。

此文由 Mix Space 同步更新至 xLog 原始鏈接為 https://www.actorr.cn/posts/default/usingLMStudio

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。