本地で大規模モデルを実行する方法——LM Studioを使いましょう

最近入ったローカル大モデルの世界ですが、実はずっと興味がありました。ただ、ノートパソコンの独立 GPU が 4G メモリの RTX 3050 Laptop しかなく、始めたくてもできませんでした。今は、Apple デバイスの推論効果も良いことが分かり、ちょうど M2 の Mac Mini を手に入れたので、非常にラッキーでした。そこでこの記事を書きました。

ユーザーフレンドリーについて言えば、通常はすぐに使えることを指し、できればグラフィカルなインターフェースがあると良いです。docker と Ollama は開箱即用と言えるかもしれませんが、グラフィカルな部分とはあまり関係がありません。私が特にお勧めしたいのは ——LM Studio です。

前期準備#

なぜこれをお勧めするのかというと、それが優れているからです。ダウンロードページを開くと、ほら、かなりモダンです。自分のシステム要件に合わせてクライアントをダウンロードすれば大丈夫です。Apple デバイスには M シリーズチップが必要です。

截屏 2024-12-19 下午 11.11.29.png

通常通りインストールし、開くとメイン画面が表示されます（もちろん、初めて開いたときはこんな感じではありません）。

截屏 2024-12-19 下午 11.14.57.png

右下のギアアイコンに目を移すと、設定を開いて言語を中国語に切り替えることができます。翻訳は完全ではありませんが、ないよりはましです。

截屏 2024-12-19 下午 11.22.40.png

さて、前期の準備はこれでほぼ終了です。私たちの大モデルを立ち上げる準備が整いました。

ダウンロードと大モデルの読み込み#

LM Studio が優れているのは、非常に便利な大モデルのダウンロードパスがあるからです。

截屏 2024-12-19 下午 11.15.57.png

この発見の虫眼鏡をクリックするだけで（上から 4 番目）、さまざまな大モデルを検索できます。これらのモデルはすべて Hugging Face から来ているため、比較的クリーンな IP が必要です。

截屏 2024-12-20 上午 12.09.46.png

モデルのサイズを見ながら選択できます。Apple の M シリーズチップは統一メモリアーキテクチャを採用しているため、メモリと VRAM は同じメモリプールを共有します。Apple の最新情報によれば、VRAM は最大で総メモリの 75% を占有できるそうです（確かそうだったと思いますが、あまり覚えていません）。大モデルは実行中にいくつかの VRAM を消費するため、モデルのサイズは総メモリの半分程度であれば、ほぼ実行可能です。

さらに、LM Studio は Apple の MLX 深層学習フレームワークをサポートしており、データ転送のオーバーヘッドが Pytorch よりも小さく、一般的な GGUF 形式よりも M シリーズチップに適しています。そのため、モデルを選択する際は MLX のモデルを選ぶのがベストです。

モデルをダウンロードしたら、読み込むことができます。何度も実験した結果、私の 8G メモリの Mac Mini で最も良く動作するモデルは Qwen2-7B-Instruct-4bit モデルで、32k のコンテキストをフルに活用でき、速度もかなり良好で、中国語の理解能力も海外の大モデルより優れています。

截屏 2024-12-20 上午 12.38.48.png

正直に言うと、千問モデルが出た後、阿里云に対する印象は一変しました。阿里云のシンガポールのデータセンターが火事になったり、異地の災害復旧がほとんどなかったりしましたが、Qwen を訓練し、日本語と韓国語をネイティブにサポートするのは素晴らしいです。漫画翻訳にとっては良いニュースで、称賛に値します。馬雲先生は「一洗万古凡馬空」と言えるでしょう。

それから Qwen2-7B と対話を始めることができ、生成速度は自由に調整できますが、私の M2 を基準にすることができます。

截屏 2024-12-20 上午 12.42.52.png

おおよそ 19.9 tokens/s で、実用的な状態です。Phi 3 の支離滅裂な発言、Gemma 2 の中国語が分からないこと、Deepseek の大きさだけの無駄、Mistral の自問自答に比べて、Qwen2 は可愛くて穏やかです。私はそれが好きです。RAG やローカル API の呼び出しについては、次回にしましょう。

截屏 2024-12-20 下午 6.18.12.png

やはり 4bit の量子化はまだまだ不十分です。次回は Qwen2.5 が同じように不十分かどうか試してみます。私はやはりそれが好きで、バカだとは言いません。

この文は Mix Space によって xLog に同期更新されました。原始リンクは https://www.actorr.cn/posts/default/usingLMStudio