【Amazon.co.jp限定】 バッファロー WiFi 無線LAN 中継機 Wi-Fi 5 11ac 866 + 300 Mbps ハイパワー コンセント直挿し コンパクトモデル 簡易パッケージ 日本メーカー 【 iPhone 16 / 15 / 14 / 13 / Nintendo Switch / PS5 動作確認済み 】 エコパッケージ WEX-1166DHPL/N
¥2,980 (2025年5月5日 13:15 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)Logicool G ゲーミングヘッドセット G335 ゲーミング ヘッドセット G335BK 超軽量 222g 3.5mm 有線 立体音響 ステレオ 2.1ch フリップミュート マイク付き PS5 PS4 PC Switch Xbox スマホ 対応 ヘッドホン ヘッドフォン ブラック 国内正規品
¥8,061 (2025年5月5日 13:12 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)

前回は、Docker コンテナでGPUが使えるところまで設定出来ましたので、今回は、コンテナでローカルLLMを試していきます。
[前回記事] 中古GPU(RTX 3060/12GB)でローカルLLM検証-1 ~ 初期設定とGPUコンテナ
ChatGPT o3 に、どのLLMを試すか相談したら、次の3ルートをおススメされました。
(1)llama.cpp ルート
(2)Ollama ルート
(3)vLLM ルート
違いを表にするとこんな感じ
用途 | 手軽さ | REST/UI | バッチ性能 | 迷ったら |
---|---|---|---|---|
llama.cpp | ◎ 軽い | あり (8080) | ○ | まず試す |
Ollama | ◎ (pull 自動) | あり (11434) + WebUI | △ | GUI で遊ぶ |
vLLM | ○ 要 HF モデル | あり (8000) | ◎ 高速 | API 負荷テスト |
ちなみにRTX 3060 のVRAM 12 GB で動くモデルとしては、
モデル | サイズ (4-bit) | 備考 |
---|---|---|
TinyLlama-1.1B-Chat | ≈0.5 GB | 英語中心。実装確認に最適 |
Phi-2 2.7B | ≈1.2 GB | 英語・数学強め |
CALM2-3B-Instruct-ja | ≈1.6 GB | 日本語◎(ELYZA系より軽量) |
open-calm-3b | ≈2.4 GB | 日本語汎用・Apache 2.0 |
こんな感じにおススメされました。もっと他にも試したいモデルはあるのですが、まずは、英語の応答でいいので、ダウンロードに認証とか要らないものをお手軽に試してみます。
llama.cpp で TinyLlama 1.1B を試す
1. モデルを取ってくる
(認証不要:公開モデルなので wget だけで取得できる)
mkdir -p ~/llm/models && cd ~/llm/models
wget -O tiny.gguf https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
2. Docker で llama.cpp サーバーを起動
docker run --rm --gpus all \
-v ~/llm/models:/models \
-p 8080:8080 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
--model /models/tiny.gguf \
--port 8080 \
--n-gpu-layers 35
# 次のような行が出れば起動成功
llama.cpp server listening at http://0.0.0.0:8080
- -v ~/llm/models:/models … 先ほど落とした tiny.gguf をコンテナへマウント
- –n-gpu-layers 35 … 量子化 Q4 なので 35 層を VRAM に載せてもまだ余裕がある
- 終了は Ctrl-C で可。自動でコンテナも消えるので注意。
3. curl で推論を試す
別ターミナルを開き、curl で TinyLlama に「Which planet is known as the Red Planet?」(赤い星はどの惑星?)と聞いてみました。
curl -s http://localhost:8080/completion \
-d '{"prompt":"[INST] Which planet is known as the Red Planet? [/INST]","n_predict":32}'
JSON の content
に "The Red Planet, Mars, …"
というテキストが返ってきていますので モデルが正しく推論できています。
ここまでで「モデルをダウンロードして動かす」目的は達成できました。
Views: 0