Anker PowerPort III 3-Port 65W Pod (USB PD 充電器 USB-A & USB-C 3ポート)【独自技術Anker GaN II採用 / PD対応 / PPS規格対応 / PSE技術基準適合 / 折りたたみ式プラグ】MacBook PD対応Windows PC iPad iPhone Galaxy Android スマートフォン ノートPC 各種 その他機器対応(ブラック)
¥5,990 (2025年5月5日 13:18 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)KIOXIA(キオクシア) 旧東芝メモリ microSD 256GB EXCERIA PLUS UHS-I U3 V30 Class10 Nintendo Switch動作確認済 microSDXC 最大読出100MB/s 最大書込85MB/s 4K対応 国内サポート正規品 メーカー保証5年 KLMPAE256G
¥3,780 (2025年5月5日 13:17 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)

前回は、Docker コンテナでGPUが使えるところまで設定出来ましたので、今回は、コンテナでローカルLLMを試していきます。
[前回記事] 中古GPU(RTX 3060/12GB)でローカルLLM検証-1 ~ 初期設定とGPUコンテナ
ChatGPT o3 に、どのLLMを試すか相談したら、次の3ルートをおススメされました。
(1)llama.cpp ルート
(2)Ollama ルート
(3)vLLM ルート
違いを表にするとこんな感じ
用途 | 手軽さ | REST/UI | バッチ性能 | 迷ったら |
---|---|---|---|---|
llama.cpp | ◎ 軽い | あり (8080) | ○ | まず試す |
Ollama | ◎ (pull 自動) | あり (11434) + WebUI | △ | GUI で遊ぶ |
vLLM | ○ 要 HF モデル | あり (8000) | ◎ 高速 | API 負荷テスト |
ちなみにRTX 3060 のVRAM 12 GB で動くモデルとしては、
モデル | サイズ (4-bit) | 備考 |
---|---|---|
TinyLlama-1.1B-Chat | ≈0.5 GB | 英語中心。実装確認に最適 |
Phi-2 2.7B | ≈1.2 GB | 英語・数学強め |
CALM2-3B-Instruct-ja | ≈1.6 GB | 日本語◎(ELYZA系より軽量) |
open-calm-3b | ≈2.4 GB | 日本語汎用・Apache 2.0 |
こんな感じにおススメされました。もっと他にも試したいモデルはあるのですが、まずは、英語の応答でいいので、ダウンロードに認証とか要らないものをお手軽に試してみます。
llama.cpp で TinyLlama 1.1B を試す
1. モデルを取ってくる
(認証不要:公開モデルなので wget だけで取得できる)
mkdir -p ~/llm/models && cd ~/llm/models
wget -O tiny.gguf https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
2. Docker で llama.cpp サーバーを起動
docker run --rm --gpus all \
-v ~/llm/models:/models \
-p 8080:8080 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
--model /models/tiny.gguf \
--port 8080 \
--n-gpu-layers 35
# 次のような行が出れば起動成功
llama.cpp server listening at http://0.0.0.0:8080
- -v ~/llm/models:/models … 先ほど落とした tiny.gguf をコンテナへマウント
- –n-gpu-layers 35 … 量子化 Q4 なので 35 層を VRAM に載せてもまだ余裕がある
- 終了は Ctrl-C で可。自動でコンテナも消えるので注意。
3. curl で推論を試す
別ターミナルを開き、curl で TinyLlama に「Which planet is known as the Red Planet?」(赤い星はどの惑星?)と聞いてみました。
curl -s http://localhost:8080/completion \
-d '{"prompt":"[INST] Which planet is known as the Red Planet? [/INST]","n_predict":32}'
JSON の content
に "The Red Planet, Mars, …"
というテキストが返ってきていますので モデルが正しく推論できています。
ここまでで「モデルをダウンロードして動かす」目的は達成できました。
Views: 0