中古GPU（RTX 3060/12GB）でローカルLLM検証-2 ～ llama.cpp で TinyLlama 1.1B を試す #CUDA

By インモビ運営局

2025年5月5日

0

Anker PowerPort III 3-Port 65W Pod (USB PD 充電器 USB-A & USB-C 3ポート)【独自技術Anker GaN II採用 / PD対応 / PPS規格対応 / PSE技術基準適合 / 折りたたみ式プラグ】MacBook PD対応Windows PC iPad iPhone Galaxy Android スマートフォンノートPC 各種その他機器対応（ブラック）

(3653)

￥5,990 (2025年5月5日 13:18 GMT +09:00 時点 - )

KIOXIA(キオクシア) 旧東芝メモリ microSD 256GB EXCERIA PLUS UHS-I U3 V30 Class10 Nintendo Switch動作確認済 microSDXC 最大読出100MB/s 最大書込85MB/s 4K対応国内サポート正規品メーカー保証5年 KLMPAE256G

(17025)

￥3,780 (2025年5月5日 13:17 GMT +09:00 時点 - )

中古GPU（RTX 3060/12GB）でローカルLLM検証-2 ～ llama.cpp で TinyLlama 1.1B を試す #CUDA

前回は、Docker コンテナでGPUが使えるところまで設定出来ましたので、今回は、コンテナでローカルLLMを試していきます。
[前回記事] 中古GPU（RTX 3060/12GB）でローカルLLM検証-1 ～初期設定とGPUコンテナ

ChatGPT o3 に、どのLLMを試すか相談したら、次の３ルートをおススメされました。

（１）llama.cpp ルート
（２）Ollama ルート
（３）vLLM ルート

違いを表にするとこんな感じ

用途	手軽さ	REST/UI	バッチ性能	迷ったら
llama.cpp	◎ 軽い	あり (8080)	○	まず試す
Ollama	◎ （pull 自動）	あり (11434) + WebUI	△	GUI で遊ぶ
vLLM	○ 要 HF モデル	あり (8000)	◎ 高速	API 負荷テスト

ちなみにRTX 3060 のVRAM 12 GB で動くモデルとしては、

モデル	サイズ (4-bit)	備考
TinyLlama-1.1B-Chat	≈0.5 GB	英語中心。実装確認に最適
Phi-2 2.7B	≈1.2 GB	英語・数学強め
CALM2-3B-Instruct-ja	≈1.6 GB	日本語◎（ELYZA系より軽量）
open-calm-3b	≈2.4 GB	日本語汎用・Apache 2.0

こんな感じにおススメされました。もっと他にも試したいモデルはあるのですが、まずは、英語の応答でいいので、ダウンロードに認証とか要らないものをお手軽に試してみます。

中古GPU（RTX 3060/12GB）でローカルLLM検証-2 ～ llama.cpp で TinyLlama 1.1B を試す #CUDA

KIOXIA(キオクシア) 旧東芝メモリ microSD 256GB EXCERIA PLUS UHS-I U3 V30 Class10 Nintendo Switch動作確認済 microSDXC 最大読出100MB/s 最大書込85MB/s 4K対応国内サポート正規品メーカー保証5年 KLMPAE256G

【JavaScript】JavaScriptのシャローコピーとディープコピーの違いについて #JavaScript – Qiita

カドー、海外へ持ち運べる布団乾燥機。トコジラミ対策にも – 家電 Watch

shadcnを理解する

返事を書く返事をキャンセル

Most Popular

Stellaris：現在入手可能です

【環境トップ】「ポケポケ：双天の守護者」ソルガレオex＆エアームドデッキが評判通りぶっ壊れ

【JavaScript】JavaScriptのシャローコピーとディープコピーの違いについて #JavaScript – Qiita

海女さん、本当に進化した人類だったことが判明：DNAまで特別

Recent Comments

EDITOR PICKS

Stellaris：現在入手可能です

【環境トップ】「ポケポケ：双天の守護者」ソルガレオex＆エアームドデッキが評判通りぶっ壊れ

【JavaScript】JavaScriptのシャローコピーとディープコピーの違いについて #JavaScript – Qiita

POPULAR POSTS

Stellaris：現在入手可能です

【環境トップ】「ポケポケ：双天の守護者」ソルガレオex＆エアームドデッキが評判通りぶっ壊れ

【JavaScript】JavaScriptのシャローコピーとディープコピーの違いについて #JavaScript – Qiita

POPULAR CATEGORY

ABOUT US

FOLLOW US

中古GPU（RTX 3060/12GB）でローカルLLM検証-2 ～ llama.cpp で TinyLlama 1.1B を試す #CUDA

llama.cpp で TinyLlama 1.1B を試す

1. モデルを取ってくる

2. Docker で llama.cpp サーバーを起動

3. curl で推論を試す

共有:

返事を書く 返事をキャンセル

Most Popular

Recent Comments

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US

返事を書く返事をキャンセル