日曜日, 6月 15, 2025
- Advertisment -
ホームニューステックニュース説明図用の画像生成 各サービス精度比較 #生成AI - Qiita

説明図用の画像生成 各サービス精度比較 #生成AI – Qiita



説明図用の画像生成 各サービス精度比較 #生成AI - Qiita

教材やパワポの説明のときに図を載せたいときがありますよね。
イラスト画像やビジュアル用ではなく
こんな感じの図が作りたいときです。
image.png

chatGPT等を始め、各ツールを比較してみました。
napkin.ai
ChatGPT
Gemini
Perplexity
Claude
GenSpark

※設計図などに使用するフローチャートやクラス構成図の生成に関してはPlantUMLかMermaidの方がいいと思います。
以下は結構昔に書いた記事です。

napkin.ai

プレゼン用図作成としては本命だと思われたnapkin.aiは
イメージ的にはパワポのスマートアートを自動的に作ってくれる、テンプレート的なイメージで
独自の表現にしたい場合はあまりうまくいってくれませんでした。

以下のように候補一覧を見ても、いわうるスマートアートのステップ図と言った形です。
冒頭の図のようにひとあじ加えたい場合はうまくいってくれませんでした。
image.png

Gannmaなどスライド作成系でも同様でした。

ということで、汎用チャットサービスで行くことにしました。

Chatサービス系

まず前提として、イラストなどではなく冒頭の図のような説明図を生成した場合、
チャット系サービスは普通の画像生成だとまずうまくいきません。
特に文字が入るとうまく出すまでにプロンプトでの試行錯誤がかなり必要になります。

HTMLかSVGのようなマークアップで指示した方がうまくいきます。
また、画像生成では困難な「微調整」がHTML/SVGだと容易というメリットがあります。
今回はより画像としての側面が強いSVGで指示しています。

またプロンプトの試行錯誤により精度は上がると思いますが、今回は「簡単に」を条件にシンプルな1,2プロンプト以内で生成できるという条件にします。

スタートのプロンプトは以下です。

【ライブラリ活用の4ステップ】 
1. 事前のステップ
1-1. インストール (install): 自分の環境にライブラリ機能を追加する
2.コード内でのステップ
2-1. インポート (import): プログラムの中で「このライブラリを使います」と宣言する
2-2. インスタンス生成: ライブラリの設計図(クラス)から、実体(インスタンス)を作る
2-3. メソッド実行: 実体(インスタンス)が持つ機能(メソッド)を呼び出して実行する

上記の説明の図をSVGで作成してください

chatGPT

chatGPTでは以下のようになってしまいました。
chat内でのSVGプレビュー機能もあります。

単純4ステップになってしまい、矢印の関係もおかしいです。(importしないとインスタンス生成できないよ)
冒頭のような図に持っていくためにはいくつかやり取りが必要そうです。
image.png

Gemini

GeminiはそもそもSVGと指示してもpngで出してきたりします。
(画像生成自体も日本語に対応していなかったりでこの分野は苦手のようです。)
画像生成してもらったあと、「SVGのコードで出力してください」と指示の追加が必要でした。
当然SVGのプレビュー機能もないので、別途自分でSVG保存して確認する必要があります。

結果は以下で、一応単純4ステップではなく区分けを意識してきました。
image.png

見栄えをよくしてくれと指示して、こんな感じです
image.png

Perplexity

こちらもSVGのコードで出力してきました。
SVGのプレビュー機能はなさそうです。

結果は以下で、やはり単純4ステップにしてきました。
(位置がずれているのは他でも起こりがちなので微調整部分)
image.png

Claude

実は冒頭の画像はClaudeで生成した画像です。
この調査をしてみようと思ったのも知り合いから「Claudeがいい感じ」という情報を聞いたからになります。
image.png

GenSpark

GenSparkは冒頭の指示だけだとスライドを作成し、単なる箇条書きのスライドを作成してしまったので
追加で「SVGの図を作ってくれ」という指示が必要でしたが
余計な謎の図形や読みにくい文字はありつつも一応意図とは近い形で出力してきました。
image.png

ただ、非常に時間がかかるのがたまにキズです。
「今回のちょいちょいと作りたい」という意味ではワンテンポ遅れる形です。
もっとも画像だけではなくスライド生成が目的ならその一環で作業できるので問題ないとは思いますが。

まとめ

この中ではClaudeが好みの画像を出力してきました。
今回の題材以外でもSECIモデルの図を作成させたりしましたが、やはりClaudeが良い感じでした。

もっとも、プロンプトの精度やステップを踏めばどれもそれなりの形にはなるでしょうし、
手書きでイメージを書いてからマルチモーダルで指示するとかなり精度は上がると思われます。

また、ここら辺の動きは各サービスの性能アップでモリモリ入れ替わるところなので
あくまで「2025年6月現在の動きでは」という形でご参考頂ければと思います。





Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -