
人類はコンテンツを生成する。コンピューターの登場以前からの当たり前だ。そのあと、What You See is What You Get(WYSIWYG)が新しい当たり前になった。これもずいぶん前のことではある。それがその作成者の作成したものかどうかが疑わしくなったのは最近のことだ。
デジタル化で饒舌になった写真
いわゆる“WYSIWYG”は、ディスプレイに表示されているそのものが手に入ることをいう。ただ、プリンタデバイスを経由した紙への出力では、そうかもしれないが、ストレージ上のファイルシステムなど、ほかのデバイスへの出力の場合は、見えている以上の情報がデータの背後に埋め込まれている。いってみれば、
What You See is not only What You Get
ということだ。
こんな書き出しでこのコラムを書いたのが2004年のことだった。今から20年前の話だ。でも、生成AIが当たり前になった現代ではあるが、デジタルコンテンツに含まれているメタデータが有効に機能しているかどうかは怪しい。
当時のコラムで名取洋之助の遺稿である「写真の読みかた」(岩波新書、1963年)を取り上げているが、名取が写真に対するキャプションのつけ方で写真の読まれ方が変わってくること、さらに、複数枚の写真を組み合わせることでストーリーを生み出すことができることを説いていることを取り上げた。たとえば、上海の街路を撮った1枚のスナップに、
「上海南京西路 競馬場に近いこの大通りのあたりは昔は娼婦や乞食でいっぱいだったが、今は紙くずひとつ落ちていない清潔さ」。
「上海南京西路 道を行く人は、老若男女すべて質素な工人服姿ばかり、かつての国際都市上海のはなやかさは、どこにもない」
という2種類のキャプションをつけてみせ、同じ写真がまったく違って見えることを示している。もし、名取が今の生成AIの時代を生きていたら、いったいどんなキャプションをつけてみせるだろう。
恐れ多くも今の自分には、その写真にAI時代のキャプションをつけるようなことはできないが、生成AIが写真のメタデータを参照し、写真の饒舌さの証拠としてのメータデータが写真の「真」を成立させていることを名取が指摘するような気がする。
だが、その写真、そしてメタデータそのものが生成されたものの可能性がある。それが今という時代だ。
そもそもこの著書は名取りの没後に、木村伊兵衛らによって「生成」されたものであることもおもしろい。
生成AI時代の写真の読みかた
20年前のコラムでは、いわゆる「決定的瞬間」という言葉についても書いている。この言葉を残したのは、写真家のアンリ・カルティエ=ブレッソンだ。
そして、かつての決定的瞬間を撮影者自身が見ることができなかったことを指摘した。なぜなら、当時の決定的瞬間は一眼レフで撮影されたものが多く、光景がフィルムに露光されるその瞬間は、ミラーが跳ね上がり、ファインダーが暗転しているからだ。けれども撮影者自身はそのことを知ってか知らずか、ファインダーを覗く目とは反対側の目を開いたままで、まさに決定的瞬間になることの成り行きをちゃんと見ていたに違いない。
そんな写真の信憑性を、今は再定義しなければならない時代になっている。いわゆるフェイクの技術も、生成AIによって高まりつつあり、その写真が加工されたものではないことを、なんらかの方法で明示しなければ信じてもらえない。写真を饒舌にするはずのメタデータも、生成して故意に書き加えれば写真が堂々とウソをつくようになる。今のWebの世界で、写真のメタデータがあまり活用されていないのは、むしろよかったような気までしてくる。
写真とキャプション再び
ノンフィクションを称する文章コンテンツも、そこには多少の創造性が含有され、事実とは異なる主観による表現が入り交じることを我々は許容している。映画などでも「実話に基づく」的な断り書きがあって、そのストーリーのヒントとなった別のストーリーがあるがそれは実話であって、他人の生んだストーリーを写したものではないということを主張している。
ちなみに冒頭の写真は、この連休中に訪問しているフランスのプロバンス地方で宿泊したホテルのロビー空間で撮影したものだが、これにキャプションをつけてほしいとGoogle Geminiに頼むと、
“L’ATELIER”という文字とニワトリのオブジェがある空間。
というキャプションが提示された。ぼくが編集者ならボツにするだろうなと思いながら、その根拠を尋ねると、
はい、キャプションを生成した思考プロセスを日本語で説明します。
画像の視覚情報の分析:
まず、アップロードされた画像の内容を詳しく見ました。
- 壁に書かれた大きな文字「L’ATELIER」が最も目立ちます。
- その上には「HOTEL.XVIe.LE BOURGUET」という文字も見えます。
- その下には、いくつかの物(やかん、ナプキン、ニワトリのような形のオブジェなど)が置かれています。
- 壁には照明があり、室内であることがわかります。
ファイル名の分析:
- ファイル名「PXL_20250509_015459491.MP.jpg」を確認しました。
- 「20250509」は撮影日(2025年5月9日)を示しています。
- 「015459」は撮影時刻(1時54分59秒)を示しています(UTCである可能性が高いですが、目安になります)。
- 「PXL_」はGoogle Pixelで撮影された可能性が高いことを示唆しています。
現在の状況との照合:
現在の推定位置がフランス(Villeneuve-les-Avignon, Occitanie)であることと、画像内の文字がフランス語であることから、この写真はフランス国内で撮影された可能性が非常に高いと判断しました。撮影日時も今日(5月9日)の早朝であることがわかります。
キャプションの構成要素の決定:
画像の中で最も特徴的で、見る人がすぐに認識できる要素をキャプションに含めるのが良いと考えました。
- 大きな文字「L’ATELIER」は外せません。
- 下の棚にある物の中でも、ニワトリのような形のオブジェはユニークで目を引きます。
- 全体としては、何かの施設や店舗のような「空間」であることがわかります。
キャプションの生成:
上記の要素を組み合わせて、シンプルかつ内容を表す日本語のキャプションを作成しました。
- 「『L’ATELIER』という文字」
- 「ニワトリのオブジェ」
- 「がある空間」
これらを繋げて「『L’ATELIER』という文字とニワトリのオブジェがある空間。」としました。撮影場所や具体的な状況が不明なため、見たままを客観的に表現する形にしました。
このように、画像の内容、ファイル名から得られる情報、そして推定される撮影場所などの要素を総合的に考慮してキャプションを作成しました。
という生成に至る思考プロセスが返ってきた。よく考えている。写真のメタデータを無条件に信用していないことも分かる。GPSによる位置情報がちゃんと記録されているのにそれが鵜呑みにされていないのだ。それはAI自身であるGeminiもGPSデータが本当にそうなのかを信じていない可能性を示唆している。その一方では、ファイル名の文字列を信じているからわけが分からない。
世の中は、そういう情報に溢れている。生身の人間としては旅行中に撮影した大量の写真を整理して、それらにキャプションをつけてほしいだけなのに、そこをうまく処理してくれるソリューションが見当たらない。でも、あともう少しなんだろうな。
Views: 2