Google Cloudは4月9日~4月11日(現地時間)に、年次イベント「Google Cloud Next 25」を米国ネバダ州ラスベガス市の会場で開催している。初日の基調講演では新しいAI向けの演算ソリューションなどが発表された。
その中で、AIアクセラレータの第7世代製品となるTPU「Ironwood」を発表した。ここではIronwoodの詳細や、推論と学習のどちらにも使えるのになぜ推論特化と呼ぶのかなどに関して解説していきたい。
大小2つのポッドで学習用と推論用と切り分けているIronwood
今回Google Cloudは、AI向けの演算装置として、2つ種類の製品を発表している。1つは、NVIDIA B200ベースのVM(AWS的な言い方をするとインスタンス)となるA4および、NVIDIA GB200ベースのA4XといういずれもNVIDIA GPUベースのVMだ。
そして、もう1つはGoogle自身が開発しているカスタムシリコンとなるTPU(Tensor Processing Unit)の第7世代に相当するIronwoodだ。
Ironwoodは、大きく言って2つの規模のシステム構成が用意されると、Google Cloud 副社長 兼 GCE&AIインフラ 製品責任者 ジョージ・エリサイオス氏は説明する。
エリサイオス氏は「Ironwoodには1つのチップのみが用意され、スケールアップするサイズを大小2種類用意することで、学習と推論の両方をカバーする。大規模システムのほうは光スイッチを利用して接続され、最大で9,216基までスケールアップできる。こちらのほうは大規模な学習などを行なうためのシステムになる。それに対して256基まで接続できる小さいほうのシステムは小規模な学習や推論をメインターゲットにしたものになる」と説明する。
つまり、Ironwoodをベースにして大小2つポッド(従来の言い方で言えばクラスタ、こうした多数のGPUやTPUをクラスタ化したAIスーパーコンピュータのことを、最近のトレンドでポッドと呼ぶ)を用意しているわけだ。
非常にシンプルにまとめると、大きいほうは大規模GPUポッドの代替の選択肢で、消費電力やコストが低いほうがよいと感じるユーザーに対して提供するものとなり、小さいほうは学習用途でも規模が小さいものや推論向けの選択肢となる。
なお、Google CloudはTPU v5世代で、TPU v5pとTPU v5eという大小2種類のチップを用意して、それぞれ大小のポッドを提供していた。その意味では、Ironwoodの大きいほうのポッドはv5pの後継となるし、小さいほうのポッドはv5eの後継という位置づけになる。
ただし、TPU v5世代では大小2種類のチップが用意されていたのに対して、Ironwoodでは1種類のチップで、スケーリングアップできる数を調整することで大小の構成を実現していることが違いになる。
また、昨年発表された開発コードネーム「Trillium」は、最近TPU v6eとして投入されたが、TPU v6世代にはv6pに相当するような製品はリリースされないという。つまり、v5pを現在利用しているユーザーがステップアップする先にはIronwoodの大きいほうのポッドということになる。
なお、現時点ではIronwoodの内部構造に関して、詳細は公開されていない。今回の発表は開発意向表明と呼ばれる、開発していますよという発表で、最終的なインスタンス(VM)として発表されたわけではないからだ。
ただ、IronwoodはGoogle Cloud Nextの展示会で実チップが公開されており、パッケージ上には2つのメインチップと、1つのIOダイ、8つのスタックされたHBMなど複数のダイが搭載されていることが見てとれた。
また、Google Cloudでは通例として製造工場などに関しては公開していないとエリサイオス氏は説明し、プロセスノードに関しては具体的なことは言えないが「最先端のプロセスノードだ」とだけ述べた。
今は推論向けプロセッサの提供がトレンド
今回、Google Cloudは推論特化したTPUとしてIronwoodを紹介しているが、そう説明している理由は推論用に小さいほうの構成を用意しているからと、同時にPathways(Googleが開発した学習・推論向けのランタイム)やGKE Interface Engineなどの推論用のソフトウェア環境が整ったことにあるとエリサイオス氏は説明した。
だが、実際にはすでに説明してきた通り、Ironwoodは推論だけでなく学習用としても利用可能だ。では、なぜGoogle Cloudは今回「推論に特化したIronwood」という紹介の仕方をしたのだろうか?
その背景には、多くの半導体メーカーが、AIアクセラレータやGPUなどを推論用にアピールすることが増えているからだ。その背景にはAI学習に使われる演算器は、もはやGPUで固定されており、それが覆るのは難しいと考えられているが、推論に関してはこれが定番だと定まったプロセッサやアーキテクチャがないということが関係している。
そもそも、歴史的に見ると、マシンラーニング/ディープラーニング(ML/DL)ベースのAI(現在のトランスフォーマー型のLLMではない従来型AIのこと)では、推論に使われていたのはほとんど(90%以上)がCPUだったからだ。
従来型のAIでは、パラメータと呼ばれるAIのサイズを示す指標も大きくなくて、扱うデータもさほど大きくなかったため、CPUでも充分処理ができていたのだ。さらに、データセンターに入っていたサーバー機器も、GPUは入っておらず、CPUだけというのが一般的だった。このため、データセンターで推論を実行する場合には大抵CPUが使われていた。
しかし、その状況は昨年ぐらいから大きく変わるようになっている。その最大の要因はトランスフォーマーモデルと呼ばれるLLMなどの普及が急速に進んだことだ。
これらの新しいトランスフォーマーモデルは、従来のML/DLに比べてモデル自体が巨大になっており、パラメータも70億、100億、1,000億……とどんどん増えている。当然それに合わせてサイズ自体が増えていっており、より大きなメモリを必要とするようになっている。そのため、より大規模に並列処理が必要なGPUが推論に使われることが増えてきている。
では、すべての推論でGPUなのかというと、話はそこまで単純ではない。推論では学習ほどワンサイズフィッツオールではないのだ。そうならない最大の理由は経済的合理性、具体的にはコストだ。
学習の場合には、推論よりも遙かに大規模に演算しないといけないにせよ、多くの企業などにとって最初の1回の学習と、その後学習データのアップデートのたびにすればいいものであって、毎日実行するようなものではない。
それに対して、推論のほうはサービスの提供を開始したら、24時間、7日間、365日とずっと実行し続けないといけないもので、どうしてもランニングコストがかさみがちになる。経済性がより重視される環境にあると言える。
もう1つは、推論では学習ほど演算器にプログラム性が求められないことだ。学習にGPUを利用する最大のメリットは、新しい手法が開発されたときに、柔軟に対応可能なことだ。
現在のように、新しいLLMが数カ月に一度出てくるような状況では、ソフトウェアで新しいテクニックを利用して柔軟に開発できるようにできることが汎用プロセッサのGPUを使えるできるメリットなのだ。
この点、特定処理にフォーカスしているAIアクセラレータにはないGPUの利点と言える。しかし、推論ではそこまでのプログラム性は求められていないのが一般的で、ある程度同じような処理がされることになるので、AIアクセラレータでもGPUの代替に充分になり得る。
もちろん、すでにGPUのインフラを持っている企業にとっては、そのGPUのリソースを利用して学習だけで推論を行なったほうがコスト面で合理的だろうし、大事なことはすでに述べた通り、「推論では学習ほどではワンサイズフィッツオールではない」ということだ。
NVIDIAも推論向けソリューションを充実させている
この数年起きたことは、そうした推論のプロセッサ市場で、従来はほとんどがCPUだったのが、徐々にGPUが浸透してきたというトレンドだ。実際、NVIDIAは昨年のGTC 24において「NIMマイクロサービス」という推論専用のソフトウェア開発キットを発表し、順次市場に投入してきた(NIMはNvidia Inference Microserviceの略称だとされている)。
何度かこの連載でも指摘しているが、AI時代のNVIDIAの強みはCUDAのようなGPUを汎用コンピューティングに利用するランタイムを提供するだけでなく、その上で動作する領域特化(ドメインスペシフィック)型のソフトウェア開発キットを提供していることにある。
ロボットであればIsaac、自動車向けであればNVIDIA DRIVE、さらには大企業向けのAIソフトウェア開発にはNVIDIA AI Enterpriseといった具合に、それぞれの産業向けにCUDAとGPUを利用して演算するAIソフトウェアを簡単に開発できるソフトウェア開発キットを提供している。
NIMマイクロサービスはそうした延長線上にある領域特化型のソフトウェアを開発するためのツールで、GPUを利用して推論を実行するようなコンテナを簡単に開発して、CSPやオンプレミスのGPU上で実行可能になる。
最近、NVIDIAはジェンスン・フアンCEOの講演があるたびに何らかの形でNIMマイクロサービスに言及するのが通例だ。つまりNVIDIAにとってNIMは戦略製品であり、推論市場においてGPUのシェアを増やすことがNVIDIAにとって重要なターゲットになっていることが透けて見える。
それに対して、Google CloudのようなCSPが盛んにアピールしているのがTPUのようなAIアクセラレータだ。AIアクセラレータの特徴は、GPUに比べるとプログラムの自由度は低いが、その替わりに特定の処理をさせると、より少ない消費電力で同じ性能を実現できる。
推論ではそうした処理がずっと繰り返されるので、学習よりも推論のほうがTPUのようなAIアクセラレータに向いているとも考えることができる。
こうしたこともあり、AI学習用のGPUのニーズだけが注目されていた頃にはあまり考慮されていなかったTPUのようなAIアクセラレータに再び注目が集まっている。AWSも昨年の12月に新しいAIアクセラレータとしてTrainium2を発表したし、Microsoftは一昨年にMaiaを発表し、昨年実際にAzureに導入を行なっている。
その文脈の中で、今回Googleも従来は学習用としてアピールしてきたTPUを、推論に最適化したとアピールし出したと考えることができる。
CPUメーカーやスタートアップ系の半導体メーカーも推論に注力
重要なことは、すでにNVIDIA GPUという絶対的な勝者がいて、それに実質的に対抗できそうなのがAMDのInstinctシリーズくらいしかおらず、推論用には絶対的な強者がいないということだ。
より正確に言うと、過去にはそれがCPU(主にx86プロセッサ)だったが、徐々にそのシェアが減りつつあって、GPUやTPUなどがシェアを伸ばしているというのが現状だということだ。
たとえばCPUで言えば、Armプロセッサも徐々に市場シェアを伸ばしている。Armは、Armv9世代でAI用の命令セットを増やすなどしており、AIに最適なCPUとしてArmプロセッサをマーケティングしている。
同じことは、Apple、AMD、Intelの3社で優れたアーキテクチャのCPUを開発したジム・ケラー氏がCEOとなって注目を集めているTenstorrentのRISC-VプロセッサもAI用と位置づけられており、推論用の選択肢として今後伸びていく可能性がある。
また、GPUの代替としては、SambaNova Systemsがすでに提供している第4世代になっているRDU(Reconfigurable Dataflow Unit)は、GPUのような自由度を持ちながら、消費電力はTPUのようなAIアクセラレータ並みとして注目を集めている。
Google Cloudのエリサイオス氏は「重要なことは、顧客が求めるものを提供することだ。Google CloudはNVIDIAのGPUはもちろん、TPUも提供しており、顧客が望むものを提供していくというのが我々のスタンスだ。CPUでもArmプロセッサであるAixonの提供を開始しているが、もちろんAMDやIntelベースのx86 VMも提供しており、こちらも顧客がよいと思うVMを選択していただければいいと考えている」と述べている。
逆に言えば、現状としては誰にとっても、GPUなのか、TPUなのか、CPUなのかどれが推論市場で勝者になるのか見えていない。その意味で、今後より競争が激しくなっていくことが予想されるのではないだろうか。