はじめに
この記事では、Speculative DecodingによるLLMの推論高速化をvLLMで試し、簡単なベンチマークを行った結果を共有します。
Speculative Decodingについて
最初に、Speculative Decodingについて簡単に解説します。
Speculative Decodingとは、大型のモデルの推論をする際、より小型のモデルを利用して推論を高速化する手法です。この本来の出力を得たい大型のモデルをTarget Model、高速化のための小型のモデルをDraft Modelと言います。
Speculative Decodingでは通常の推論と…
Source link
Views: 0