はじめに
この記事は、Blackwellから対応しているNVFP4量子化と推論をB200で実際に試し、速度や精度を測定してみたという記事です。
NVFP4とはなんぞやについてはこちらのNVIDIAの記事をご確認ください。
Introducing NVFP4 for Efficient and Accurate Low-Precision Inference
量子化
推論を試す前に、まずは量子化を試してみます。既にFP4に量子化されているモデルがHFにいくつかあるのでそれを使っても良いのですが、せっかくなので今回は…
Source link
Views: 0