月曜日, 7月 14, 2025
月曜日, 7月 14, 2025
- Advertisment -
ホームニューステックニュースB200でNVFP4量子化モデルの推論を試す(llm-compressorによるLLMの量子化)

B200でNVFP4量子化モデルの推論を試す(llm-compressorによるLLMの量子化)




はじめに
この記事は、Blackwellから対応しているNVFP4量子化と推論をB200で実際に試し、速度や精度を測定してみたという記事です。
NVFP4とはなんぞやについてはこちらのNVIDIAの記事をご確認ください。

Introducing NVFP4 for Efficient and Accurate Low-Precision Inference

量子化
推論を試す前に、まずは量子化を試してみます。既にFP4に量子化されているモデルがHFにいくつかあるのでそれを使っても良いのですが、せっかくなので今回は…



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -