Update all references to canonical models (#29001)
* Script & Manual edition * Update
This commit is contained in:
@@ -193,7 +193,7 @@ AdamWオプティマイザの代替手段について詳しく見てみましょ
|
||||
1. [`Trainer`]で使用可能な`adafactor`
|
||||
2. Trainerで使用可能な`adamw_bnb_8bit`は、デモンストレーション用に以下でサードパーティの統合が提供されています。
|
||||
|
||||
比較のため、3Bパラメータモデル(例:「t5-3b」)の場合:
|
||||
比較のため、3Bパラメータモデル(例:「google-t5/t5-3b」)の場合:
|
||||
* 標準のAdamWオプティマイザは、各パラメータに8バイトを使用するため、24GBのGPUメモリが必要です(8 * 3 => 24GB)。
|
||||
* Adafactorオプティマイザは12GB以上必要です。各パラメータにわずか4バイト以上を使用するため、4 * 3と少し余分になります。
|
||||
* 8ビットのBNB量子化オプティマイザは、すべてのオプティマイザの状態が量子化されている場合、わずか6GBしか使用しません。
|
||||
|
||||
Reference in New Issue
Block a user