[CSM] infer codec model with no_grad + audio eos label (#38215)

* infer codec model with no_grad * codec_model eval * training labels: add audio eos token
2025-05-27 16:10:17 +02:00
parent 10ae443ec0
commit 3142bd8592
4 changed files with 40 additions and 31 deletions
--- a/docs/source/en/model_doc/csm.md
+++ b/docs/source/en/model_doc/csm.md
@@ -315,6 +315,7 @@ device = "cuda"
 processor = AutoProcessor.from_pretrained(model_id)
 model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)
 model.train()
+model.codec_model.eval()

 ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
 # ensure the audio is 24kHz