VLMs: patch_size -> num_image_tokens in processing (#33424)

* use num additional tokens * fix copies + docs * another fix copies :) * add docs * move order for BC
2024-11-18 13:21:07 +01:00
parent 3ee24e2208
commit 1646ffb4d1
17 changed files with 131 additions and 15 deletions
--- a/tests/models/video_llava/test_modeling_video_llava.py
+++ b/tests/models/video_llava/test_modeling_video_llava.py
@@ -625,12 +625,14 @@ class VideoLlavaForConditionalGenerationIntegrationTest(unittest.TestCase):
        # check processing with expansion of inputs
        processor.vision_feature_select_strategy = "default"
        processor.patch_size = 14
+        processor.num_additional_image_tokens = 1
        inputs_expanded = processor(prompt, images=image, return_tensors="pt").to(torch_device, torch.float16)
        self.assertTrue(inputs_expanded.input_ids.shape[-1] == 274)

        # check processing without expansion of inputs (legacy behavior)
        processor.vision_feature_select_strategy = None
        processor.patch_size = None
+        processor.num_additional_image_tokens = None
        inputs = processor(prompt, images=image, return_tensors="pt").to(torch_device, torch.float16)
        self.assertTrue(inputs.input_ids.shape[-1] == 19)

@@ -657,12 +659,14 @@ class VideoLlavaForConditionalGenerationIntegrationTest(unittest.TestCase):
        # check processing with expansion of inputs
        processor.vision_feature_select_strategy = "default"
        processor.patch_size = 14
+        processor.num_additional_image_tokens = 1
        inputs_expanded = processor(prompt, videos=video_file, return_tensors="pt").to(torch_device, torch.float16)
        self.assertTrue(inputs_expanded.input_ids.shape[-1] == 2074)

        # check processing without expansion of inputs (legacy behavior)
        processor.vision_feature_select_strategy = None
        processor.patch_size = None
+        processor.num_additional_image_tokens = None
        inputs = processor(prompt, videos=video_file, return_tensors="pt").to(torch_device, torch.float16)
        self.assertTrue(inputs.input_ids.shape[-1] == 19)