allenai
/

Molmo-7B-D-0924

@@ -4,6 +4,10 @@ Processor class for Molmo.
 from typing import Optional
 try:
     from typing import Unpack
 except ImportError:
@@ -23,7 +27,7 @@ from transformers.tokenization_utils_base import TextInput
 from transformers.utils import logging
 from transformers import AutoTokenizer
-from .image_preprocessing_molmo import MolmoImagesKwargs, make_batched_images, MolmoImageProcessor
 logger = logging.get_logger(__name__)
@@ -129,8 +133,20 @@ class MolmoProcessor(ProcessorMixin):
         image_token_id = self.special_token_ids[IMAGE_PROMPT]
         if images is not None:
-            images = make_batched_images(images)
-            images = [np.array(image).astype(np.uint8) for image in images]
             # For now only support inserting images at the start
             image_idx = [-1]*len(images)
         else:

 from typing import Optional
+import PIL
+from PIL import ImageOps
+from PIL.Image import Image
 try:
     from typing import Unpack
 except ImportError:
 from transformers.utils import logging
 from transformers import AutoTokenizer
+from .image_preprocessing_molmo import MolmoImagesKwargs, MolmoImageProcessor
 logger = logging.get_logger(__name__)
         image_token_id = self.special_token_ids[IMAGE_PROMPT]
         if images is not None:
+            if not isinstance(images, (list, tuple)):
+                images = [images]
+            image_arrays = []
+            for image in images:
+                if isinstance(image, Image):
+                    image = image.convert("RGB")
+                    # Handle images with EXIF orientation tags, which PIL will ignore by default
+                    # https://github.com/python-pillow/Pillow/issues/4703
+                    img = ImageOps.exif_transpose(image)
+                    image_arrays.append(np.array(image))
+                else:
+                    assert len(image.shape) == 3 and image.shape[-1] == 3
+                    image_arrays.append(image.astype(np.uint8))
+            images = image_arrays
             # For now only support inserting images at the start
             image_idx = [-1]*len(images)
         else: