jadechoghari
/

Ferret-UI-Gemma2b

Image-Text-to-Text

text-generation

Model card Files Files and versions Community

jadechoghari commited on Oct 12

Commit

fb2ff23

•

1 Parent(s): 56f618d

Update ferret_arch.py

Files changed (1) hide show

ferret_arch.py +37 -2

ferret_arch.py CHANGED Viewed

@@ -21,9 +21,44 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 import torch.distributed as dist
-from .multimodal_encoder.builder import build_vision_tower
-from .multimodal_projector.builder import build_vision_projector
 from .constants import (IGNORE_INDEX, IMAGE_TOKEN_INDEX,
                                 DEFAULT_IMAGE_PATCH_TOKEN, DEFAULT_IM_START_TOKEN,

 import torch.nn as nn
 import torch.nn.functional as F
 import torch.distributed as dist
+import re
+from .clip_encoder import CLIPVisionTower, CLIPVisionTowerS2
+import os
+## modified add build_vision_tower
+def build_vision_tower(vision_tower_cfg, **kwargs):
+    vision_tower = getattr(vision_tower_cfg, 'mm_vision_tower', getattr(vision_tower_cfg, 'vision_tower', None))
+    is_absolute_path_exists = os.path.exists(vision_tower)
+    use_s2 = getattr(vision_tower_cfg, 's2', False)
+    if is_absolute_path_exists or vision_tower.startswith("openai") or vision_tower.startswith("laion") or "ShareGPT4V" in vision_tower:
+        if use_s2:
+            return CLIPVisionTowerS2(vision_tower, args=vision_tower_cfg, **kwargs)
+        else:
+            return CLIPVisionTower(vision_tower, args=vision_tower_cfg, **kwargs)
+    raise ValueError(f'Unknown vision tower: {vision_tower}')
+# from .multimodal_projector.builder import build_vision_projector
+def build_vision_projector(config, delay_load=False, **kwargs):
+    projector_type = getattr(config, 'mm_projector_type', 'linear')
+    if projector_type == 'linear':
+        return nn.Linear(config.mm_hidden_size, config.hidden_size)
+    mlp_gelu_match = re.match(r'^mlp(\d+)x_gelu$', projector_type)
+    if mlp_gelu_match:
+        mlp_depth = int(mlp_gelu_match.group(1))
+        modules = [nn.Linear(config.mm_hidden_size, config.hidden_size)]
+        for _ in range(1, mlp_depth):
+            modules.append(nn.GELU())
+            modules.append(nn.Linear(config.hidden_size, config.hidden_size))
+        return nn.Sequential(*modules)
+    if projector_type == 'identity':
+        return IdentityMap()
+    raise ValueError(f'Unknown projector type: {projector_type}')
 from .constants import (IGNORE_INDEX, IMAGE_TOKEN_INDEX,
                                 DEFAULT_IMAGE_PATCH_TOKEN, DEFAULT_IM_START_TOKEN,