lmms-lab
/

llava-onevision-qwen2-0.5b-si

@@ -1,218 +1,217 @@
 ---
-license: apache-2.0
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
 language:
 - en
 - zh
 metrics:
 - accuracy
-library_name: transformers
 tags:
 - multimodal
 model-index:
 - name: llava-onevision-qwen-0.5b-si
   results:
   - task:
       type: multimodal
     dataset:
-      type: ai2d
       name: AI2D
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 54.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: chartqa
       name: ChartQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 61.0
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: docvqa
       name: DocVQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 75.0
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: infovqa
       name: InfoVQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 44.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mathverse
       name: MathVerse
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 17.3
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mathvista
       name: MathVista
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 34.6
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmbench
       name: MMBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 43.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mme-perception
       name: MME-Perception
     metrics:
-    - name: score
-      type: score
       value: 1217
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mme-cognition
       name: MME-Cognition
     metrics:
-    - name: score
-      type: score
       value: 272
-      verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmmu
       name: MMMU
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 31.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmvet
       name: MMVet
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 26.9
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmstar
       name: MMStar
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 36.3
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: seed-bench
       name: Seed-Bench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 63.4
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: science-qa
       name: Science-QA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 67.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: imagedc
       name: ImageDC
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 83.0
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmlbench
       name: MMLBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 43.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: realworldqa
       name: RealWorldQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 53.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: vibe-eval
       name: Vibe-Eval
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 34.9
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: llava-w
       name: LLaVA-W
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 71.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: l-wilder
       name: L-Wilder
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 51.5
       verified: true
 ---

 ---
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
 language:
 - en
 - zh
+library_name: transformers
+license: apache-2.0
 metrics:
 - accuracy
 tags:
 - multimodal
 model-index:
 - name: llava-onevision-qwen-0.5b-si
   results:
   - task:
       type: multimodal
     dataset:
       name: AI2D
+      type: ai2d
     metrics:
+    - type: accuracy
       value: 54.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: ChartQA
+      type: chartqa
     metrics:
+    - type: accuracy
       value: 61.0
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: DocVQA
+      type: docvqa
     metrics:
+    - type: accuracy
       value: 75.0
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: InfoVQA
+      type: infovqa
     metrics:
+    - type: accuracy
       value: 44.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MathVerse
+      type: mathverse
     metrics:
+    - type: accuracy
       value: 17.3
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MathVista
+      type: mathvista
     metrics:
+    - type: accuracy
       value: 34.6
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMBench
+      type: mmbench
     metrics:
+    - type: accuracy
       value: 43.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MME-Perception
+      type: mme-perception
     metrics:
+    - type: score
       value: 1217
+      name: score
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MME-Cognition
+      type: mme-cognition
     metrics:
+    - type: score
       value: 272
+      name: score
+      verified: true
   - task:
       type: multimodal
     dataset:
       name: MMMU
+      type: mmmu
     metrics:
+    - type: accuracy
       value: 31.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMVet
+      type: mmvet
     metrics:
+    - type: accuracy
       value: 26.9
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMStar
+      type: mmstar
     metrics:
+    - type: accuracy
       value: 36.3
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Seed-Bench
+      type: seed-bench
     metrics:
+    - type: accuracy
       value: 63.4
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Science-QA
+      type: science-qa
     metrics:
+    - type: accuracy
       value: 67.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: ImageDC
+      type: imagedc
     metrics:
+    - type: accuracy
       value: 83.0
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMLBench
+      type: mmlbench
     metrics:
+    - type: accuracy
       value: 43.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: RealWorldQA
+      type: realworldqa
     metrics:
+    - type: accuracy
       value: 53.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Vibe-Eval
+      type: vibe-eval
     metrics:
+    - type: accuracy
       value: 34.9
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: LLaVA-W
+      type: llava-w
     metrics:
+    - type: accuracy
       value: 71.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: L-Wilder
+      type: l-wilder
     metrics:
+    - type: accuracy
       value: 51.5
+      name: accuracy
       verified: true
 ---

added_tokens.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

 {
+  "<image>": 151646,
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

tokenizer.json CHANGED Viewed

@@ -29,6 +29,15 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {
@@ -73,6 +82,7 @@
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
       "!": 0,
       "\"": 1,

       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 151646,
+      "content": "<image>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
+    "ignore_merges": false,
     "vocab": {
       "!": 0,
       "\"": 1,

tokenizer_config.json CHANGED Viewed

@@ -24,6 +24,14 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "additional_special_tokens": [

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [