|
--- |
|
license: apache-2.0 |
|
datasets: |
|
- REILX/chinese-meme-description-dataset |
|
- SWHL/ChineseOCRBench |
|
- priyank-m/chinese_text_recognition |
|
- fly0331/ChineseTest |
|
- liuhaotian/LLaVA-Pretrain |
|
- Lin-Chen/ShareGPT4V |
|
- REILX/Chinese-Image-Text-Corpus-dataset |
|
language: |
|
- zh |
|
pipeline_tag: image-text-to-text |
|
tags: |
|
- llava |
|
- qwen2 |
|
- CLIP |
|
- zh |
|
--- |
|
|
|
# llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 |
|
|
|
<img src="./images/llava_qwen_2b_chinese-clip.jpg" alt="logo" width="300" height="300" style="display: block; margin: 0 auto;"> |
|
|
|
## 模型简介 |
|
|
|
本模型扩大了中文图文训练数据集,并改用 OFA-Sys/chinese-clip-vit-huge-patch14,增强了中文文字识别能力和图像识别能力。 |
|
|
|
## 1. 模型结构 |
|
|
|
llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-huge-patch14 |
|
|
|
## 2. 微调训练过程 |
|
|
|
模型分三阶段训练,每次都对以下两模块进行微调: |
|
- vision_tower 和 language_model 的 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj 模块进行 lora 训练 |
|
- mmp 层全量训练 |
|
|
|
### 阶段1: |
|
|
|
- **数据集**: REILX/chinese-meme-description-dataset、SWHL/ChineseOCRBench、priyank-m/chinese_text_recognition、fly0331/ChineseTest、liuhaotian/LLaVA-Pretrain、Lin-Chen/ShareGPT4V |
|
- **微调参数**: |
|
- lora_r=32, lora_alpha=64, num_train_epochs=2, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=1e-3, low_lr=2e-5, model_max_length=2048 |
|
- **训练时长**: 84小时02分钟 |
|
|
|
### 阶段2: |
|
|
|
- **数据集**: REILX/Chinese-Image-Text-Corpus-dataset |
|
- **微调参数**: |
|
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048 |
|
- **训练时长**: 36小时56分钟 |
|
|
|
### 阶段3: |
|
|
|
- **数据集**: REILX/chinese-meme-description-dataset 中的 ChineseBQB-Claude-3-5-sonnet-20240620.jsonl 和 emo-visual-data-Claude-3-5-sonnet-20240620.jsonl,仅使用质量最高的 Claude-3-5-sonnet-20240620 模型输出进行最后的微调 |
|
- **微调参数**: |
|
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048 |
|
- **训练时长**: 1小时04分钟 |
|
|
|
**3阶段共耗时**: 122小时 |
|
|
|
## 3. 数据集 |
|
|
|
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP |
|
- 图像总大小: 1.8G |
|
- 图片数量: 约10,835张中文表情包图片 |
|
- 文字总量: 41.6Mb |
|
- 图像文本对: 约24,332个描述信息 |
|
|
|
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v2 |
|
#### 阶段1: |
|
- 图像总大小: 4.45G |
|
- 图片数量: 约520,492张 |
|
- 文字总量: 249.93Mb |
|
- 图像文本对: 约533,989个描述信息 |
|
|
|
#### 阶段2: |
|
- 图像总大小: 1.8G |
|
- 图片数量: 约10,835张中文表情包图片 |
|
- 文字总量: 57.34Mb |
|
- 图像文本对: 约33,762个描述信息 |
|
|
|
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 |
|
#### 阶段1: |
|
- 图像总大小: 41G |
|
- 图片数量: 约1,056,501张 |
|
- 文字总量: 487.82Mb |
|
- 图像文本对: 约1,112,369个描述信息 |
|
|
|
#### 阶段2: |
|
- 图像总大小: 1.5G |
|
- 图片数量: 约325,503张 |
|
- 文字总量: 107.79Mb |
|
- 图像文本对: 约325,503个描述信息 |
|
|
|
#### 阶段3: |
|
- 图像总大小: 1.8G |
|
- 图片数量: 约10,835张 |
|
- 文字总量: 15.28Mb |
|
- 图像文本对: 约9,430个描述信息 |
|
|