REILX
/

llava-Qwen2-7B-Instruct-Chinese-CLIP-v3

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

Edit model card

llava-Qwen2-7B-Instruct-Chinese-CLIP-v3

模型简介

本模型扩大了中文图文训练数据集,并改用 OFA-Sys/chinese-clip-vit-huge-patch14,增强了中文文字识别能力和图像识别能力。

1. 模型结构

llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-huge-patch14

2. 微调训练过程

模型分三阶段训练,每次都对以下两模块进行微调：

vision_tower 和 language_model 的 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj 模块进行 lora 训练
mmp 层全量训练

阶段1:

数据集: REILX/chinese-meme-description-dataset、SWHL/ChineseOCRBench、priyank-m/chinese_text_recognition、fly0331/ChineseTest、liuhaotian/LLaVA-Pretrain、Lin-Chen/ShareGPT4V
微调参数:
- lora_r=32, lora_alpha=64, num_train_epochs=2, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=1e-3, low_lr=2e-5, model_max_length=2048
训练时长: 84小时02分钟

阶段2:

数据集: REILX/Chinese-Image-Text-Corpus-dataset
微调参数:
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
训练时长: 36小时56分钟

阶段3:

数据集: REILX/chinese-meme-description-dataset 中的 ChineseBQB-Claude-3-5-sonnet-20240620.jsonl 和 emo-visual-data-Claude-3-5-sonnet-20240620.jsonl，仅使用质量最高的 Claude-3-5-sonnet-20240620 模型输出进行最后的微调
微调参数:
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
训练时长: 1小时04分钟

3阶段共耗时: 122小时

3. 数据集

REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP

图像总大小: 1.8G
图片数量: 约10,835张中文表情包图片
文字总量: 41.6Mb
图像文本对: 约24,332个描述信息

REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v2

阶段1:

图像总大小: 4.45G
图片数量: 约520,492张
文字总量: 249.93Mb
图像文本对: 约533,989个描述信息

阶段2:

图像总大小: 1.8G
图片数量: 约10,835张中文表情包图片
文字总量: 57.34Mb
图像文本对: 约33,762个描述信息

REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3

阶段1:

图像总大小: 41G
图片数量: 约1,056,501张
文字总量: 487.82Mb
图像文本对: 约1,112,369个描述信息

阶段2:

图像总大小: 1.5G
图片数量: 约325,503张
文字总量: 107.79Mb
图像文本对: 约325,503个描述信息

阶段3:

图像总大小: 1.8G
图片数量: 约10,835张
文字总量: 15.28Mb
图像文本对: 约9,430个描述信息

Downloads last month: 63

Safetensors

Model size

8.26B params

Tensor type

FP16

·

Inference Examples

Image-Text-to-Text

Inference API (serverless) does not yet support transformers models for this pipeline type.

Datasets used to train REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3

Collection including REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3

LLava

lava • 4 items • Updated Aug 2