モデル概要
Watashiha-Llama-2-13B-Ogiri-sftをLLaVAで学習し、画像に対応した大喜利言語モデルです。
Vision Encoderにはlaion/CLIP-ViT-B-32-laion2B-s34B-b79Kを使用しています。
- License: LLAMA 2 COMMUNITY LICENSE
- Library: LLaVA
学習データ
事前学習のデータにはSTAIR Captionsを使用しています。
STAIR Captionsのデータで学習する際、
MS COCO 2014で以下のライセンスが付与されている画像データは使用しないようにしました。
- Attribution-NonCommercial-ShareAlike License
- Attribution-NonCommercial License
- Attribution-NonCommercial-NoDerivs License
- No known copyright restrictions
Fine-tuningのデータには以下のデータを使用しています。
- Japanese Visual Genome VQA dataset
- ボケ缶データセット
- 大喜利データ(テキストのみ)
使用方法
以下のGoogle Colabのサンプルコードを参考にしてください。
サンプルコード
開発者
- 内田 達弥 (UCHIDA, Tatsuya)
- Downloads last month
- 9
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.