モデル概要

Watashiha-Llama-2-13B-Ogiri-sftをLLaVAで学習し、画像に対応した大喜利言語モデルです。
Vision Encoderにはlaion/CLIP-ViT-B-32-laion2B-s34B-b79Kを使用しています。

学習データ

事前学習のデータにはSTAIR Captionsを使用しています。
STAIR Captionsのデータで学習する際、 MS COCO 2014で以下のライセンスが付与されている画像データは使用しないようにしました。

Fine-tuningのデータには以下のデータを使用しています。

以下のGoogle Colabのサンプルコードを参考にしてください。
サンプルコード

Safetensors

Model size

13B params

Tensor type

BF16