akiFQCint's picture
update readme
cfb24e0
|
raw
history blame
6.74 kB
metadata
language:
  - ja
license_name: sarahina-non-commercial-license
license_link: LICENSE
tags:
  - transformers
  - sentence-similarity
  - feature-extraction
  - sentence-transformers
inference: false
datasets:
  - hpprc/emb
  - cl-nagoya/auto-wiki-qa
  - cl-nagoya/ruri-dataset-ft
  - hpprc/mqa-ja
  - izumi-lab/llm-japanese-dataset
  - sentence-transformers/NQ-retrieval
  - sbintuitions/JSQuAD
  - SkelterLabsInc/JaQuAD

sarashina-embedding-v1-1b

「sarashina-embedding-v1-1b」は、1.2Bパラメータの日本語LLM「Sarashina」をベースにした日本語テキスト埋め込みモデルです。

このモデルは、マルチステージの対照学習で訓練し、 JMTEB(Japanese Massive Text Embedding Benchmark)の16個のデータセットの平均で、(2024/12/1時点で)最高水準の平均スコアを達成しました。

このモデルは、文や段落を1792次元の高密度ベクトル空間にマッピングし、意味的テキスト類似度、意味的検索、paraphrase mining、テキスト分類、クラスタリングなどに使用できます。

モデル詳細

モデル説明

  • モデルタイプ: Sentence Transformer
  • 最大シーケンス長: 8192トークン
  • 出力次元数: 1792トークン
  • 類似度関数: コサイン類似度
  • 言語: 日本語
  • ライセンス: Sarashina Model NonCommercial License Agreement

モデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel 
  (1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)

使用方法

Sentence Transformersを使う方法

まず、Sentence Transformersライブラリをインストールします。

pip install -U sentence-transformers

次に、このモデルをロードし、推論を実行します。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからモデルをダウンロードする
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
# 推論を実行する
sentences = [
    '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
    'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
    '更科蕎麦とはなんですか?'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1792]

# 埋め込みの類似度スコアを取得する
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

注意

  • "Query: ", "Document: "などのprefixを入力文の先頭に加える必要はありません。
  • このモデルはSarashina Model NonCommercial License Agreementでライセンスされており、商用利用には制限があります。もしあなたのビジネスでこのモデルを活用することに興味がある場合は、気軽にコンタクトページにご連絡ください。

学習

sarashina-embedding-v1-1bは、以下の2段階の学習ステージによって行われています。

Stage 1: 弱教師あり学習

幅広いドメインに対して汎用的なテキスト埋め込みの性能を達成するために、私たちは、独自webクロールデータとオープンデータで構成された弱教師データによる対照学習を行いまいした。

データセット

dataset counts
AutoWikiQA 50,521,135
web-crawled data 47,370,649
MQA 12,941,472
llm-japanese-dataset 9,074,340
wikipedia 5,555,212
Quiz dataset 988,478
Natural Questions 132,796
JSQuAD 62,859
snow 62,758
JaQuAD 31,746
mkqa 3,318
total 126,744,763

Stage 2: ファインチューニング

より正確なクエリ-ドキュメント間の類似度をモデルに学習させるために、私たちは以下のようなデータセットでファインチューニングを行いました。

データセット

dataset counts
JSNLI 141,388
NU-MNLI 67,987
Mr. TyDi (only Japanese subset) 3,697
Natural Question (sampled) 20,000
total 233,072

ベンチマーク

JMTEB

Model Max Tokens Avg. Retrieval STS Classification Reranking Clustering PairClassification
OpenAI/text-embedding-3-large 8191 74.05 74.48 82.52 77.58 93.58 53.32 62.35
cl-nagoya/ruri-large 512 73.31 73.02 83.13 77.43 92.99 51.82 62.29
pkshatech/GLuCoSE-base-ja-v2 512 72.23 73.36 82.96 74.21 93.01 48.65 62.37
pkshatech/RoSEtta-base-ja 1024 72.04 73.21 81.39 72.41 92.69 53.23 61.74
intfloat/multilingual-e5-large 512 70.90 70.98 79.70 72.89 92.96 51.24 62.15
sarashina-embedding-v1-1b(This model) 8192 75.50 77.61 82.71 78.37 93.74 53.86 62.00

ライセンス

このモデルはSarashina Model NonCommercial License Agreementに基づいて公開されています.

もしこのモデルの商用利用に興味がある場合は、気軽にコンタクトページにご連絡ください。