sbintuitions
/

sarashina-embedding-v1-1b

@@ -20,6 +20,9 @@ datasets:
   - sentence-transformers/NQ-retrieval
   - sbintuitions/JSQuAD
   - SkelterLabsInc/JaQuAD
 ---
 # Sarashina-Embedding-v1-1B
@@ -102,17 +105,17 @@ To achieve generic text embedding performance across a wide range of domains, we
 |dataset|counts|
 |:-:|:-:|
-|AutoWikiQA|50,521,135|
-|web-crawled data|47,370,649|
-|MQA|12,941,472|
-|llm-japanese-dataset|9,074,340|
-|wikipedia|5,555,212|
-|Quiz dataset|988,478|
-|Natural Questions|132,796|
-|JSQuAD|62,859|
-|snow|62,758|
-|JaQuAD|31,746|
-|mkqa|3,318|
 |||
 |**total**|**126,744,763**|
@@ -124,10 +127,10 @@ To enable the model to learn a more accurate query-document similarity, we perfo
 |dataset|counts|
 |:-:|:-:|
-|JSNLI|141,388 |
-|NU-MNLI|67,987|
-|Mr. TyDi (only Japanese subset)| 3,697 |
-|Natural Question (sampled)| 20,000|
 |||
 |**total**|**233,072**|
@@ -135,7 +138,7 @@ To enable the model to learn a more accurate query-document similarity, we perfo
  Model                                         |Max Tokens|Avg.      | Retrieval   | STS       | Classification   | Reranking   | Clustering   | PairClassification   |
 |:----------------------------------------------|:----------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
-| OpenAI/text-embedding-3-large                 | 8191 |74.05 | 74.48   | 82.52     | 77.58        | 93.58   | 53.32        | 62.35                |
 | [cl-nagoya/ruri-large](https://huggingface.co/intfloat/multilingual-e5-large)    | 512 |73.31     | 73.02       | **83.13**     | 77.43            | 92.99       | 51.82        | 62.29                |
 | [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2)    | 512 |72.23     | 73.36       | 82.96     | 74.21            | 93.01       | 48.65        | **62.37**                |
 | [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja)     |1024 |72.04     | 73.21       | 81.39     | 72.41            | 92.69       | 53.23        | 61.74                |

   - sentence-transformers/NQ-retrieval
   - sbintuitions/JSQuAD
   - SkelterLabsInc/JaQuAD
+  - wikimedia/wikipedia
+  - cl-nagoya/nu-mnli
+  - castorini/mr-tydi
 ---
 # Sarashina-Embedding-v1-1B
 |dataset|counts|
 |:-:|:-:|
+|[AutoWikiQA](https://huggingface.co/datasets/cl-nagoya/auto-wiki-qa)|50,521,135|
+|web-crawled data  (ours)|47,370,649|
+|[MQA](https://huggingface.co/datasets/hpprc/mqa-ja)|12,941,472|
+|[llm-japanese-dataset](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset)|9,074,340|
+|[wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia)|5,555,212|
+|Quiz dataset (ours)|988,478|
+|[Natural Questions](https://huggingface.co/datasets/sentence-transformers/NQ-retrieval)|132,796|
+|[JSQuAD](https://huggingface.co/datasets/sbintuitions/JSQuAD)|62,859|
+|[snow](https://huggingface.co/datasets/cl-nagoya/ruri-dataset-ft)|62,758|
+|[JaQuAD](https://huggingface.co/datasets/SkelterLabsInc/JaQuAD)|31,746|
+|[mkqa](https://huggingface.co/datasets/cl-nagoya/ruri-dataset-ft)|3,318|
 |||
 |**total**|**126,744,763**|
 |dataset|counts|
 |:-:|:-:|
+|[JSNLI](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)|141,388 |
+|[NU-MNLI](https://huggingface.co/datasets/cl-nagoya/nu-mnli)|67,987|
+|[Mr. TyDi](https://huggingface.co/datasets/castorini/mr-tydi/tree/main) (only Japanese subset)| 3,697 |
+|[Natural Question](https://huggingface.co/datasets/sentence-transformers/NQ-retrieval) (sampled)| 20,000|
 |||
 |**total**|**233,072**|
  Model                                         |Max Tokens|Avg.      | Retrieval   | STS       | Classification   | Reranking   | Clustering   | PairClassification   |
 |:----------------------------------------------|:----------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
+| [OpenAI/text-embedding-3-large](https://openai.com/index/new-embedding-models-and-api-updates/)^1 | 8191 |74.05 | 74.48   | 82.52     | 77.58        | 93.58   | 53.32        | 62.35                |
 | [cl-nagoya/ruri-large](https://huggingface.co/intfloat/multilingual-e5-large)    | 512 |73.31     | 73.02       | **83.13**     | 77.43            | 92.99       | 51.82        | 62.29                |
 | [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2)    | 512 |72.23     | 73.36       | 82.96     | 74.21            | 93.01       | 48.65        | **62.37**                |
 | [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja)     |1024 |72.04     | 73.21       | 81.39     | 72.41            | 92.69       | 53.23        | 61.74                |

README_JA.md CHANGED Viewed

@@ -18,6 +18,9 @@ datasets:
   - sentence-transformers/NQ-retrieval
   - sbintuitions/JSQuAD
   - SkelterLabsInc/JaQuAD
 ---
 # Sarashina-Embedding-v1-1B
@@ -99,17 +102,17 @@ print(similarities.shape)
 |dataset|counts|
 |:-:|:-:|
-|AutoWikiQA|50,521,135|
-|web-crawled data|47,370,649|
-|MQA|12,941,472|
-|llm-japanese-dataset|9,074,340|
-|wikipedia|5,555,212|
-|Quiz dataset|988,478|
-|Natural Questions|132,796|
-|JSQuAD|62,859|
-|snow|62,758|
-|JaQuAD|31,746|
-|mkqa|3,318|
 |||
 |**total**|**126,744,763**|
@@ -121,10 +124,10 @@ print(similarities.shape)
 |dataset|counts|
 |:-:|:-:|
-|JSNLI|141,388 |
-|NU-MNLI|67,987|
-|Mr. TyDi (only Japanese subset)| 3,697 |
-|Natural Question (sampled)| 20,000|
 |||
 |**total**|**233,072**|
@@ -132,7 +135,7 @@ print(similarities.shape)
  Model                                         |Max Tokens|Avg.      | Retrieval   | STS       | Classification   | Reranking   | Clustering   | PairClassification   |
 |:----------------------------------------------|:----------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
-| OpenAI/text-embedding-3-large                 | 8191 |74.05 | 74.48   | 82.52     | 77.58        | 93.58   | 53.32        | 62.35                |
 | [cl-nagoya/ruri-large](https://huggingface.co/intfloat/multilingual-e5-large)    | 512 |73.31     | 73.02       | **83.13**     | 77.43            | 92.99       | 51.82        | 62.29                |
 | [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2)    | 512 |72.23     | 73.36       | 82.96     | 74.21            | 93.01       | 48.65        | **62.37**                |
 | [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja)     |1024 |72.04     | 73.21       | 81.39     | 72.41            | 92.69       | 53.23        | 61.74                |

   - sentence-transformers/NQ-retrieval
   - sbintuitions/JSQuAD
   - SkelterLabsInc/JaQuAD
+  - wikimedia/wikipedia
+  - cl-nagoya/nu-mnli
+  - castorini/mr-tydi
 ---
 # Sarashina-Embedding-v1-1B
 |dataset|counts|
 |:-:|:-:|
+|[AutoWikiQA](https://huggingface.co/datasets/cl-nagoya/auto-wiki-qa)|50,521,135|
+|web-crawled data  (ours)|47,370,649|
+|[MQA](https://huggingface.co/datasets/hpprc/mqa-ja)|12,941,472|
+|[llm-japanese-dataset](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset)|9,074,340|
+|[wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia)|5,555,212|
+|Quiz dataset (ours)|988,478|
+|[Natural Questions](https://huggingface.co/datasets/sentence-transformers/NQ-retrieval)|132,796|
+|[JSQuAD](https://huggingface.co/datasets/sbintuitions/JSQuAD)|62,859|
+|[snow](https://huggingface.co/datasets/cl-nagoya/ruri-dataset-ft)|62,758|
+|[JaQuAD](https://huggingface.co/datasets/SkelterLabsInc/JaQuAD)|31,746|
+|[mkqa](https://huggingface.co/datasets/cl-nagoya/ruri-dataset-ft)|3,318|
 |||
 |**total**|**126,744,763**|
 |dataset|counts|
 |:-:|:-:|
+|[JSNLI](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)|141,388 |
+|[NU-MNLI](https://huggingface.co/datasets/cl-nagoya/nu-mnli)|67,987|
+|[Mr. TyDi](https://huggingface.co/datasets/castorini/mr-tydi/tree/main) (only Japanese subset)| 3,697 |
+|[Natural Question](https://huggingface.co/datasets/sentence-transformers/NQ-retrieval) (sampled)| 20,000|
 |||
 |**total**|**233,072**|
  Model                                         |Max Tokens|Avg.      | Retrieval   | STS       | Classification   | Reranking   | Clustering   | PairClassification   |
 |:----------------------------------------------|:----------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
+| [OpenAI/text-embedding-3-large](https://openai.com/index/new-embedding-models-and-api-updates/)^1 | 8191 |74.05 | 74.48   | 82.52     | 77.58        | 93.58   | 53.32        | 62.35                |
 | [cl-nagoya/ruri-large](https://huggingface.co/intfloat/multilingual-e5-large)    | 512 |73.31     | 73.02       | **83.13**     | 77.43            | 92.99       | 51.82        | 62.29                |
 | [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2)    | 512 |72.23     | 73.36       | 82.96     | 74.21            | 93.01       | 48.65        | **62.37**                |
 | [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja)     |1024 |72.04     | 73.21       | 81.39     | 72.41            | 92.69       | 53.23        | 61.74                |