File size: 5,591 Bytes
65447dc fea885b 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 eaa9192 36f7292 eaa9192 65447dc 36f7292 65447dc 36f7292 dd05892 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 65447dc 36f7292 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 |
---
language:
- ja
library_name: sentence-transformers
tags:
- sentence-transformers
- feature-extraction
base_model: cl-nagoya/ruri-pt-large
widget: []
pipeline_tag: text-classification
license: apache-2.0
datasets:
- cl-nagoya/ruri-dataset-reranker
---
# Ruri-Reranker: Japanese General Reranker
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-large")
inputs = [
[
"瑠璃色はどんな色?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色はどんな色?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色はどんな色?",
documents=[
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
"瑠璃、または琉璃(るり)は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
)
print(result)
```
## Benchmarks
|Model|#Param.(w/oEmb.)|JQaRA|JaCWIR|MIRACL|
|:-|:-:|:-:|:-:|:-:|
|[hotchpotch/japanese-reranker-cross-encoder-xsmall-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-xsmall-v1)|107M(11M)|61.4|93.8|90.6|
|[hotchpotch/japanese-reranker-cross-encoder-small-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-small-v1)|118M(21M)|62.5|93.9|92.2|
|[hotchpotch/japanese-reranker-cross-encoder-base-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-base-v1)|111M(86M)|67.1|93.4|93.3|
|[hotchpotch/japanese-reranker-cross-encoder-large-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-large-v1)|337M(303M)|71.0|93.6|91.5|
|[hotchpotch/japanese-bge-reranker-v2-m3-v1](https://huggingface.co/hotchpotch/japanese-bge-reranker-v2-m3-v1)|568M(303M)|69.2|93.7|94.7|
|[BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3)|568M(303M)|67.3|93.4|94.9|
||||||
|[Ruri-Reranker-Small](https://huggingface.co/cl-nagoya/ruri-reranker-small)|68M(43M)|64.5|92.6|92.3|
|[Ruri-Reranker-Base](https://huggingface.co/cl-nagoya/ruri-reranker-base)|111M(86M)|74.3|93.5|95.6|
|[**Ruri-Reranker-Large**](https://huggingface.co/cl-nagoya/ruri-reranker-large) (this model)|337M(303M)|**77.1**|**94.1**|**96.1**|
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [cl-nagoya/ruri-pr-large](https://huggingface.co/cl-nagoya/ruri-pt-large)
- **Maximum Sequence Length:** 512 tokens
- **Language:** Japanese
- **License:** Apache 2.0
- **Paper:** https://arxiv.org/abs/2409.07737
## Training Details
### Framework Versions
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1
<!-- ## Citation
### BibTeX
-->
## License
This model is published under the [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0).
|