Text Classification
sentence-transformers
Safetensors
Japanese
bert
feature-extraction
File size: 5,591 Bytes
65447dc
fea885b
 
 
 
 
 
 
 
 
 
36f7292
 
65447dc
 
36f7292
65447dc
 
36f7292
65447dc
36f7292
65447dc
36f7292
65447dc
36f7292
 
 
65447dc
36f7292
65447dc
36f7292
 
65447dc
36f7292
 
65447dc
36f7292
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
65447dc
36f7292
 
65447dc
36f7292
 
 
 
 
 
 
 
 
 
65447dc
 
36f7292
65447dc
 
36f7292
 
 
 
 
 
 
 
 
eaa9192
36f7292
eaa9192
65447dc
 
 
36f7292
65447dc
36f7292
 
 
 
 
 
dd05892
65447dc
 
 
 
36f7292
 
 
 
 
 
 
 
65447dc
36f7292
65447dc
36f7292
 
65447dc
36f7292
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
---
language:
- ja
library_name: sentence-transformers
tags:
- sentence-transformers
- feature-extraction
base_model: cl-nagoya/ruri-pt-large
widget: []
pipeline_tag: text-classification
license: apache-2.0
datasets:
- cl-nagoya/ruri-dataset-reranker
---

# Ruri-Reranker: Japanese General Reranker


## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.

```python
from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-large")

inputs = [
    [
        "瑠璃色はどんな色?",
        "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
    ],
    [
        "瑠璃色はどんな色?",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
        "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
    ],
]

scores = model.predict(inputs)
print(scores)

result = model.rank(
    query="瑠璃色はどんな色?",
    documents=[
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
        "瑠璃、または琉璃(るり)は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
        "瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
    ],
)
print(result)
```


## Benchmarks


|Model|#Param.(w/oEmb.)|JQaRA|JaCWIR|MIRACL|
|:-|:-:|:-:|:-:|:-:|
|[hotchpotch/japanese-reranker-cross-encoder-xsmall-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-xsmall-v1)|107M(11M)|61.4|93.8|90.6|
|[hotchpotch/japanese-reranker-cross-encoder-small-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-small-v1)|118M(21M)|62.5|93.9|92.2|
|[hotchpotch/japanese-reranker-cross-encoder-base-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-base-v1)|111M(86M)|67.1|93.4|93.3|
|[hotchpotch/japanese-reranker-cross-encoder-large-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-large-v1)|337M(303M)|71.0|93.6|91.5|
|[hotchpotch/japanese-bge-reranker-v2-m3-v1](https://huggingface.co/hotchpotch/japanese-bge-reranker-v2-m3-v1)|568M(303M)|69.2|93.7|94.7|
|[BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3)|568M(303M)|67.3|93.4|94.9|
||||||
|[Ruri-Reranker-Small](https://huggingface.co/cl-nagoya/ruri-reranker-small)|68M(43M)|64.5|92.6|92.3|
|[Ruri-Reranker-Base](https://huggingface.co/cl-nagoya/ruri-reranker-base)|111M(86M)|74.3|93.5|95.6|
|[**Ruri-Reranker-Large**](https://huggingface.co/cl-nagoya/ruri-reranker-large) (this model)|337M(303M)|**77.1**|**94.1**|**96.1**|



## Model Details

### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [cl-nagoya/ruri-pr-large](https://huggingface.co/cl-nagoya/ruri-pt-large) 
- **Maximum Sequence Length:** 512 tokens
- **Language:** Japanese
- **License:** Apache 2.0
- **Paper:** https://arxiv.org/abs/2409.07737

## Training Details


### Framework Versions
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1

<!-- ## Citation

### BibTeX
 -->

## License
This model is published under the [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0).