RamsesDIIP
commited on
Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- 3_MyLinearAdapter/adapter_model.bin +3 -0
- README.md +526 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +26 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +54 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
3_MyLinearAdapter/adapter_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4caf14b18c44b4138b49e462408d6d7e298a66fb50f3401a41f0fbd814d30998
|
3 |
+
size 4199996
|
README.md
ADDED
@@ -0,0 +1,526 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: intfloat/multilingual-e5-large
|
3 |
+
language:
|
4 |
+
- multilingual
|
5 |
+
library_name: sentence-transformers
|
6 |
+
license: apache-2.0
|
7 |
+
metrics:
|
8 |
+
- cosine_accuracy
|
9 |
+
- dot_accuracy
|
10 |
+
- manhattan_accuracy
|
11 |
+
- euclidean_accuracy
|
12 |
+
- max_accuracy
|
13 |
+
pipeline_tag: sentence-similarity
|
14 |
+
tags:
|
15 |
+
- sentence-transformers
|
16 |
+
- sentence-similarity
|
17 |
+
- feature-extraction
|
18 |
+
- generated_from_trainer
|
19 |
+
- dataset_size:1412
|
20 |
+
- loss:TripletLoss
|
21 |
+
widget:
|
22 |
+
- source_sentence: Hormigonado para muro, con hormigón para armar autocompactante
|
23 |
+
con aditivo hidrófugo HA - 40 / AC / 20 / XC4 con una cantidad de cemento de 350
|
24 |
+
kg/m3 i relación agua cemento =< 0.45, colocado con cubilote
|
25 |
+
sentences:
|
26 |
+
- Elemento de hormigón recto para bordillos tipo T2, con doble capa y dimensiones
|
27 |
+
estandarizadas de calzada C5 25x15 cm, conforme a la norma UNE 127340, clasificado
|
28 |
+
para clima B, resistencia a la abrasión H y resistencia a flexión T (R-5 MPa)
|
29 |
+
según UNE-EN 1340, instalado sobre una base de hormigón no estructural HNE-15/P/40
|
30 |
+
de 10 a 20 cm de altura, y sellado con mortero para albañilería, en un entorno
|
31 |
+
urbano accesible, en aceras de más de 3 y hasta 5 m de ancho o calzada/plataforma
|
32 |
+
única de más de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario
|
33 |
+
urbano, en proyectos de 1 a 10 m.
|
34 |
+
- Colocación de hormigón autocompactante para muros, utilizando un aditivo hidrófugo
|
35 |
+
HA - 40 / AC / 20 / XC4, con una dosificación de 350 kg/m3 de cemento y una relación
|
36 |
+
agua-cemento menor o igual a 0.45, aplicado con cubilote.
|
37 |
+
- Hormigonado para pavimento, utilizando hormigón convencional con aditivo retardante
|
38 |
+
de fraguado, con una cantidad de cemento de 300 kg/m3 y relación agua-cemento
|
39 |
+
=< 0.50, aplicado con bomba de presión.
|
40 |
+
- source_sentence: Placa informativa para señales de tráfico de acero galvanizado
|
41 |
+
y pintado, de 60x60 cm, acabada con lámina retrorreflectante clase RA3, fijada
|
42 |
+
mecánicamente, en entorno urbano sin dificultad de movilidad, en aceras > 3 y
|
43 |
+
<= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación
|
44 |
+
por servicios o elementos de mobiliario urbano, en actuaciones de 1 a 5 u
|
45 |
+
sentences:
|
46 |
+
- Base de concreto (CE, EHE) de tipo HM-20/P / 40 / I con consistencia plástica,
|
47 |
+
tamaño máximo del agregado de 40 mm, conteniendo >= 200 kg/m3 de cemento, adecuada
|
48 |
+
para clase de exposición I, vertido mediante transporte mecánico interno y acabado
|
49 |
+
manual con vibrado, en un entorno urbano con movilidad restringida, en aceras
|
50 |
+
de más de 5 m de ancho o calzadas/plataformas únicas de más de 12 m de ancho,
|
51 |
+
afectada por servicios o elementos de mobiliario urbano, en proyectos de entre
|
52 |
+
0.2 y 2 m3, utilizando un dúmper eléctrico.
|
53 |
+
- Placa de señalización para obras de construcción de aluminio anodizado y sin pintar,
|
54 |
+
de 80x80 cm, con acabado mate, fijada con adhesivo, en áreas rurales con acceso
|
55 |
+
restringido, en caminos de tierra > 2 y <= 4 m de ancho o senderos > 5 y <= 10
|
56 |
+
m de ancho, con interferencia por vegetación o estructuras temporales, en proyectos
|
57 |
+
de 6 a 10 u.
|
58 |
+
- Panel informativo para señales de tráfico fabricado en acero galvanizado y pintado,
|
59 |
+
con dimensiones de 60x60 cm, terminado con lámina retrorreflectante de clase RA3,
|
60 |
+
instalado de manera mecánica, en un entorno urbano accesible, en aceras de más
|
61 |
+
de 3 y hasta 5 metros de ancho o en calzadas/plataformas únicas de más de 7 y
|
62 |
+
hasta 12 metros de ancho, sin interferencias de servicios o mobiliario urbano,
|
63 |
+
en proyectos de 1 a 5 unidades.
|
64 |
+
- source_sentence: Placa de orientación o situación para señales de tráfico, de acero
|
65 |
+
galvanizado y pintado, de 30x70 cm, acabada con lámina retrorreflectante clase
|
66 |
+
RA1, fijada mecánicamente, en entorno urbano sin dificultad de movilidad, en aceras
|
67 |
+
<= 3 m de ancho o calzada/plataforma única <= 7 m de ancho, con afectación por
|
68 |
+
servicios o elementos de mobiliario urbano, en actuaciones de más de 5 u
|
69 |
+
sentences:
|
70 |
+
- Placa de identificación para instalaciones eléctricas, de aluminio anodizado y
|
71 |
+
sin pintura, de 40x80 cm, acabada con lámina opaca, fijada con adhesivo, en entorno
|
72 |
+
rural con acceso restringido, en caminos <= 2 m de ancho o terrenos no pavimentados
|
73 |
+
<= 5 m de ancho, sin interferencia de servicios o elementos de señalización, en
|
74 |
+
proyectos de menos de 10 unidades.
|
75 |
+
- Tubería de polietileno de alta densidad PE 100, de 900 mm de diámetro, con una
|
76 |
+
presión nominal de 6 bar, serie SDR 26, conforme a la norma UNE-EN 12201-2, soldada
|
77 |
+
y ubicada en el fondo de la zanja, en un entorno urbano con acceso fácil, en aceras
|
78 |
+
de hasta 3 m de ancho o calzadas de hasta 7 m de ancho, sin interferencias de
|
79 |
+
servicios o mobiliario urbano, en tramos de 1 a 10 m.
|
80 |
+
- Panel informativo de dirección para señalización vial, fabricado en acero galvanizado
|
81 |
+
y pintado, con dimensiones de 30x70 cm, recubierto con lámina retrorreflectante
|
82 |
+
clase RA1, instalado de forma mecánica, en áreas urbanas con accesibilidad adecuada,
|
83 |
+
en aceras de hasta 3 m de ancho o en calzadas/plataformas de hasta 7 m de ancho,
|
84 |
+
considerando la interferencia de servicios o mobiliario urbano, en proyectos que
|
85 |
+
superen las 5 unidades.
|
86 |
+
- source_sentence: Bordillo drenante de piezas de hormigón polímero con canal interior,
|
87 |
+
monobloque de 150x450 a 550 mm, colocado sobre base de hormigón no estructural
|
88 |
+
de 15 N/mm2 de resistencia minima a compresión de 30 a 35 cm de altura, y rejuntado
|
89 |
+
con mortero, en entorno urbano con dificultad de mobilidad, en aceras <= 3 m de
|
90 |
+
ancho o calzada/plataforma única <= 7 m de ancho, con afectación por servicios
|
91 |
+
o elementos de mobiliario urbano, en actuaciones de más de100 m
|
92 |
+
sentences:
|
93 |
+
- Puerta de doble hoja abatible de madera para interiores, con un grosor de 35 mm,
|
94 |
+
dimensiones de paso de 70 + 40 cm de ancho y 200 cm de alto, diseñada para un
|
95 |
+
marco de hasta 10 cm de espesor, en acabado de roble lacado, con paneles de aglomerado
|
96 |
+
hidrófugo, molduras y tapajuntas de MDF, burlete de goma, herrajes de suspensión,
|
97 |
+
cerradura de resbalón, y manillas de acero inoxidable 1.4301 (AISI 304), con placa
|
98 |
+
pequeña, de gama alta.
|
99 |
+
- Bordillo de hormigón polímero con drenaje, de dimensiones monobloque de 150x450
|
100 |
+
a 550 mm, instalado sobre una base de hormigón no estructural con una resistencia
|
101 |
+
mínima a compresión de 15 N/mm2, con una altura de 30 a 35 cm, y sellado con mortero,
|
102 |
+
en áreas urbanas con movilidad restringida, en aceras de hasta 3 m de ancho o
|
103 |
+
en calzadas/plataformas de hasta 7 m de ancho, considerando la interferencia de
|
104 |
+
servicios o mobiliario urbano, en proyectos que superen los 100 m.
|
105 |
+
- Bordillo decorativo de cerámica esmaltada con diseño ornamental, de 120x300 a
|
106 |
+
400 mm, instalado sobre una base de grava compactada de 10 N/mm2 de resistencia
|
107 |
+
mínima, con una altura de 20 a 25 cm, y sellado con silicona, en un entorno rural
|
108 |
+
con fácil acceso, en caminos <= 2 m de ancho o senderos <= 5 m de ancho, sin interferencias
|
109 |
+
por servicios o elementos de paisajismo, en proyectos de menos de 50 m.
|
110 |
+
- source_sentence: Pavimento de loseta para paso de peatones de color con tacos de
|
111 |
+
20x20x4 cm, colocado a pique de maceta con mortero mixto 1:2:10 y lechada de color
|
112 |
+
con cemento blanco de albañilería, en entorno urbano sin dificultad de movilidad,
|
113 |
+
en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho,
|
114 |
+
sin afectación por servicios o elementos de mobiliario urbano, en actuaciones
|
115 |
+
de 1 a 10 m2
|
116 |
+
sentences:
|
117 |
+
- Pavimento de loseta para áreas recreativas de color con tacos de 30x30x5 cm, instalado
|
118 |
+
a nivel de césped con mortero de alta resistencia y lechada de color con cemento
|
119 |
+
gris, en entorno rural con acceso restringido, en senderos > 2 y <= 4 m de ancho
|
120 |
+
o caminos de tierra > 5 y <= 10 m de ancho, con afectación por servicios de jardinería
|
121 |
+
y elementos decorativos, en proyectos de 5 a 15 m2.
|
122 |
+
- Revestimiento de pared interior a una altura máxima de 3 metros utilizando baldosas
|
123 |
+
de gres porcelánico pulido en formato rectangular o cuadrado, con una densidad
|
124 |
+
de 76 a 115 piezas por metro cuadrado, en un rango de precio medio, grupo BIa
|
125 |
+
(UNE-EN 14411), instaladas con adhesivo para cerámica C2 (UNE-EN 12004) y selladas
|
126 |
+
con lechada CG2 (UNE-EN 13888).
|
127 |
+
- Pavimento de baldosas para zonas peatonales de color, con piezas de 20x20x4 cm,
|
128 |
+
instalado a nivel de la maceta utilizando mortero en proporción 1:2:10 y lechada
|
129 |
+
de color con cemento blanco, en un área urbana con accesibilidad adecuada, en
|
130 |
+
aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más
|
131 |
+
de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano,
|
132 |
+
en proyectos de entre 1 y 10 m2.
|
133 |
+
model-index:
|
134 |
+
- name: Multilingual E5 Large with Linear Adapter for Construction Terms
|
135 |
+
results:
|
136 |
+
- task:
|
137 |
+
type: triplet
|
138 |
+
name: Triplet
|
139 |
+
dataset:
|
140 |
+
name: validation set
|
141 |
+
type: validation-set
|
142 |
+
metrics:
|
143 |
+
- type: cosine_accuracy
|
144 |
+
value: 1.0
|
145 |
+
name: Cosine Accuracy
|
146 |
+
- type: dot_accuracy
|
147 |
+
value: 0.005681818181818182
|
148 |
+
name: Dot Accuracy
|
149 |
+
- type: manhattan_accuracy
|
150 |
+
value: 1.0
|
151 |
+
name: Manhattan Accuracy
|
152 |
+
- type: euclidean_accuracy
|
153 |
+
value: 1.0
|
154 |
+
name: Euclidean Accuracy
|
155 |
+
- type: max_accuracy
|
156 |
+
value: 1.0
|
157 |
+
name: Max Accuracy
|
158 |
+
---
|
159 |
+
|
160 |
+
# Multilingual E5 Large with Linear Adapter for Construction Terms
|
161 |
+
|
162 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
163 |
+
|
164 |
+
## Model Details
|
165 |
+
|
166 |
+
### Model Description
|
167 |
+
- **Model Type:** Sentence Transformer
|
168 |
+
- **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision ab10c1a7f42e74530fe7ae5be82e6d4f11a719eb -->
|
169 |
+
- **Maximum Sequence Length:** 512 tokens
|
170 |
+
- **Output Dimensionality:** 1024 tokens
|
171 |
+
- **Similarity Function:** Cosine Similarity
|
172 |
+
<!-- - **Training Dataset:** Unknown -->
|
173 |
+
- **Language:** multilingual
|
174 |
+
- **License:** apache-2.0
|
175 |
+
|
176 |
+
### Model Sources
|
177 |
+
|
178 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
179 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
180 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
181 |
+
|
182 |
+
### Full Model Architecture
|
183 |
+
|
184 |
+
```
|
185 |
+
SentenceTransformer(
|
186 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
187 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
188 |
+
(2): Normalize()
|
189 |
+
(linear_adapter): MyLinearAdapter(
|
190 |
+
(linear): Linear(in_features=1024, out_features=1024, bias=True)
|
191 |
+
)
|
192 |
+
)
|
193 |
+
```
|
194 |
+
|
195 |
+
## Usage
|
196 |
+
|
197 |
+
### Direct Usage (Sentence Transformers)
|
198 |
+
|
199 |
+
First install the Sentence Transformers library:
|
200 |
+
|
201 |
+
```bash
|
202 |
+
pip install -U sentence-transformers
|
203 |
+
```
|
204 |
+
|
205 |
+
Then you can load this model and run inference.
|
206 |
+
```python
|
207 |
+
from sentence_transformers import SentenceTransformer
|
208 |
+
|
209 |
+
# Download from the 🤗 Hub
|
210 |
+
model = SentenceTransformer("RamsesDIIP/me5-large-construction-adapter-v2")
|
211 |
+
# Run inference
|
212 |
+
sentences = [
|
213 |
+
'Pavimento de loseta para paso de peatones de color con tacos de 20x20x4 cm, colocado a pique de maceta con mortero mixto 1:2:10 y lechada de color con cemento blanco de albañilería, en entorno urbano sin dificultad de movilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación por servicios o elementos de mobiliario urbano, en actuaciones de 1 a 10 m2',
|
214 |
+
'Pavimento de baldosas para zonas peatonales de color, con piezas de 20x20x4 cm, instalado a nivel de la maceta utilizando mortero en proporción 1:2:10 y lechada de color con cemento blanco, en un área urbana con accesibilidad adecuada, en aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano, en proyectos de entre 1 y 10 m2.',
|
215 |
+
'Pavimento de loseta para áreas recreativas de color con tacos de 30x30x5 cm, instalado a nivel de césped con mortero de alta resistencia y lechada de color con cemento gris, en entorno rural con acceso restringido, en senderos > 2 y <= 4 m de ancho o caminos de tierra > 5 y <= 10 m de ancho, con afectación por servicios de jardinería y elementos decorativos, en proyectos de 5 a 15 m2.',
|
216 |
+
]
|
217 |
+
embeddings = model.encode(sentences)
|
218 |
+
print(embeddings.shape)
|
219 |
+
# [3, 1024]
|
220 |
+
|
221 |
+
# Get the similarity scores for the embeddings
|
222 |
+
similarities = model.similarity(embeddings, embeddings)
|
223 |
+
print(similarities.shape)
|
224 |
+
# [3, 3]
|
225 |
+
```
|
226 |
+
|
227 |
+
<!--
|
228 |
+
### Direct Usage (Transformers)
|
229 |
+
|
230 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
231 |
+
|
232 |
+
</details>
|
233 |
+
-->
|
234 |
+
|
235 |
+
<!--
|
236 |
+
### Downstream Usage (Sentence Transformers)
|
237 |
+
|
238 |
+
You can finetune this model on your own dataset.
|
239 |
+
|
240 |
+
<details><summary>Click to expand</summary>
|
241 |
+
|
242 |
+
</details>
|
243 |
+
-->
|
244 |
+
|
245 |
+
<!--
|
246 |
+
### Out-of-Scope Use
|
247 |
+
|
248 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
249 |
+
-->
|
250 |
+
|
251 |
+
## Evaluation
|
252 |
+
|
253 |
+
### Metrics
|
254 |
+
|
255 |
+
#### Triplet
|
256 |
+
* Dataset: `validation-set`
|
257 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
258 |
+
|
259 |
+
| Metric | Value |
|
260 |
+
|:-------------------|:--------|
|
261 |
+
| cosine_accuracy | 1.0 |
|
262 |
+
| dot_accuracy | 0.0057 |
|
263 |
+
| manhattan_accuracy | 1.0 |
|
264 |
+
| euclidean_accuracy | 1.0 |
|
265 |
+
| **max_accuracy** | **1.0** |
|
266 |
+
|
267 |
+
<!--
|
268 |
+
## Bias, Risks and Limitations
|
269 |
+
|
270 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
271 |
+
-->
|
272 |
+
|
273 |
+
<!--
|
274 |
+
### Recommendations
|
275 |
+
|
276 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
277 |
+
-->
|
278 |
+
|
279 |
+
## Training Details
|
280 |
+
|
281 |
+
### Training Dataset
|
282 |
+
|
283 |
+
#### Unnamed Dataset
|
284 |
+
|
285 |
+
|
286 |
+
* Size: 1,412 training samples
|
287 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
288 |
+
* Approximate statistics based on the first 1000 samples:
|
289 |
+
| | anchor | positive | negative |
|
290 |
+
|:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
291 |
+
| type | string | string | string |
|
292 |
+
| details | <ul><li>min: 25 tokens</li><li>mean: 106.15 tokens</li><li>max: 317 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 102.11 tokens</li><li>max: 282 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 86.67 tokens</li><li>max: 265 tokens</li></ul> |
|
293 |
+
* Samples:
|
294 |
+
| anchor | positive | negative |
|
295 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
296 |
+
| <code>Valla de brezo con puntas recortadas, de calidad extra nacional, de 130 cm de altura, colocada con grapas sobre valla existente accesible desde el suelo, en entorno urbano con dificultad de mobilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación por servicios o elementos de mobiliario urbano, en actuaciones de más de100 m</code> | <code>Cerca de brezo de calidad superior, de 130 cm de altura, instalada con grapas sobre una valla ya existente, en un área urbana con limitaciones de movilidad, en aceras de entre 3 y 5 m de ancho o en calzadas de 7 a 12 m de ancho, sin interferencias de servicios o mobiliario urbano, en proyectos que superen los 100 m.</code> | <code>Valla de madera tratada, de 150 cm de altura, instalada con tornillos sobre una base de hormigón, en un entorno rural con fácil acceso, en caminos de más de 5 m de ancho, sin interferencias de vegetación o estructuras cercanas, en proyectos de menos de 50 m.</code> |
|
297 |
+
| <code>De zanjas y pozos de cimentación, con hormigón autocompactante HA - 35 / AC - E1 / 12 / IIa + Qb, tamaño máximo del árido 12 mm, con >= 350 kg/m3 de cemento, aditivo superplastificante, apto para clase de exposición IIa+Qb, colocado desde camión</code> | <code>Excavación de cimientos y pozos, utilizando hormigón autocompactante HA - 35 / AC - E1 / 12 / IIa + Qb, con un tamaño máximo de árido de 12 mm, conteniendo al menos 350 kg/m3 de cemento y un aditivo superplastificante, adecuado para la clase de exposición IIa+Qb, vertido directamente desde el camión.</code> | <code>De zanjas y pozos de cimentación, con hormigón convencional de resistencia 25 MPa, tamaño máximo del árido 20 mm, con 250 kg/m3 de cemento, sin aditivos, apto para clase de exposición I, colocado manualmente.</code> |
|
298 |
+
| <code>Pavimento de losa de hormigón para pavimentos de 40x40 cm y 7 cm de espesor, de forma cuadrado, textura rugosa, precio superior, sobre lecho de arena de 3 cm de espesor, con relleno de juntas con arena fina y compactación del pavimento acabado</code> | <code>Losas de concreto de 40x40 cm y 7 cm de grosor, con superficie rugosa, instaladas sobre una base de arena de 3 cm, con juntas rellenadas con arena fina y compactación final del pavimento.</code> | <code>Pavimento de cerámica para baldosas de 30x30 cm y 1 cm de espesor, de forma rectangular, textura lisa, precio inferior, sobre base de grava de 5 cm de espesor, con sellado de juntas con silicona y acabado pulido del suelo.</code> |
|
299 |
+
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
300 |
+
```json
|
301 |
+
{
|
302 |
+
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
|
303 |
+
"triplet_margin": 0.5
|
304 |
+
}
|
305 |
+
```
|
306 |
+
|
307 |
+
### Evaluation Dataset
|
308 |
+
|
309 |
+
#### Unnamed Dataset
|
310 |
+
|
311 |
+
|
312 |
+
* Size: 176 evaluation samples
|
313 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
314 |
+
* Approximate statistics based on the first 176 samples:
|
315 |
+
| | anchor | positive | negative |
|
316 |
+
|:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
317 |
+
| type | string | string | string |
|
318 |
+
| details | <ul><li>min: 29 tokens</li><li>mean: 107.48 tokens</li><li>max: 317 tokens</li></ul> | <ul><li>min: 30 tokens</li><li>mean: 103.39 tokens</li><li>max: 254 tokens</li></ul> | <ul><li>min: 27 tokens</li><li>mean: 88.36 tokens</li><li>max: 216 tokens</li></ul> |
|
319 |
+
* Samples:
|
320 |
+
| anchor | positive | negative |
|
321 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
322 |
+
| <code>Hormigonado para muro, con hormigón para armar con aditivo hidrófugo HA - 35 / F / 20 / XC4 + XF1 + XA3 con una cantidad de cemento de 350 kg/m3 i relación agua cemento =< 0.45, colocado con cubilote</code> | <code>Colocación de hormigón para muros, utilizando mezcla de hormigón con aditivo impermeabilizante HA - 35 / F / 20 / XC4 + XF1 + XA3, con una dosificación de cemento de 350 kg/m3 y una relación agua-cemento menor o igual a 0.45, vertido con cubilote.</code> | <code>Hormigonado para pavimento, utilizando mezcla de asfalto con aditivo antideslizante AC - 20 / B / 15 / XA2 + XF2 + XA1 con una cantidad de betún de 250 kg/m3 y relación betún agregado =< 0.50, aplicado con rodillo.</code> |
|
323 |
+
| <code>Pavimento de 20 cm de espesorhormigón con fibras HAF-30/A-3-3/F/12-60/IIb+F, tamaño máximo del árido 12 mm, con >= 325 kg/m3 de cemento y entre 30 y 35 kg/m3 de fibras de acero conformadas en extremos, apto para clase de exposición IIb+F, extendido con transporte interior mecánico eléctrico, tendido y vibrado mecánico, fratasado mecánico añadiendo 4 kg/m2 de polvo de cuarzo gris</code> | <code>Losa de hormigón de 20 cm de grosor, reforzada con fibras HAF-30/A-3-3/F/12-60/IIb+F, con un tamaño máximo de árido de 12 mm, que contiene al menos 325 kg/m3 de cemento y entre 30 y 35 kg/m3 de fibras de acero en los extremos, adecuada para la clase de exposición IIb+F, aplicada mediante transporte mecánico eléctrico, colocación y vibrado mecánico, y acabado mecánico con 4 kg/m2 de polvo de cuarzo gris.</code> | <code>Pavimento de 15 cm de espesor de asfalto modificado con polímeros, tamaño máximo del árido 10 mm, con >= 300 kg/m3 de betún y entre 25 y 30 kg/m3 de aditivos, apto para clase de exposición I, extendido con transporte manual, tendido y compactado manualmente, acabado con una capa de sellador.</code> |
|
324 |
+
| <code>Cable de fibra óptica para uso exterior, con 2 fibras de tipo monomodo de designación G.652.D, estructura interna multitubo (estructura holgada), relleno de gel hidrófugo, elemento de refuerzo de fibra de vidrio, con cubierta de polietileno, armadura metálica de protección anti-roedores, clase de reacción al fuego Eca según la norma UNE-EN 50575, instalado</code> | <code>Cable de fibra óptica exterior, compuesto por 2 fibras monomodo G.652.D, con diseño multitubo, relleno de gel resistente al agua, refuerzo de fibra de vidrio, revestido en polietileno y protegido con armadura metálica contra roedores, cumpliendo con la clase de reacción al fuego Eca según la norma UNE-EN 50575, instalado.</code> | <code>Cable de fibra óptica para uso interior, con 4 fibras de tipo multimodo de designación OM3, estructura interna de tubo único (estructura apretada), relleno de espuma, elemento de refuerzo de acero, con cubierta de PVC, sin armadura, clase de reacción al fuego B2ca según la norma UNE-EN 50575, en proceso de instalación.</code> |
|
325 |
+
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
326 |
+
```json
|
327 |
+
{
|
328 |
+
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
|
329 |
+
"triplet_margin": 0.5
|
330 |
+
}
|
331 |
+
```
|
332 |
+
|
333 |
+
### Training Hyperparameters
|
334 |
+
#### Non-Default Hyperparameters
|
335 |
+
|
336 |
+
- `eval_strategy`: steps
|
337 |
+
- `per_device_train_batch_size`: 6
|
338 |
+
- `per_device_eval_batch_size`: 6
|
339 |
+
- `learning_rate`: 2e-05
|
340 |
+
- `warmup_ratio`: 0.1
|
341 |
+
- `fp16`: True
|
342 |
+
- `load_best_model_at_end`: True
|
343 |
+
- `batch_sampler`: no_duplicates
|
344 |
+
|
345 |
+
#### All Hyperparameters
|
346 |
+
<details><summary>Click to expand</summary>
|
347 |
+
|
348 |
+
- `overwrite_output_dir`: False
|
349 |
+
- `do_predict`: False
|
350 |
+
- `eval_strategy`: steps
|
351 |
+
- `prediction_loss_only`: True
|
352 |
+
- `per_device_train_batch_size`: 6
|
353 |
+
- `per_device_eval_batch_size`: 6
|
354 |
+
- `per_gpu_train_batch_size`: None
|
355 |
+
- `per_gpu_eval_batch_size`: None
|
356 |
+
- `gradient_accumulation_steps`: 1
|
357 |
+
- `eval_accumulation_steps`: None
|
358 |
+
- `torch_empty_cache_steps`: None
|
359 |
+
- `learning_rate`: 2e-05
|
360 |
+
- `weight_decay`: 0.0
|
361 |
+
- `adam_beta1`: 0.9
|
362 |
+
- `adam_beta2`: 0.999
|
363 |
+
- `adam_epsilon`: 1e-08
|
364 |
+
- `max_grad_norm`: 1.0
|
365 |
+
- `num_train_epochs`: 3
|
366 |
+
- `max_steps`: -1
|
367 |
+
- `lr_scheduler_type`: linear
|
368 |
+
- `lr_scheduler_kwargs`: {}
|
369 |
+
- `warmup_ratio`: 0.1
|
370 |
+
- `warmup_steps`: 0
|
371 |
+
- `log_level`: passive
|
372 |
+
- `log_level_replica`: warning
|
373 |
+
- `log_on_each_node`: True
|
374 |
+
- `logging_nan_inf_filter`: True
|
375 |
+
- `save_safetensors`: True
|
376 |
+
- `save_on_each_node`: False
|
377 |
+
- `save_only_model`: False
|
378 |
+
- `restore_callback_states_from_checkpoint`: False
|
379 |
+
- `no_cuda`: False
|
380 |
+
- `use_cpu`: False
|
381 |
+
- `use_mps_device`: False
|
382 |
+
- `seed`: 42
|
383 |
+
- `data_seed`: None
|
384 |
+
- `jit_mode_eval`: False
|
385 |
+
- `use_ipex`: False
|
386 |
+
- `bf16`: False
|
387 |
+
- `fp16`: True
|
388 |
+
- `fp16_opt_level`: O1
|
389 |
+
- `half_precision_backend`: auto
|
390 |
+
- `bf16_full_eval`: False
|
391 |
+
- `fp16_full_eval`: False
|
392 |
+
- `tf32`: None
|
393 |
+
- `local_rank`: 0
|
394 |
+
- `ddp_backend`: None
|
395 |
+
- `tpu_num_cores`: None
|
396 |
+
- `tpu_metrics_debug`: False
|
397 |
+
- `debug`: []
|
398 |
+
- `dataloader_drop_last`: False
|
399 |
+
- `dataloader_num_workers`: 0
|
400 |
+
- `dataloader_prefetch_factor`: None
|
401 |
+
- `past_index`: -1
|
402 |
+
- `disable_tqdm`: False
|
403 |
+
- `remove_unused_columns`: True
|
404 |
+
- `label_names`: None
|
405 |
+
- `load_best_model_at_end`: True
|
406 |
+
- `ignore_data_skip`: False
|
407 |
+
- `fsdp`: []
|
408 |
+
- `fsdp_min_num_params`: 0
|
409 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
410 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
411 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
412 |
+
- `deepspeed`: None
|
413 |
+
- `label_smoothing_factor`: 0.0
|
414 |
+
- `optim`: adamw_torch
|
415 |
+
- `optim_args`: None
|
416 |
+
- `adafactor`: False
|
417 |
+
- `group_by_length`: False
|
418 |
+
- `length_column_name`: length
|
419 |
+
- `ddp_find_unused_parameters`: None
|
420 |
+
- `ddp_bucket_cap_mb`: None
|
421 |
+
- `ddp_broadcast_buffers`: False
|
422 |
+
- `dataloader_pin_memory`: True
|
423 |
+
- `dataloader_persistent_workers`: False
|
424 |
+
- `skip_memory_metrics`: True
|
425 |
+
- `use_legacy_prediction_loop`: False
|
426 |
+
- `push_to_hub`: False
|
427 |
+
- `resume_from_checkpoint`: None
|
428 |
+
- `hub_model_id`: None
|
429 |
+
- `hub_strategy`: every_save
|
430 |
+
- `hub_private_repo`: False
|
431 |
+
- `hub_always_push`: False
|
432 |
+
- `gradient_checkpointing`: False
|
433 |
+
- `gradient_checkpointing_kwargs`: None
|
434 |
+
- `include_inputs_for_metrics`: False
|
435 |
+
- `eval_do_concat_batches`: True
|
436 |
+
- `fp16_backend`: auto
|
437 |
+
- `push_to_hub_model_id`: None
|
438 |
+
- `push_to_hub_organization`: None
|
439 |
+
- `mp_parameters`:
|
440 |
+
- `auto_find_batch_size`: False
|
441 |
+
- `full_determinism`: False
|
442 |
+
- `torchdynamo`: None
|
443 |
+
- `ray_scope`: last
|
444 |
+
- `ddp_timeout`: 1800
|
445 |
+
- `torch_compile`: False
|
446 |
+
- `torch_compile_backend`: None
|
447 |
+
- `torch_compile_mode`: None
|
448 |
+
- `dispatch_batches`: None
|
449 |
+
- `split_batches`: None
|
450 |
+
- `include_tokens_per_second`: False
|
451 |
+
- `include_num_input_tokens_seen`: False
|
452 |
+
- `neftune_noise_alpha`: None
|
453 |
+
- `optim_target_modules`: None
|
454 |
+
- `batch_eval_metrics`: False
|
455 |
+
- `eval_on_start`: False
|
456 |
+
- `eval_use_gather_object`: False
|
457 |
+
- `batch_sampler`: no_duplicates
|
458 |
+
- `multi_dataset_batch_sampler`: proportional
|
459 |
+
|
460 |
+
</details>
|
461 |
+
|
462 |
+
### Training Logs
|
463 |
+
| Epoch | Step | Training Loss | Validation Loss | validation-set_max_accuracy |
|
464 |
+
|:----------:|:-------:|:-------------:|:---------------:|:---------------------------:|
|
465 |
+
| 0.8475 | 200 | 0.1416 | 0.0302 | 0.9943 |
|
466 |
+
| 1.6949 | 400 | 0.0148 | 0.0148 | 1.0 |
|
467 |
+
| **2.5424** | **600** | **0.0047** | **0.0127** | **1.0** |
|
468 |
+
| 3.0 | 708 | - | - | 1.0 |
|
469 |
+
|
470 |
+
* The bold row denotes the saved checkpoint.
|
471 |
+
|
472 |
+
### Framework Versions
|
473 |
+
- Python: 3.10.12
|
474 |
+
- Sentence Transformers: 3.2.0
|
475 |
+
- Transformers: 4.44.2
|
476 |
+
- PyTorch: 2.4.1+cu121
|
477 |
+
- Accelerate: 0.34.2
|
478 |
+
- Datasets: 3.0.1
|
479 |
+
- Tokenizers: 0.19.1
|
480 |
+
|
481 |
+
## Citation
|
482 |
+
|
483 |
+
### BibTeX
|
484 |
+
|
485 |
+
#### Sentence Transformers
|
486 |
+
```bibtex
|
487 |
+
@inproceedings{reimers-2019-sentence-bert,
|
488 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
489 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
490 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
491 |
+
month = "11",
|
492 |
+
year = "2019",
|
493 |
+
publisher = "Association for Computational Linguistics",
|
494 |
+
url = "https://arxiv.org/abs/1908.10084",
|
495 |
+
}
|
496 |
+
```
|
497 |
+
|
498 |
+
#### TripletLoss
|
499 |
+
```bibtex
|
500 |
+
@misc{hermans2017defense,
|
501 |
+
title={In Defense of the Triplet Loss for Person Re-Identification},
|
502 |
+
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
|
503 |
+
year={2017},
|
504 |
+
eprint={1703.07737},
|
505 |
+
archivePrefix={arXiv},
|
506 |
+
primaryClass={cs.CV}
|
507 |
+
}
|
508 |
+
```
|
509 |
+
|
510 |
+
<!--
|
511 |
+
## Glossary
|
512 |
+
|
513 |
+
*Clearly define terms in order to be accessible across audiences.*
|
514 |
+
-->
|
515 |
+
|
516 |
+
<!--
|
517 |
+
## Model Card Authors
|
518 |
+
|
519 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
520 |
+
-->
|
521 |
+
|
522 |
+
<!--
|
523 |
+
## Model Card Contact
|
524 |
+
|
525 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
526 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "intfloat/multilingual-e5-large",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 514,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.44.2",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.2.0",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.4.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:47518eaff76444b457ba85c392dc986eb97e3af8be1822978e832946c1126db8
|
3 |
+
size 2239607176
|
modules.json
ADDED
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
},
|
20 |
+
{
|
21 |
+
"idx": 3,
|
22 |
+
"name": "linear_adapter",
|
23 |
+
"path": "3_MyLinearAdapter",
|
24 |
+
"type": "__main__.MyLinearAdapter"
|
25 |
+
}
|
26 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,54 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"model_max_length": 512,
|
50 |
+
"pad_token": "<pad>",
|
51 |
+
"sep_token": "</s>",
|
52 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
53 |
+
"unk_token": "<unk>"
|
54 |
+
}
|