RamsesDIIP commited on
Commit
c1ea4c9
·
verified ·
1 Parent(s): a88f30d

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
3_MyLinearAdapter/adapter_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4caf14b18c44b4138b49e462408d6d7e298a66fb50f3401a41f0fbd814d30998
3
+ size 4199996
README.md ADDED
@@ -0,0 +1,526 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-large
3
+ language:
4
+ - multilingual
5
+ library_name: sentence-transformers
6
+ license: apache-2.0
7
+ metrics:
8
+ - cosine_accuracy
9
+ - dot_accuracy
10
+ - manhattan_accuracy
11
+ - euclidean_accuracy
12
+ - max_accuracy
13
+ pipeline_tag: sentence-similarity
14
+ tags:
15
+ - sentence-transformers
16
+ - sentence-similarity
17
+ - feature-extraction
18
+ - generated_from_trainer
19
+ - dataset_size:1412
20
+ - loss:TripletLoss
21
+ widget:
22
+ - source_sentence: Hormigonado para muro, con hormigón para armar autocompactante
23
+ con aditivo hidrófugo HA - 40 / AC / 20 / XC4 con una cantidad de cemento de 350
24
+ kg/m3 i relación agua cemento =< 0.45, colocado con cubilote
25
+ sentences:
26
+ - Elemento de hormigón recto para bordillos tipo T2, con doble capa y dimensiones
27
+ estandarizadas de calzada C5 25x15 cm, conforme a la norma UNE 127340, clasificado
28
+ para clima B, resistencia a la abrasión H y resistencia a flexión T (R-5 MPa)
29
+ según UNE-EN 1340, instalado sobre una base de hormigón no estructural HNE-15/P/40
30
+ de 10 a 20 cm de altura, y sellado con mortero para albañilería, en un entorno
31
+ urbano accesible, en aceras de más de 3 y hasta 5 m de ancho o calzada/plataforma
32
+ única de más de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario
33
+ urbano, en proyectos de 1 a 10 m.
34
+ - Colocación de hormigón autocompactante para muros, utilizando un aditivo hidrófugo
35
+ HA - 40 / AC / 20 / XC4, con una dosificación de 350 kg/m3 de cemento y una relación
36
+ agua-cemento menor o igual a 0.45, aplicado con cubilote.
37
+ - Hormigonado para pavimento, utilizando hormigón convencional con aditivo retardante
38
+ de fraguado, con una cantidad de cemento de 300 kg/m3 y relación agua-cemento
39
+ =< 0.50, aplicado con bomba de presión.
40
+ - source_sentence: Placa informativa para señales de tráfico de acero galvanizado
41
+ y pintado, de 60x60 cm, acabada con lámina retrorreflectante clase RA3, fijada
42
+ mecánicamente, en entorno urbano sin dificultad de movilidad, en aceras > 3 y
43
+ <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación
44
+ por servicios o elementos de mobiliario urbano, en actuaciones de 1 a 5 u
45
+ sentences:
46
+ - Base de concreto (CE, EHE) de tipo HM-20/P / 40 / I con consistencia plástica,
47
+ tamaño máximo del agregado de 40 mm, conteniendo >= 200 kg/m3 de cemento, adecuada
48
+ para clase de exposición I, vertido mediante transporte mecánico interno y acabado
49
+ manual con vibrado, en un entorno urbano con movilidad restringida, en aceras
50
+ de más de 5 m de ancho o calzadas/plataformas únicas de más de 12 m de ancho,
51
+ afectada por servicios o elementos de mobiliario urbano, en proyectos de entre
52
+ 0.2 y 2 m3, utilizando un dúmper eléctrico.
53
+ - Placa de señalización para obras de construcción de aluminio anodizado y sin pintar,
54
+ de 80x80 cm, con acabado mate, fijada con adhesivo, en áreas rurales con acceso
55
+ restringido, en caminos de tierra > 2 y <= 4 m de ancho o senderos > 5 y <= 10
56
+ m de ancho, con interferencia por vegetación o estructuras temporales, en proyectos
57
+ de 6 a 10 u.
58
+ - Panel informativo para señales de tráfico fabricado en acero galvanizado y pintado,
59
+ con dimensiones de 60x60 cm, terminado con lámina retrorreflectante de clase RA3,
60
+ instalado de manera mecánica, en un entorno urbano accesible, en aceras de más
61
+ de 3 y hasta 5 metros de ancho o en calzadas/plataformas únicas de más de 7 y
62
+ hasta 12 metros de ancho, sin interferencias de servicios o mobiliario urbano,
63
+ en proyectos de 1 a 5 unidades.
64
+ - source_sentence: Placa de orientación o situación para señales de tráfico, de acero
65
+ galvanizado y pintado, de 30x70 cm, acabada con lámina retrorreflectante clase
66
+ RA1, fijada mecánicamente, en entorno urbano sin dificultad de movilidad, en aceras
67
+ <= 3 m de ancho o calzada/plataforma única <= 7 m de ancho, con afectación por
68
+ servicios o elementos de mobiliario urbano, en actuaciones de más de 5 u
69
+ sentences:
70
+ - Placa de identificación para instalaciones eléctricas, de aluminio anodizado y
71
+ sin pintura, de 40x80 cm, acabada con lámina opaca, fijada con adhesivo, en entorno
72
+ rural con acceso restringido, en caminos <= 2 m de ancho o terrenos no pavimentados
73
+ <= 5 m de ancho, sin interferencia de servicios o elementos de señalización, en
74
+ proyectos de menos de 10 unidades.
75
+ - Tubería de polietileno de alta densidad PE 100, de 900 mm de diámetro, con una
76
+ presión nominal de 6 bar, serie SDR 26, conforme a la norma UNE-EN 12201-2, soldada
77
+ y ubicada en el fondo de la zanja, en un entorno urbano con acceso fácil, en aceras
78
+ de hasta 3 m de ancho o calzadas de hasta 7 m de ancho, sin interferencias de
79
+ servicios o mobiliario urbano, en tramos de 1 a 10 m.
80
+ - Panel informativo de dirección para señalización vial, fabricado en acero galvanizado
81
+ y pintado, con dimensiones de 30x70 cm, recubierto con lámina retrorreflectante
82
+ clase RA1, instalado de forma mecánica, en áreas urbanas con accesibilidad adecuada,
83
+ en aceras de hasta 3 m de ancho o en calzadas/plataformas de hasta 7 m de ancho,
84
+ considerando la interferencia de servicios o mobiliario urbano, en proyectos que
85
+ superen las 5 unidades.
86
+ - source_sentence: Bordillo drenante de piezas de hormigón polímero con canal interior,
87
+ monobloque de 150x450 a 550 mm, colocado sobre base de hormigón no estructural
88
+ de 15 N/mm2 de resistencia minima a compresión de 30 a 35 cm de altura, y rejuntado
89
+ con mortero, en entorno urbano con dificultad de mobilidad, en aceras <= 3 m de
90
+ ancho o calzada/plataforma única <= 7 m de ancho, con afectación por servicios
91
+ o elementos de mobiliario urbano, en actuaciones de más de100 m
92
+ sentences:
93
+ - Puerta de doble hoja abatible de madera para interiores, con un grosor de 35 mm,
94
+ dimensiones de paso de 70 + 40 cm de ancho y 200 cm de alto, diseñada para un
95
+ marco de hasta 10 cm de espesor, en acabado de roble lacado, con paneles de aglomerado
96
+ hidrófugo, molduras y tapajuntas de MDF, burlete de goma, herrajes de suspensión,
97
+ cerradura de resbalón, y manillas de acero inoxidable 1.4301 (AISI 304), con placa
98
+ pequeña, de gama alta.
99
+ - Bordillo de hormigón polímero con drenaje, de dimensiones monobloque de 150x450
100
+ a 550 mm, instalado sobre una base de hormigón no estructural con una resistencia
101
+ mínima a compresión de 15 N/mm2, con una altura de 30 a 35 cm, y sellado con mortero,
102
+ en áreas urbanas con movilidad restringida, en aceras de hasta 3 m de ancho o
103
+ en calzadas/plataformas de hasta 7 m de ancho, considerando la interferencia de
104
+ servicios o mobiliario urbano, en proyectos que superen los 100 m.
105
+ - Bordillo decorativo de cerámica esmaltada con diseño ornamental, de 120x300 a
106
+ 400 mm, instalado sobre una base de grava compactada de 10 N/mm2 de resistencia
107
+ mínima, con una altura de 20 a 25 cm, y sellado con silicona, en un entorno rural
108
+ con fácil acceso, en caminos <= 2 m de ancho o senderos <= 5 m de ancho, sin interferencias
109
+ por servicios o elementos de paisajismo, en proyectos de menos de 50 m.
110
+ - source_sentence: Pavimento de loseta para paso de peatones de color con tacos de
111
+ 20x20x4 cm, colocado a pique de maceta con mortero mixto 1:2:10 y lechada de color
112
+ con cemento blanco de albañilería, en entorno urbano sin dificultad de movilidad,
113
+ en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho,
114
+ sin afectación por servicios o elementos de mobiliario urbano, en actuaciones
115
+ de 1 a 10 m2
116
+ sentences:
117
+ - Pavimento de loseta para áreas recreativas de color con tacos de 30x30x5 cm, instalado
118
+ a nivel de césped con mortero de alta resistencia y lechada de color con cemento
119
+ gris, en entorno rural con acceso restringido, en senderos > 2 y <= 4 m de ancho
120
+ o caminos de tierra > 5 y <= 10 m de ancho, con afectación por servicios de jardinería
121
+ y elementos decorativos, en proyectos de 5 a 15 m2.
122
+ - Revestimiento de pared interior a una altura máxima de 3 metros utilizando baldosas
123
+ de gres porcelánico pulido en formato rectangular o cuadrado, con una densidad
124
+ de 76 a 115 piezas por metro cuadrado, en un rango de precio medio, grupo BIa
125
+ (UNE-EN 14411), instaladas con adhesivo para cerámica C2 (UNE-EN 12004) y selladas
126
+ con lechada CG2 (UNE-EN 13888).
127
+ - Pavimento de baldosas para zonas peatonales de color, con piezas de 20x20x4 cm,
128
+ instalado a nivel de la maceta utilizando mortero en proporción 1:2:10 y lechada
129
+ de color con cemento blanco, en un área urbana con accesibilidad adecuada, en
130
+ aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más
131
+ de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano,
132
+ en proyectos de entre 1 y 10 m2.
133
+ model-index:
134
+ - name: Multilingual E5 Large with Linear Adapter for Construction Terms
135
+ results:
136
+ - task:
137
+ type: triplet
138
+ name: Triplet
139
+ dataset:
140
+ name: validation set
141
+ type: validation-set
142
+ metrics:
143
+ - type: cosine_accuracy
144
+ value: 1.0
145
+ name: Cosine Accuracy
146
+ - type: dot_accuracy
147
+ value: 0.005681818181818182
148
+ name: Dot Accuracy
149
+ - type: manhattan_accuracy
150
+ value: 1.0
151
+ name: Manhattan Accuracy
152
+ - type: euclidean_accuracy
153
+ value: 1.0
154
+ name: Euclidean Accuracy
155
+ - type: max_accuracy
156
+ value: 1.0
157
+ name: Max Accuracy
158
+ ---
159
+
160
+ # Multilingual E5 Large with Linear Adapter for Construction Terms
161
+
162
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
163
+
164
+ ## Model Details
165
+
166
+ ### Model Description
167
+ - **Model Type:** Sentence Transformer
168
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision ab10c1a7f42e74530fe7ae5be82e6d4f11a719eb -->
169
+ - **Maximum Sequence Length:** 512 tokens
170
+ - **Output Dimensionality:** 1024 tokens
171
+ - **Similarity Function:** Cosine Similarity
172
+ <!-- - **Training Dataset:** Unknown -->
173
+ - **Language:** multilingual
174
+ - **License:** apache-2.0
175
+
176
+ ### Model Sources
177
+
178
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
179
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
180
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
181
+
182
+ ### Full Model Architecture
183
+
184
+ ```
185
+ SentenceTransformer(
186
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
187
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
188
+ (2): Normalize()
189
+ (linear_adapter): MyLinearAdapter(
190
+ (linear): Linear(in_features=1024, out_features=1024, bias=True)
191
+ )
192
+ )
193
+ ```
194
+
195
+ ## Usage
196
+
197
+ ### Direct Usage (Sentence Transformers)
198
+
199
+ First install the Sentence Transformers library:
200
+
201
+ ```bash
202
+ pip install -U sentence-transformers
203
+ ```
204
+
205
+ Then you can load this model and run inference.
206
+ ```python
207
+ from sentence_transformers import SentenceTransformer
208
+
209
+ # Download from the 🤗 Hub
210
+ model = SentenceTransformer("RamsesDIIP/me5-large-construction-adapter-v2")
211
+ # Run inference
212
+ sentences = [
213
+ 'Pavimento de loseta para paso de peatones de color con tacos de 20x20x4 cm, colocado a pique de maceta con mortero mixto 1:2:10 y lechada de color con cemento blanco de albañilería, en entorno urbano sin dificultad de movilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación por servicios o elementos de mobiliario urbano, en actuaciones de 1 a 10 m2',
214
+ 'Pavimento de baldosas para zonas peatonales de color, con piezas de 20x20x4 cm, instalado a nivel de la maceta utilizando mortero en proporción 1:2:10 y lechada de color con cemento blanco, en un área urbana con accesibilidad adecuada, en aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano, en proyectos de entre 1 y 10 m2.',
215
+ 'Pavimento de loseta para áreas recreativas de color con tacos de 30x30x5 cm, instalado a nivel de césped con mortero de alta resistencia y lechada de color con cemento gris, en entorno rural con acceso restringido, en senderos > 2 y <= 4 m de ancho o caminos de tierra > 5 y <= 10 m de ancho, con afectación por servicios de jardinería y elementos decorativos, en proyectos de 5 a 15 m2.',
216
+ ]
217
+ embeddings = model.encode(sentences)
218
+ print(embeddings.shape)
219
+ # [3, 1024]
220
+
221
+ # Get the similarity scores for the embeddings
222
+ similarities = model.similarity(embeddings, embeddings)
223
+ print(similarities.shape)
224
+ # [3, 3]
225
+ ```
226
+
227
+ <!--
228
+ ### Direct Usage (Transformers)
229
+
230
+ <details><summary>Click to see the direct usage in Transformers</summary>
231
+
232
+ </details>
233
+ -->
234
+
235
+ <!--
236
+ ### Downstream Usage (Sentence Transformers)
237
+
238
+ You can finetune this model on your own dataset.
239
+
240
+ <details><summary>Click to expand</summary>
241
+
242
+ </details>
243
+ -->
244
+
245
+ <!--
246
+ ### Out-of-Scope Use
247
+
248
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
249
+ -->
250
+
251
+ ## Evaluation
252
+
253
+ ### Metrics
254
+
255
+ #### Triplet
256
+ * Dataset: `validation-set`
257
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
258
+
259
+ | Metric | Value |
260
+ |:-------------------|:--------|
261
+ | cosine_accuracy | 1.0 |
262
+ | dot_accuracy | 0.0057 |
263
+ | manhattan_accuracy | 1.0 |
264
+ | euclidean_accuracy | 1.0 |
265
+ | **max_accuracy** | **1.0** |
266
+
267
+ <!--
268
+ ## Bias, Risks and Limitations
269
+
270
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
271
+ -->
272
+
273
+ <!--
274
+ ### Recommendations
275
+
276
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
277
+ -->
278
+
279
+ ## Training Details
280
+
281
+ ### Training Dataset
282
+
283
+ #### Unnamed Dataset
284
+
285
+
286
+ * Size: 1,412 training samples
287
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
288
+ * Approximate statistics based on the first 1000 samples:
289
+ | | anchor | positive | negative |
290
+ |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
291
+ | type | string | string | string |
292
+ | details | <ul><li>min: 25 tokens</li><li>mean: 106.15 tokens</li><li>max: 317 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 102.11 tokens</li><li>max: 282 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 86.67 tokens</li><li>max: 265 tokens</li></ul> |
293
+ * Samples:
294
+ | anchor | positive | negative |
295
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
296
+ | <code>Valla de brezo con puntas recortadas, de calidad extra nacional, de 130 cm de altura, colocada con grapas sobre valla existente accesible desde el suelo, en entorno urbano con dificultad de mobilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación por servicios o elementos de mobiliario urbano, en actuaciones de más de100 m</code> | <code>Cerca de brezo de calidad superior, de 130 cm de altura, instalada con grapas sobre una valla ya existente, en un área urbana con limitaciones de movilidad, en aceras de entre 3 y 5 m de ancho o en calzadas de 7 a 12 m de ancho, sin interferencias de servicios o mobiliario urbano, en proyectos que superen los 100 m.</code> | <code>Valla de madera tratada, de 150 cm de altura, instalada con tornillos sobre una base de hormigón, en un entorno rural con fácil acceso, en caminos de más de 5 m de ancho, sin interferencias de vegetación o estructuras cercanas, en proyectos de menos de 50 m.</code> |
297
+ | <code>De zanjas y pozos de cimentación, con hormigón autocompactante HA - 35 / AC - E1 / 12 / IIa + Qb, tamaño máximo del árido 12 mm, con >= 350 kg/m3 de cemento, aditivo superplastificante, apto para clase de exposición IIa+Qb, colocado desde camión</code> | <code>Excavación de cimientos y pozos, utilizando hormigón autocompactante HA - 35 / AC - E1 / 12 / IIa + Qb, con un tamaño máximo de árido de 12 mm, conteniendo al menos 350 kg/m3 de cemento y un aditivo superplastificante, adecuado para la clase de exposición IIa+Qb, vertido directamente desde el camión.</code> | <code>De zanjas y pozos de cimentación, con hormigón convencional de resistencia 25 MPa, tamaño máximo del árido 20 mm, con 250 kg/m3 de cemento, sin aditivos, apto para clase de exposición I, colocado manualmente.</code> |
298
+ | <code>Pavimento de losa de hormigón para pavimentos de 40x40 cm y 7 cm de espesor, de forma cuadrado, textura rugosa, precio superior, sobre lecho de arena de 3 cm de espesor, con relleno de juntas con arena fina y compactación del pavimento acabado</code> | <code>Losas de concreto de 40x40 cm y 7 cm de grosor, con superficie rugosa, instaladas sobre una base de arena de 3 cm, con juntas rellenadas con arena fina y compactación final del pavimento.</code> | <code>Pavimento de cerámica para baldosas de 30x30 cm y 1 cm de espesor, de forma rectangular, textura lisa, precio inferior, sobre base de grava de 5 cm de espesor, con sellado de juntas con silicona y acabado pulido del suelo.</code> |
299
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
300
+ ```json
301
+ {
302
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
303
+ "triplet_margin": 0.5
304
+ }
305
+ ```
306
+
307
+ ### Evaluation Dataset
308
+
309
+ #### Unnamed Dataset
310
+
311
+
312
+ * Size: 176 evaluation samples
313
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
314
+ * Approximate statistics based on the first 176 samples:
315
+ | | anchor | positive | negative |
316
+ |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
317
+ | type | string | string | string |
318
+ | details | <ul><li>min: 29 tokens</li><li>mean: 107.48 tokens</li><li>max: 317 tokens</li></ul> | <ul><li>min: 30 tokens</li><li>mean: 103.39 tokens</li><li>max: 254 tokens</li></ul> | <ul><li>min: 27 tokens</li><li>mean: 88.36 tokens</li><li>max: 216 tokens</li></ul> |
319
+ * Samples:
320
+ | anchor | positive | negative |
321
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
322
+ | <code>Hormigonado para muro, con hormigón para armar con aditivo hidrófugo HA - 35 / F / 20 / XC4 + XF1 + XA3 con una cantidad de cemento de 350 kg/m3 i relación agua cemento =< 0.45, colocado con cubilote</code> | <code>Colocación de hormigón para muros, utilizando mezcla de hormigón con aditivo impermeabilizante HA - 35 / F / 20 / XC4 + XF1 + XA3, con una dosificación de cemento de 350 kg/m3 y una relación agua-cemento menor o igual a 0.45, vertido con cubilote.</code> | <code>Hormigonado para pavimento, utilizando mezcla de asfalto con aditivo antideslizante AC - 20 / B / 15 / XA2 + XF2 + XA1 con una cantidad de betún de 250 kg/m3 y relación betún agregado =< 0.50, aplicado con rodillo.</code> |
323
+ | <code>Pavimento de 20 cm de espesorhormigón con fibras HAF-30/A-3-3/F/12-60/IIb+F, tamaño máximo del árido 12 mm, con >= 325 kg/m3 de cemento y entre 30 y 35 kg/m3 de fibras de acero conformadas en extremos, apto para clase de exposición IIb+F, extendido con transporte interior mecánico eléctrico, tendido y vibrado mecánico, fratasado mecánico añadiendo 4 kg/m2 de polvo de cuarzo gris</code> | <code>Losa de hormigón de 20 cm de grosor, reforzada con fibras HAF-30/A-3-3/F/12-60/IIb+F, con un tamaño máximo de árido de 12 mm, que contiene al menos 325 kg/m3 de cemento y entre 30 y 35 kg/m3 de fibras de acero en los extremos, adecuada para la clase de exposición IIb+F, aplicada mediante transporte mecánico eléctrico, colocación y vibrado mecánico, y acabado mecánico con 4 kg/m2 de polvo de cuarzo gris.</code> | <code>Pavimento de 15 cm de espesor de asfalto modificado con polímeros, tamaño máximo del árido 10 mm, con >= 300 kg/m3 de betún y entre 25 y 30 kg/m3 de aditivos, apto para clase de exposición I, extendido con transporte manual, tendido y compactado manualmente, acabado con una capa de sellador.</code> |
324
+ | <code>Cable de fibra óptica para uso exterior, con 2 fibras de tipo monomodo de designación G.652.D, estructura interna multitubo (estructura holgada), relleno de gel hidrófugo, elemento de refuerzo de fibra de vidrio, con cubierta de polietileno, armadura metálica de protección anti-roedores, clase de reacción al fuego Eca según la norma UNE-EN 50575, instalado</code> | <code>Cable de fibra óptica exterior, compuesto por 2 fibras monomodo G.652.D, con diseño multitubo, relleno de gel resistente al agua, refuerzo de fibra de vidrio, revestido en polietileno y protegido con armadura metálica contra roedores, cumpliendo con la clase de reacción al fuego Eca según la norma UNE-EN 50575, instalado.</code> | <code>Cable de fibra óptica para uso interior, con 4 fibras de tipo multimodo de designación OM3, estructura interna de tubo único (estructura apretada), relleno de espuma, elemento de refuerzo de acero, con cubierta de PVC, sin armadura, clase de reacción al fuego B2ca según la norma UNE-EN 50575, en proceso de instalación.</code> |
325
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
326
+ ```json
327
+ {
328
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
329
+ "triplet_margin": 0.5
330
+ }
331
+ ```
332
+
333
+ ### Training Hyperparameters
334
+ #### Non-Default Hyperparameters
335
+
336
+ - `eval_strategy`: steps
337
+ - `per_device_train_batch_size`: 6
338
+ - `per_device_eval_batch_size`: 6
339
+ - `learning_rate`: 2e-05
340
+ - `warmup_ratio`: 0.1
341
+ - `fp16`: True
342
+ - `load_best_model_at_end`: True
343
+ - `batch_sampler`: no_duplicates
344
+
345
+ #### All Hyperparameters
346
+ <details><summary>Click to expand</summary>
347
+
348
+ - `overwrite_output_dir`: False
349
+ - `do_predict`: False
350
+ - `eval_strategy`: steps
351
+ - `prediction_loss_only`: True
352
+ - `per_device_train_batch_size`: 6
353
+ - `per_device_eval_batch_size`: 6
354
+ - `per_gpu_train_batch_size`: None
355
+ - `per_gpu_eval_batch_size`: None
356
+ - `gradient_accumulation_steps`: 1
357
+ - `eval_accumulation_steps`: None
358
+ - `torch_empty_cache_steps`: None
359
+ - `learning_rate`: 2e-05
360
+ - `weight_decay`: 0.0
361
+ - `adam_beta1`: 0.9
362
+ - `adam_beta2`: 0.999
363
+ - `adam_epsilon`: 1e-08
364
+ - `max_grad_norm`: 1.0
365
+ - `num_train_epochs`: 3
366
+ - `max_steps`: -1
367
+ - `lr_scheduler_type`: linear
368
+ - `lr_scheduler_kwargs`: {}
369
+ - `warmup_ratio`: 0.1
370
+ - `warmup_steps`: 0
371
+ - `log_level`: passive
372
+ - `log_level_replica`: warning
373
+ - `log_on_each_node`: True
374
+ - `logging_nan_inf_filter`: True
375
+ - `save_safetensors`: True
376
+ - `save_on_each_node`: False
377
+ - `save_only_model`: False
378
+ - `restore_callback_states_from_checkpoint`: False
379
+ - `no_cuda`: False
380
+ - `use_cpu`: False
381
+ - `use_mps_device`: False
382
+ - `seed`: 42
383
+ - `data_seed`: None
384
+ - `jit_mode_eval`: False
385
+ - `use_ipex`: False
386
+ - `bf16`: False
387
+ - `fp16`: True
388
+ - `fp16_opt_level`: O1
389
+ - `half_precision_backend`: auto
390
+ - `bf16_full_eval`: False
391
+ - `fp16_full_eval`: False
392
+ - `tf32`: None
393
+ - `local_rank`: 0
394
+ - `ddp_backend`: None
395
+ - `tpu_num_cores`: None
396
+ - `tpu_metrics_debug`: False
397
+ - `debug`: []
398
+ - `dataloader_drop_last`: False
399
+ - `dataloader_num_workers`: 0
400
+ - `dataloader_prefetch_factor`: None
401
+ - `past_index`: -1
402
+ - `disable_tqdm`: False
403
+ - `remove_unused_columns`: True
404
+ - `label_names`: None
405
+ - `load_best_model_at_end`: True
406
+ - `ignore_data_skip`: False
407
+ - `fsdp`: []
408
+ - `fsdp_min_num_params`: 0
409
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
410
+ - `fsdp_transformer_layer_cls_to_wrap`: None
411
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
412
+ - `deepspeed`: None
413
+ - `label_smoothing_factor`: 0.0
414
+ - `optim`: adamw_torch
415
+ - `optim_args`: None
416
+ - `adafactor`: False
417
+ - `group_by_length`: False
418
+ - `length_column_name`: length
419
+ - `ddp_find_unused_parameters`: None
420
+ - `ddp_bucket_cap_mb`: None
421
+ - `ddp_broadcast_buffers`: False
422
+ - `dataloader_pin_memory`: True
423
+ - `dataloader_persistent_workers`: False
424
+ - `skip_memory_metrics`: True
425
+ - `use_legacy_prediction_loop`: False
426
+ - `push_to_hub`: False
427
+ - `resume_from_checkpoint`: None
428
+ - `hub_model_id`: None
429
+ - `hub_strategy`: every_save
430
+ - `hub_private_repo`: False
431
+ - `hub_always_push`: False
432
+ - `gradient_checkpointing`: False
433
+ - `gradient_checkpointing_kwargs`: None
434
+ - `include_inputs_for_metrics`: False
435
+ - `eval_do_concat_batches`: True
436
+ - `fp16_backend`: auto
437
+ - `push_to_hub_model_id`: None
438
+ - `push_to_hub_organization`: None
439
+ - `mp_parameters`:
440
+ - `auto_find_batch_size`: False
441
+ - `full_determinism`: False
442
+ - `torchdynamo`: None
443
+ - `ray_scope`: last
444
+ - `ddp_timeout`: 1800
445
+ - `torch_compile`: False
446
+ - `torch_compile_backend`: None
447
+ - `torch_compile_mode`: None
448
+ - `dispatch_batches`: None
449
+ - `split_batches`: None
450
+ - `include_tokens_per_second`: False
451
+ - `include_num_input_tokens_seen`: False
452
+ - `neftune_noise_alpha`: None
453
+ - `optim_target_modules`: None
454
+ - `batch_eval_metrics`: False
455
+ - `eval_on_start`: False
456
+ - `eval_use_gather_object`: False
457
+ - `batch_sampler`: no_duplicates
458
+ - `multi_dataset_batch_sampler`: proportional
459
+
460
+ </details>
461
+
462
+ ### Training Logs
463
+ | Epoch | Step | Training Loss | Validation Loss | validation-set_max_accuracy |
464
+ |:----------:|:-------:|:-------------:|:---------------:|:---------------------------:|
465
+ | 0.8475 | 200 | 0.1416 | 0.0302 | 0.9943 |
466
+ | 1.6949 | 400 | 0.0148 | 0.0148 | 1.0 |
467
+ | **2.5424** | **600** | **0.0047** | **0.0127** | **1.0** |
468
+ | 3.0 | 708 | - | - | 1.0 |
469
+
470
+ * The bold row denotes the saved checkpoint.
471
+
472
+ ### Framework Versions
473
+ - Python: 3.10.12
474
+ - Sentence Transformers: 3.2.0
475
+ - Transformers: 4.44.2
476
+ - PyTorch: 2.4.1+cu121
477
+ - Accelerate: 0.34.2
478
+ - Datasets: 3.0.1
479
+ - Tokenizers: 0.19.1
480
+
481
+ ## Citation
482
+
483
+ ### BibTeX
484
+
485
+ #### Sentence Transformers
486
+ ```bibtex
487
+ @inproceedings{reimers-2019-sentence-bert,
488
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
489
+ author = "Reimers, Nils and Gurevych, Iryna",
490
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
491
+ month = "11",
492
+ year = "2019",
493
+ publisher = "Association for Computational Linguistics",
494
+ url = "https://arxiv.org/abs/1908.10084",
495
+ }
496
+ ```
497
+
498
+ #### TripletLoss
499
+ ```bibtex
500
+ @misc{hermans2017defense,
501
+ title={In Defense of the Triplet Loss for Person Re-Identification},
502
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
503
+ year={2017},
504
+ eprint={1703.07737},
505
+ archivePrefix={arXiv},
506
+ primaryClass={cs.CV}
507
+ }
508
+ ```
509
+
510
+ <!--
511
+ ## Glossary
512
+
513
+ *Clearly define terms in order to be accessible across audiences.*
514
+ -->
515
+
516
+ <!--
517
+ ## Model Card Authors
518
+
519
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
520
+ -->
521
+
522
+ <!--
523
+ ## Model Card Contact
524
+
525
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
526
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-large",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.0",
4
+ "transformers": "4.44.2",
5
+ "pytorch": "2.4.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:47518eaff76444b457ba85c392dc986eb97e3af8be1822978e832946c1126db8
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ },
20
+ {
21
+ "idx": 3,
22
+ "name": "linear_adapter",
23
+ "path": "3_MyLinearAdapter",
24
+ "type": "__main__.MyLinearAdapter"
25
+ }
26
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }