louisbrulenaudet commited on
Commit
d633914
1 Parent(s): 5ba89e6

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,671 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-base
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy@1
6
+ - cosine_accuracy@3
7
+ - cosine_accuracy@5
8
+ - cosine_accuracy@10
9
+ - cosine_precision@1
10
+ - cosine_precision@3
11
+ - cosine_precision@5
12
+ - cosine_precision@10
13
+ - cosine_recall@1
14
+ - cosine_recall@3
15
+ - cosine_recall@5
16
+ - cosine_recall@10
17
+ - cosine_ndcg@10
18
+ - cosine_mrr@10
19
+ - cosine_map@100
20
+ - dot_accuracy@1
21
+ - dot_accuracy@3
22
+ - dot_accuracy@5
23
+ - dot_accuracy@10
24
+ - dot_precision@1
25
+ - dot_precision@3
26
+ - dot_precision@5
27
+ - dot_precision@10
28
+ - dot_recall@1
29
+ - dot_recall@3
30
+ - dot_recall@5
31
+ - dot_recall@10
32
+ - dot_ndcg@10
33
+ - dot_mrr@10
34
+ - dot_map@100
35
+ pipeline_tag: sentence-similarity
36
+ tags:
37
+ - sentence-transformers
38
+ - sentence-similarity
39
+ - feature-extraction
40
+ - generated_from_trainer
41
+ - dataset_size:296234
42
+ - loss:CachedGISTEmbedLoss
43
+ widget:
44
+ - source_sentence: 'query: Commentez les dispositions de l''article L. 643-9 et de
45
+ l''article L. 643-13 du Code de commerce, telles que modifiées par l''ordonnance
46
+ n° 2014-326 du 12 mars 2014.'
47
+ sentences:
48
+ - 'passage: Conformément aux dispositions de l''article 344 O de l''annexe III du
49
+ Code général des impôts, toute déclaration relative au deuxième alinéa de l''article
50
+ 1635 quater P du même code, concernant la situation des biens immobiliers, doit
51
+ impérativement être transmise par voie électronique auprès du service des impôts
52
+ compétent. Cette déclaration inclura les informations requises listées du 1° au
53
+ 6° de l''article 344 N.'
54
+ - 'passage: Les formes et le délai de présentation de la demande de renseignements
55
+ prévue au I de l''article L. 145 A ainsi que les conséquences attachées à leur
56
+ respect sont régis conformément aux dispositions de l''article R. 611-12 du Code
57
+ de commerce.'
58
+ - 'passage: Les dispositions de l''ordonnance n° 2014-326 du 12 mars 2014 apportent
59
+ des ajustements spécifiques à certains articles du Code de commerce, véritable
60
+ pierre angulaire de la législation régissant les procédures collectives en France.
61
+ En particulier, l''article L. 643-9 connait une modificaton dans le cadre de la
62
+ gestion de la liquidation judiciaire et de sa clôture pour insuffisance d''actif,
63
+ impliquant ainsi des conditions plus précises quant à l''appréciation de la capacité
64
+ à satisfaire l''intégralité du passif par les actifs disponibles. Parallèlement,
65
+ l''article L. 643-13 procède à encadrer les conditions de reprise de la procédure
66
+ de liquidation judiciaire, offrant ainsi un cadre légal actualisé pour les cas
67
+ où la liquidation précédemment clôturée pourrait être réouverte. Ces modifications,
68
+ qui s''appliquent rétroactivement aux procédures antérieurement engagées, traduisent
69
+ une volonté législative de réconcilier les impératifs d''efficacité et de justice
70
+ au sein du traitement des situations d''insolvabilité, assurant ainsi un équilibre
71
+ entre les intérêts des créanciers et ceux de l''entreprise débitrice.'
72
+ - source_sentence: 'query: Analyser le cadre réglementaire défini par l''article D.
73
+ 112-3 du Code monétaire et financier concernant les plafonds de paiement en espèces
74
+ par les débiteurs ayant leur domicile fiscal en France.'
75
+ sentences:
76
+ - 'passage: Quelles sont les conséquences, sur l''obligation fiscale d''une personne
77
+ physique résidente en France, de la détention directe ou indirecte de parts dans
78
+ une entité étrangère qui est soumise à un régime fiscal privilégié, et ce, en
79
+ relation avec les dispositions de l''article 123 bis du Code général des impôts
80
+ concernant l''assimilation de ces bénéfices à des revenus de capitaux mobiliers
81
+ ?'
82
+ - 'passage: Conformément aux dispositions de l''article D. 112-3 du Code monétaire
83
+ et financier, le débiteur résidant fiscalement en France est astreint à une limitation
84
+ de paiement en espèces à hauteur de 1 000 euros. Cette mesure vise à encadrer
85
+ les transactions et à réduire les risques associés à la fraude fiscale. Tout montant
86
+ supérieur à ce plafond devra, de ce fait, être réglé par d''autres moyens de paiement
87
+ tels que chèque barré, virement ou carte de paiement.'
88
+ - 'passage: Le Bulletin officiel des finances publiques-impôts (Bofip) dans son
89
+ document BOI-REC-SOLID-30-10 précise la procédure d''exercice de l''action paulienne.
90
+ L''action paulienne se caractérise par une phase préalable consistant à administrer
91
+ des preuves relatives à la créance et au préjudice subi, ainsi qu''à la complicité
92
+ entre le débiteur et les tiers acquéreurs. Par ailleurs, le juge est appelé à
93
+ se positionner à la date de l''acte litigieux pour apprécier l''éventuelle fraude
94
+ commise par le débiteur. La procédure judiciaire nécessite donc une approche minutieuse
95
+ et conforme au cadre légal, impliquant la collecte d''éléments probants et l''appréciation
96
+ judiciaire objective de la situation.'
97
+ - source_sentence: 'query: Analyser la mesure par laquelle les associés ou membres
98
+ d''un groupement forestier doivent répondre vis-à-vis de la présentation de certains
99
+ documents à l''administration fiscale, en se référant aux dispositions de l''article
100
+ 46 AGI annexé au code général des impôts.'
101
+ sentences:
102
+ - 'passage: Conformément aux articles 164 F quinvicies et 164 F sexvicies de l''Annexe
103
+ IV du Code général des impôts, les adhérents des associations agréées sont tenus
104
+ de notifier par écrit à leur association respective toute mesure prise en réponse
105
+ aux exigences disposées. Il incombe alors à l''association de vérifier et de s''assurer
106
+ que ces obligations soient dûment remplies.'
107
+ - 'passage: D''après l''article 46 AGJ de l''annexe III du Code général des impôts,
108
+ il est impératif que les associés ou membres d''un groupement forestier maintiennent
109
+ à la disposition de l''administration fiscale le document spécifié au II de l''article
110
+ 46 AGI. Ce document est essentiel pour attester de la conformité aux exigences
111
+ fiscales liées au groupement et pour s''assurer de la pérennité des engagements
112
+ pris par les membres. Ces procédures de documentation sont cruciales pour garantir
113
+ la transparence et permettre à l''administration fiscale d''effectuer les vérifications
114
+ nécessaires.'
115
+ - 'passage: L''interaction entre le Code des douanes et le Code de la route se concrétise
116
+ par la provision de l''article 64 B du Code des douanes. Ce dernier établit une
117
+ procédure formelle où les fonctionnaires des douanes sont en droit de requérir
118
+ des données spécifiques mentionnées dans les articles L. 330-2 à L. 330-4 du Code
119
+ de la route. Ces informations touchent principalement à des aspects cruciaux tels
120
+ que la circulation et l''enregistrement des véhicules, éléments essentiels pour
121
+ diverses opérations de douane, incluant mais sans se limiter au contrôle du trafic
122
+ transfrontalier et à la surveillance des infractions liées à la fiscalité des
123
+ véhicules. L''efficience des opérations douanières s''en trouve renforcée, permettant
124
+ une synergie entre deux corps étatiques, facilitant ainsi une application plus
125
+ stricte et cohérente des lois dans les domaines correspondants.'
126
+ - source_sentence: 'query: Analysez l''influence d''un transfert de titres dans un
127
+ patrimoine fiduciaire sur la composition d''un groupe fiscal, en prenant en compte
128
+ les dispositions du Code général des impôts.'
129
+ sentences:
130
+ - 'passage: Conformément au cinquième alinéa du a ter du I de l''article 219 du
131
+ Code général des impôts, le traitement fiscal des transferts de titres entre divers
132
+ comptes du bilan, notamment vers le compte des titres de participation ou vers
133
+ toute subdivision affectée aux ''titres relevant du régime des plus-values à long
134
+ terme'', implique l''intégration des plus ou moins-values générées par ces transferts
135
+ dans le résultat fiscal imposable. Cette intégration est effectuée selon les normes
136
+ et le taux de droit commun applicables lors de l''exercice fiscal durant lequel
137
+ les titres sont cédés. Les plus-values réalisées à long terme à la suite de tels
138
+ transferts contribuent à déterminer la plus ou moins-value nette à long terme
139
+ pour l''exercice concerné, au terme duquel cesse le bénéfice du report. Les plus
140
+ ou moins-values à court terme qui émergent de ces opérations sont également incorporées
141
+ au résultat imposable, respectant les conditions de droit commun de l''exercice
142
+ de cession.'
143
+ - 'passage: Les agents fiscaux disposent de droits étendus et spécifiques pour l''accès
144
+ aux documents comptables des entités lucratives, conformément aux articles L.
145
+ 85 et R*85-1 du Livre des procédures fiscales. Ces articles leur confèrent le
146
+ pouvoir d''exiger la communication de tous documents utiles au contrôle fiscal.
147
+ Par ailleurs, le Code de commerce, aux articles L. 123-12 à L. 123-24, précise
148
+ les obligations de tenue et de conservation des livres comptables, garantissant
149
+ ainsi aux agents fiscaux un droit de regard sur la gestion financière des activités
150
+ commerciales. Ces dispositions assurent une base juridique robuste, autorisant
151
+ les intervenants fiscaux à requérir et vérifier toute documentation nécessaire
152
+ à l''évaluation de la conformité fiscale.'
153
+ - 'passage: L''analyse de l''impact d''un transfert de titres dans un patrimoine
154
+ fiduciaire, en matière de composition de groupe fiscal, s''effectue à l''aune
155
+ de l''article 223 A et de l''article 238 quater B du Code général des impôts.
156
+ En principe, un transfert de propriété des titres vers un patrimoine fiduciaire
157
+ équivaut à leur exclusion du calcul du seuil de détention de capital pour l''appartenance
158
+ à un groupe fiscal. Cependant, une exception spécifique autorise la prise en compte
159
+ des titres transférés si deux conditions prépondérantes sont remplies : l''attachement
160
+ de droits de vote et de dividendes aux titres cédés et la rétention par le constituant
161
+ de l''exercice des droits de vote ou leur utilisation par le fiduciaire conformément
162
+ aux directives du constituant, à condition que les termes contractuels de la fiducie
163
+ ne s''y opposent pas. Cette particularité légale favorise ainsi la continuité
164
+ ou l''intégration fiscale au sein du groupe pour les sociétés transférantes, tant
165
+ que les conditions de détention sont observées, et ce, pour les exercices clôturés
166
+ postérieurement au 31 décembre 2014.'
167
+ - source_sentence: 'query: Décrivez avec précision les étapes détaillées requises
168
+ pour traiter les réclamations collectives résultant de désastres agricoles comme
169
+ définies dans l''article R*198-2 du Livre des procédures fiscales.'
170
+ sentences:
171
+ - 'passage: Conformément à l''article 310 K annexé au code général des impôts, l''usine
172
+ marémotrice de la Rance, localisée entre Saint-Malo et La Richardais en Ille-et-Vilaine,
173
+ peut prétendre à une déduction complémentaire. Cette dernière, prévue par le dernier
174
+ alinéa de l''article 1499 du même code, se voit attribuer un taux de 50 %. Ce
175
+ dispositif fiscal s''avère donc pertinent pour l''usine considérée, lui permettant
176
+ de bénéficier d''un avantage significatif quant à sa charge fiscale.'
177
+ - 'passage: Selon les dispositions de l''article R*196-6 du Livre des procédures
178
+ fiscales, il est attribué aux sujets fiscaux un intervalle précisément défini
179
+ pour élever des réclamations à l''égard des taxes, cotisations et autres prélèvements
180
+ relatifs aux céréales et leurs transformés. Ce délai se prolonge jusqu''à la fin
181
+ de la campagne agricole suivante celle au cours de laquelle l''avis de mise en
182
+ recouvrement de la taxe a été notifié ou le règlement de l''imposition contestée
183
+ effectué, permettant ainsi aux parties prenantes de se prévaloir de leurs prérogatives
184
+ contestataires avec une certitude temporelle.'
185
+ - 'passage: Selon l''article R*198-2 du Livre des procédures fiscales, le traitement
186
+ des réclamations collectives en cas de catastrophes naturelles impactant les cultures
187
+ agricoles, incluant des phénomènes tels que la grêle ou les inondations, exige
188
+ la collaboration de plusieurs entités administratives. Initialement, deux commissaires
189
+ sont nommés par l''administration fiscale pour superviser le processus. Ils sont
190
+ assistés par un délégué de l''administration des impôts. Avant toute action, le
191
+ maire de la commune affectée est notifié au moins dix jours avant l''inspection
192
+ prévue, et il est chargé de communiquer cette date aux résidents via des affichages
193
+ publics. Les agriculteurs affectés doivent alors rapporter leurs pertes à la mairie
194
+ avant la réalisation d''un constat officiel par l''inspecteur des impôts, qui
195
+ sera consigné dans un procès-verbal. Une fois ce document clôturé, aucune réclamation
196
+ supplémentaire n''est acceptée.'
197
+ co2_eq_emissions:
198
+ emissions: 458.85169730175215
199
+ energy_consumed: 1.2430478567823005
200
+ source: codecarbon
201
+ training_type: fine-tuning
202
+ on_cloud: false
203
+ cpu_model: AMD EPYC 9V84 96-Core Processor
204
+ ram_total_size: 314.686279296875
205
+ hours_used: 2.244
206
+ hardware_used: 1 x NVIDIA H100 NVL
207
+ model-index:
208
+ - name: SentenceTransformer based on intfloat/multilingual-e5-base
209
+ results:
210
+ - task:
211
+ type: information-retrieval
212
+ name: Information Retrieval
213
+ dataset:
214
+ name: Lemone information retrieval
215
+ type: Lemone-information-retrieval
216
+ metrics:
217
+ - type: cosine_accuracy@1
218
+ value: 0.9691714836223507
219
+ name: Cosine Accuracy@1
220
+ - type: cosine_accuracy@3
221
+ value: 0.9910083493898523
222
+ name: Cosine Accuracy@3
223
+ - type: cosine_accuracy@5
224
+ value: 0.9955041746949261
225
+ name: Cosine Accuracy@5
226
+ - type: cosine_accuracy@10
227
+ value: 0.9967886962106616
228
+ name: Cosine Accuracy@10
229
+ - type: cosine_precision@1
230
+ value: 0.9691714836223507
231
+ name: Cosine Precision@1
232
+ - type: cosine_precision@3
233
+ value: 0.3303361164632841
234
+ name: Cosine Precision@3
235
+ - type: cosine_precision@5
236
+ value: 0.19910083493898523
237
+ name: Cosine Precision@5
238
+ - type: cosine_precision@10
239
+ value: 0.09967886962106615
240
+ name: Cosine Precision@10
241
+ - type: cosine_recall@1
242
+ value: 0.9691714836223507
243
+ name: Cosine Recall@1
244
+ - type: cosine_recall@3
245
+ value: 0.9910083493898523
246
+ name: Cosine Recall@3
247
+ - type: cosine_recall@5
248
+ value: 0.9955041746949261
249
+ name: Cosine Recall@5
250
+ - type: cosine_recall@10
251
+ value: 0.9967886962106616
252
+ name: Cosine Recall@10
253
+ - type: cosine_ndcg@10
254
+ value: 0.9848527212358668
255
+ name: Cosine Ndcg@10
256
+ - type: cosine_mrr@10
257
+ value: 0.9808338685506315
258
+ name: Cosine Mrr@10
259
+ - type: cosine_map@100
260
+ value: 0.9809367129494427
261
+ name: Cosine Map@100
262
+ - type: dot_accuracy@1
263
+ value: 0.9691714836223507
264
+ name: Dot Accuracy@1
265
+ - type: dot_accuracy@3
266
+ value: 0.9910083493898523
267
+ name: Dot Accuracy@3
268
+ - type: dot_accuracy@5
269
+ value: 0.9955041746949261
270
+ name: Dot Accuracy@5
271
+ - type: dot_accuracy@10
272
+ value: 0.9967886962106616
273
+ name: Dot Accuracy@10
274
+ - type: dot_precision@1
275
+ value: 0.9691714836223507
276
+ name: Dot Precision@1
277
+ - type: dot_precision@3
278
+ value: 0.3303361164632841
279
+ name: Dot Precision@3
280
+ - type: dot_precision@5
281
+ value: 0.19910083493898523
282
+ name: Dot Precision@5
283
+ - type: dot_precision@10
284
+ value: 0.09967886962106615
285
+ name: Dot Precision@10
286
+ - type: dot_recall@1
287
+ value: 0.9691714836223507
288
+ name: Dot Recall@1
289
+ - type: dot_recall@3
290
+ value: 0.9910083493898523
291
+ name: Dot Recall@3
292
+ - type: dot_recall@5
293
+ value: 0.9955041746949261
294
+ name: Dot Recall@5
295
+ - type: dot_recall@10
296
+ value: 0.9967886962106616
297
+ name: Dot Recall@10
298
+ - type: dot_ndcg@10
299
+ value: 0.9848527212358668
300
+ name: Dot Ndcg@10
301
+ - type: dot_mrr@10
302
+ value: 0.9808338685506315
303
+ name: Dot Mrr@10
304
+ - type: dot_map@100
305
+ value: 0.9809367129494427
306
+ name: Dot Map@100
307
+ ---
308
+
309
+ # SentenceTransformer based on intfloat/multilingual-e5-base
310
+
311
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
312
+
313
+ ## Model Details
314
+
315
+ ### Model Description
316
+ - **Model Type:** Sentence Transformer
317
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision d13f1b27baf31030b7fd040960d60d909913633f -->
318
+ - **Maximum Sequence Length:** 512 tokens
319
+ - **Output Dimensionality:** 768 tokens
320
+ - **Similarity Function:** Cosine Similarity
321
+ <!-- - **Training Dataset:** Unknown -->
322
+ <!-- - **Language:** Unknown -->
323
+ <!-- - **License:** Unknown -->
324
+
325
+ ### Model Sources
326
+
327
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
328
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
329
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
330
+
331
+ ### Full Model Architecture
332
+
333
+ ```
334
+ SentenceTransformer(
335
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
336
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
337
+ (2): Normalize()
338
+ )
339
+ ```
340
+
341
+ ## Usage
342
+
343
+ ### Direct Usage (Sentence Transformers)
344
+
345
+ First install the Sentence Transformers library:
346
+
347
+ ```bash
348
+ pip install -U sentence-transformers
349
+ ```
350
+
351
+ Then you can load this model and run inference.
352
+ ```python
353
+ from sentence_transformers import SentenceTransformer
354
+
355
+ # Download from the 🤗 Hub
356
+ model = SentenceTransformer("louisbrulenaudet/lemone-embed-m")
357
+ # Run inference
358
+ sentences = [
359
+ "query: Décrivez avec précision les étapes détaillées requises pour traiter les réclamations collectives résultant de désastres agricoles comme définies dans l'article R*198-2 du Livre des procédures fiscales.",
360
+ "passage: Selon l'article R*198-2 du Livre des procédures fiscales, le traitement des réclamations collectives en cas de catastrophes naturelles impactant les cultures agricoles, incluant des phénomènes tels que la grêle ou les inondations, exige la collaboration de plusieurs entités administratives. Initialement, deux commissaires sont nommés par l'administration fiscale pour superviser le processus. Ils sont assistés par un délégué de l'administration des impôts. Avant toute action, le maire de la commune affectée est notifié au moins dix jours avant l'inspection prévue, et il est chargé de communiquer cette date aux résidents via des affichages publics. Les agriculteurs affectés doivent alors rapporter leurs pertes à la mairie avant la réalisation d'un constat officiel par l'inspecteur des impôts, qui sera consigné dans un procès-verbal. Une fois ce document clôturé, aucune réclamation supplémentaire n'est acceptée.",
361
+ "passage: Selon les dispositions de l'article R*196-6 du Livre des procédures fiscales, il est attribué aux sujets fiscaux un intervalle précisément défini pour élever des réclamations à l'égard des taxes, cotisations et autres prélèvements relatifs aux céréales et leurs transformés. Ce délai se prolonge jusqu'à la fin de la campagne agricole suivante celle au cours de laquelle l'avis de mise en recouvrement de la taxe a été notifié ou le règlement de l'imposition contestée effectué, permettant ainsi aux parties prenantes de se prévaloir de leurs prérogatives contestataires avec une certitude temporelle.",
362
+ ]
363
+ embeddings = model.encode(sentences)
364
+ print(embeddings.shape)
365
+ # [3, 768]
366
+
367
+ # Get the similarity scores for the embeddings
368
+ similarities = model.similarity(embeddings, embeddings)
369
+ print(similarities.shape)
370
+ # [3, 3]
371
+ ```
372
+
373
+ <!--
374
+ ### Direct Usage (Transformers)
375
+
376
+ <details><summary>Click to see the direct usage in Transformers</summary>
377
+
378
+ </details>
379
+ -->
380
+
381
+ <!--
382
+ ### Downstream Usage (Sentence Transformers)
383
+
384
+ You can finetune this model on your own dataset.
385
+
386
+ <details><summary>Click to expand</summary>
387
+
388
+ </details>
389
+ -->
390
+
391
+ <!--
392
+ ### Out-of-Scope Use
393
+
394
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
395
+ -->
396
+
397
+ ## Evaluation
398
+
399
+ ### Metrics
400
+
401
+ #### Information Retrieval
402
+ * Dataset: `Lemone-information-retrieval`
403
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
404
+
405
+ | Metric | Value |
406
+ |:--------------------|:-----------|
407
+ | cosine_accuracy@1 | 0.9692 |
408
+ | cosine_accuracy@3 | 0.991 |
409
+ | cosine_accuracy@5 | 0.9955 |
410
+ | cosine_accuracy@10 | 0.9968 |
411
+ | cosine_precision@1 | 0.9692 |
412
+ | cosine_precision@3 | 0.3303 |
413
+ | cosine_precision@5 | 0.1991 |
414
+ | cosine_precision@10 | 0.0997 |
415
+ | cosine_recall@1 | 0.9692 |
416
+ | cosine_recall@3 | 0.991 |
417
+ | cosine_recall@5 | 0.9955 |
418
+ | cosine_recall@10 | 0.9968 |
419
+ | cosine_ndcg@10 | 0.9849 |
420
+ | cosine_mrr@10 | 0.9808 |
421
+ | **cosine_map@100** | **0.9809** |
422
+ | dot_accuracy@1 | 0.9692 |
423
+ | dot_accuracy@3 | 0.991 |
424
+ | dot_accuracy@5 | 0.9955 |
425
+ | dot_accuracy@10 | 0.9968 |
426
+ | dot_precision@1 | 0.9692 |
427
+ | dot_precision@3 | 0.3303 |
428
+ | dot_precision@5 | 0.1991 |
429
+ | dot_precision@10 | 0.0997 |
430
+ | dot_recall@1 | 0.9692 |
431
+ | dot_recall@3 | 0.991 |
432
+ | dot_recall@5 | 0.9955 |
433
+ | dot_recall@10 | 0.9968 |
434
+ | dot_ndcg@10 | 0.9849 |
435
+ | dot_mrr@10 | 0.9808 |
436
+ | dot_map@100 | 0.9809 |
437
+
438
+ <!--
439
+ ## Bias, Risks and Limitations
440
+
441
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
442
+ -->
443
+
444
+ <!--
445
+ ### Recommendations
446
+
447
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
448
+ -->
449
+
450
+ ## Training Details
451
+
452
+ ### Training Dataset
453
+
454
+ #### Unnamed Dataset
455
+
456
+
457
+ * Size: 296,234 training samples
458
+ * Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
459
+ * Approximate statistics based on the first 1000 samples:
460
+ | | query | positive | negative |
461
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
462
+ | type | string | string | string |
463
+ | details | <ul><li>min: 24 tokens</li><li>mean: 54.2 tokens</li><li>max: 179 tokens</li></ul> | <ul><li>min: 75 tokens</li><li>mean: 182.28 tokens</li><li>max: 332 tokens</li></ul> | <ul><li>min: 53 tokens</li><li>mean: 190.2 tokens</li><li>max: 456 tokens</li></ul> |
464
+ * Samples:
465
+ | query | positive | negative |
466
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
467
+ | <code>query: Détaillez les conditions requises pour la déductibilité fiscale de la provision pour reconstitution des gisements de substances minérales solides selon l'article 39 du CGI.</code> | <code>passage: Pour qu'une provision pour reconstitution des gisements de substances minérales solides soit admise en déduction des bases de l'impôt sur le revenu ou de l'impôt sur les sociétés, elle doit répondre à plusieurs exigences. D'une part, la provision doit avoir été effectivement constatée en accord avec les modalités détaillées dans le 5° du 1 de l'article 39 du Code général des impôts. D'autre part, elle doit impérativement être inscrite dans le tableau ou sur le relevé des provisions mentionnés aux II et III de l'article 38 de l'annexe III au CGI. Ce document, essentiel pour le processus déclaratif, doit être joint à la déclaration des résultats de l'exercice concerné, conformément aux instructions délivrées dans le BOI-BIC-PROV-20-20.</code> | <code>passage: Conformément aux dispositions de l'article 39 ter du Code général des impôts (CGI) et de l'article 10 E de l'annexe III au CGI, les travaux effectués et les immobilisations ou participations acquises grâce à la provision pour reconstitution des gisements d'hydrocarbures sont enregistrés à leur prix de revient. Ils influent sur la détermination du bénéfice imposable selon les conditions de droit commun. Les charges d'exploitation que représentent les travaux de recherche ou de récupération sont inscrites au débit du compte de résultat de l'exercice lors duquel elles sont engagées. Les immobilisations se voient appliquer des amortissements déterminés sur la base de leur prix de revient, qui peut être réévalué, répartis sur leur durée normale d'utilisation. En cas de dépréciation ou de risque de non-recouvrement des participations comptabilisées au prix de revient, y compris des avances correspondantes, la constitution de provisions pour dépréciation est envisageable.</code> |
468
+ | <code>query: Détaillez les conditions requises pour la déductibilité fiscale de la provision pour reconstitution des gisements de substances minérales solides selon l'article 39 du CGI.</code> | <code>passage: Pour qu'une provision pour reconstitution des gisements de substances minérales solides soit admise en déduction des bases de l'impôt sur le revenu ou de l'impôt sur les sociétés, elle doit répondre à plusieurs exigences. D'une part, la provision doit avoir été effectivement constatée en accord avec les modalités détaillées dans le 5° du 1 de l'article 39 du Code général des impôts. D'autre part, elle doit impérativement être inscrite dans le tableau ou sur le relevé des provisions mentionnés aux II et III de l'article 38 de l'annexe III au CGI. Ce document, essentiel pour le processus déclaratif, doit être joint à la déclaration des résultats de l'exercice concerné, conformément aux instructions délivrées dans le BOI-BIC-PROV-20-20.</code> | <code>passage: Selon l'article 10 C quinquies de l'annexe III du Code général des impôts, les entreprises engagées dans le secteur extractif et confrontées à un déficit issu de la commercialisation de produits minéraux, qu'ils soient extraits de gisements locaux ou acquis auprès d'entités étrangères, sont autorisées à déduire ce déficit du bénéfice de l'année fiscale suivante associé aux mêmes activités. Dans le cas où le bénéfice de l'exercice s'avère insuffisant pour permettre une compensation totale du déficit, le surplus de ce dernier est alors reporté sur les bénéfices des années suivantes, jusqu'à extinction complète du déficit. Cette réglementation ne concerne que les résultats spécifiques aux opérations pour lesquelles une provision pour la reconstitution de gisements a été constituée, excluant ainsi d'autres types de bénéfices générés par l'entreprise. Cela prévoit une gestion fiscale plus équilibrée en tenant compte des variations économiques pouvant impacter le secteur extractif.</code> |
469
+ | <code>query: Détaillez les conditions requises pour la déductibilité fiscale de la provision pour reconstitution des gisements de substances minérales solides selon l'article 39 du CGI.</code> | <code>passage: Pour qu'une provision pour reconstitution des gisements de substances minérales solides soit admise en déduction des bases de l'impôt sur le revenu ou de l'impôt sur les sociétés, elle doit répondre à plusieurs exigences. D'une part, la provision doit avoir été effectivement constatée en accord avec les modalités détaillées dans le 5° du 1 de l'article 39 du Code général des impôts. D'autre part, elle doit impérativement être inscrite dans le tableau ou sur le relevé des provisions mentionnés aux II et III de l'article 38 de l'annexe III au CGI. Ce document, essentiel pour le processus déclaratif, doit être joint à la déclaration des résultats de l'exercice concerné, conformément aux instructions délivrées dans le BOI-BIC-PROV-20-20.</code> | <code>passage: Une entreprise peut être autorisée à constituer une provision pour la reconstitution des gisements miniers même si le produit marchand extrait comprend, seulement à titre accessoire, une ou plusieurs des substances minérales solidess énumérées par le Bulletin officiel des finances publiques-impôts. Cette permissivité s'applique dans le respect de certaines limites et à condition que le produit extrait ne contienne pas majoritairement des substances autres que celles désignées explicitement dans la liste limitative des substances présentant un intérêt pour l'économie française.</code> |
470
+ * Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
471
+ ```json
472
+ {'guide': SentenceTransformer(
473
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
474
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
475
+ (2): Normalize()
476
+ ), 'temperature': 0.01}
477
+ ```
478
+
479
+ ### Training Hyperparameters
480
+ #### Non-Default Hyperparameters
481
+
482
+ - `eval_strategy`: steps
483
+ - `per_device_train_batch_size`: 512
484
+ - `learning_rate`: 2e-05
485
+ - `num_train_epochs`: 1
486
+ - `warmup_ratio`: 0.1
487
+ - `fp16`: True
488
+ - `batch_sampler`: no_duplicates
489
+
490
+ #### All Hyperparameters
491
+ <details><summary>Click to expand</summary>
492
+
493
+ - `overwrite_output_dir`: False
494
+ - `do_predict`: False
495
+ - `eval_strategy`: steps
496
+ - `prediction_loss_only`: True
497
+ - `per_device_train_batch_size`: 512
498
+ - `per_device_eval_batch_size`: 8
499
+ - `per_gpu_train_batch_size`: None
500
+ - `per_gpu_eval_batch_size`: None
501
+ - `gradient_accumulation_steps`: 1
502
+ - `eval_accumulation_steps`: None
503
+ - `torch_empty_cache_steps`: None
504
+ - `learning_rate`: 2e-05
505
+ - `weight_decay`: 0.0
506
+ - `adam_beta1`: 0.9
507
+ - `adam_beta2`: 0.999
508
+ - `adam_epsilon`: 1e-08
509
+ - `max_grad_norm`: 1.0
510
+ - `num_train_epochs`: 1
511
+ - `max_steps`: -1
512
+ - `lr_scheduler_type`: linear
513
+ - `lr_scheduler_kwargs`: {}
514
+ - `warmup_ratio`: 0.1
515
+ - `warmup_steps`: 0
516
+ - `log_level`: passive
517
+ - `log_level_replica`: warning
518
+ - `log_on_each_node`: True
519
+ - `logging_nan_inf_filter`: True
520
+ - `save_safetensors`: True
521
+ - `save_on_each_node`: False
522
+ - `save_only_model`: False
523
+ - `restore_callback_states_from_checkpoint`: False
524
+ - `no_cuda`: False
525
+ - `use_cpu`: False
526
+ - `use_mps_device`: False
527
+ - `seed`: 42
528
+ - `data_seed`: None
529
+ - `jit_mode_eval`: False
530
+ - `use_ipex`: False
531
+ - `bf16`: False
532
+ - `fp16`: True
533
+ - `fp16_opt_level`: O1
534
+ - `half_precision_backend`: auto
535
+ - `bf16_full_eval`: False
536
+ - `fp16_full_eval`: False
537
+ - `tf32`: None
538
+ - `local_rank`: 0
539
+ - `ddp_backend`: None
540
+ - `tpu_num_cores`: None
541
+ - `tpu_metrics_debug`: False
542
+ - `debug`: []
543
+ - `dataloader_drop_last`: False
544
+ - `dataloader_num_workers`: 0
545
+ - `dataloader_prefetch_factor`: None
546
+ - `past_index`: -1
547
+ - `disable_tqdm`: False
548
+ - `remove_unused_columns`: True
549
+ - `label_names`: None
550
+ - `load_best_model_at_end`: False
551
+ - `ignore_data_skip`: False
552
+ - `fsdp`: []
553
+ - `fsdp_min_num_params`: 0
554
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
555
+ - `fsdp_transformer_layer_cls_to_wrap`: None
556
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
557
+ - `deepspeed`: None
558
+ - `label_smoothing_factor`: 0.0
559
+ - `optim`: adamw_torch
560
+ - `optim_args`: None
561
+ - `adafactor`: False
562
+ - `group_by_length`: False
563
+ - `length_column_name`: length
564
+ - `ddp_find_unused_parameters`: None
565
+ - `ddp_bucket_cap_mb`: None
566
+ - `ddp_broadcast_buffers`: False
567
+ - `dataloader_pin_memory`: True
568
+ - `dataloader_persistent_workers`: False
569
+ - `skip_memory_metrics`: True
570
+ - `use_legacy_prediction_loop`: False
571
+ - `push_to_hub`: False
572
+ - `resume_from_checkpoint`: None
573
+ - `hub_model_id`: None
574
+ - `hub_strategy`: every_save
575
+ - `hub_private_repo`: False
576
+ - `hub_always_push`: False
577
+ - `gradient_checkpointing`: False
578
+ - `gradient_checkpointing_kwargs`: None
579
+ - `include_inputs_for_metrics`: False
580
+ - `eval_do_concat_batches`: True
581
+ - `fp16_backend`: auto
582
+ - `push_to_hub_model_id`: None
583
+ - `push_to_hub_organization`: None
584
+ - `mp_parameters`:
585
+ - `auto_find_batch_size`: False
586
+ - `full_determinism`: False
587
+ - `torchdynamo`: None
588
+ - `ray_scope`: last
589
+ - `ddp_timeout`: 1800
590
+ - `torch_compile`: False
591
+ - `torch_compile_backend`: None
592
+ - `torch_compile_mode`: None
593
+ - `dispatch_batches`: None
594
+ - `split_batches`: None
595
+ - `include_tokens_per_second`: False
596
+ - `include_num_input_tokens_seen`: False
597
+ - `neftune_noise_alpha`: None
598
+ - `optim_target_modules`: None
599
+ - `batch_eval_metrics`: False
600
+ - `eval_on_start`: False
601
+ - `eval_use_gather_object`: False
602
+ - `batch_sampler`: no_duplicates
603
+ - `multi_dataset_batch_sampler`: proportional
604
+
605
+ </details>
606
+
607
+ ### Training Logs
608
+ | Epoch | Step | Training Loss | Lemone-information-retrieval_cosine_map@100 |
609
+ |:------:|:----:|:-------------:|:-------------------------------------------:|
610
+ | 0.1727 | 100 | - | 0.9788 |
611
+ | 0.3454 | 200 | 0.4931 | 0.9806 |
612
+ | 0.5181 | 300 | - | 0.9804 |
613
+ | 0.6908 | 400 | 0.014 | 0.9809 |
614
+ | 0.8636 | 500 | - | 0.9809 |
615
+
616
+
617
+ ### Environmental Impact
618
+ Carbon emissions were measured using [CodeCarbon](https://github.com/mlco2/codecarbon).
619
+ - **Energy Consumed**: 1.243 kWh
620
+ - **Carbon Emitted**: 0.459 kg of CO2
621
+ - **Hours Used**: 2.244 hours
622
+
623
+ ### Training Hardware
624
+ - **On Cloud**: No
625
+ - **GPU Model**: 1 x NVIDIA H100 NVL
626
+ - **CPU Model**: AMD EPYC 9V84 96-Core Processor
627
+ - **RAM Size**: 314.69 GB
628
+
629
+ ### Framework Versions
630
+ - Python: 3.10.12
631
+ - Sentence Transformers: 3.1.1
632
+ - Transformers: 4.44.2
633
+ - PyTorch: 2.3.0+cu121
634
+ - Accelerate: 0.33.0
635
+ - Datasets: 2.21.0
636
+ - Tokenizers: 0.19.1
637
+
638
+ ## Citation
639
+
640
+ ### BibTeX
641
+
642
+ #### Sentence Transformers
643
+ ```bibtex
644
+ @inproceedings{reimers-2019-sentence-bert,
645
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
646
+ author = "Reimers, Nils and Gurevych, Iryna",
647
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
648
+ month = "11",
649
+ year = "2019",
650
+ publisher = "Association for Computational Linguistics",
651
+ url = "https://arxiv.org/abs/1908.10084",
652
+ }
653
+ ```
654
+
655
+ <!--
656
+ ## Glossary
657
+
658
+ *Clearly define terms in order to be accessible across audiences.*
659
+ -->
660
+
661
+ <!--
662
+ ## Model Card Authors
663
+
664
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
665
+ -->
666
+
667
+ <!--
668
+ ## Model Card Contact
669
+
670
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
671
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-base",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.44.2",
5
+ "pytorch": "2.3.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:595fd04385cad0f1cf8656fcf724f667dfb8b5018011959a03bda53f46a9a675
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }