File size: 3,798 Bytes
5986c3d
 
 
bbcf831
 
7ec9f06
 
5986c3d
 
 
bbcf831
 
 
 
5986c3d
 
 
 
 
bbcf831
5986c3d
a0a4b13
5986c3d
bbcf831
5986c3d
e0d0315
5986c3d
a0a4b13
5986c3d
bbcf831
5986c3d
 
 
 
 
 
 
 
 
a0a4b13
bbcf831
 
 
 
 
 
 
 
 
 
 
 
 
7ec9f06
a0a4b13
7ec9f06
bbcf831
 
 
 
 
 
 
7ec9f06
bbcf831
e0d0315
5986c3d
 
 
 
 
bbcf831
 
 
 
 
 
 
 
 
 
 
 
360bead
 
 
c4b45f7
360bead
 
 
f3d2aba
aa15bfe
 
 
 
 
f3d2aba
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
---
tags:
- generated_from_trainer
- chilean spanish
- español chileno
datasets:
- jorgeortizfuentes/universal_spanish_chilean_corpus
model-index:
- name: chilean-bert-base-spanish-wwm-cased
  results: []
license: cc-by-4.0
language:
- es
pipeline_tag: fill-mask
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# Tulio Chilean Spanish BERT

Este modelo es una versión fine-tuneada del modelo [dccuchile/bert-base-spanish-wwm-cased](https://huggingface.co/dccuchile/bert-base-spanish-wwm-cased) con el [Universal and Chilean Spanish Corpus](https://huggingface.co/datasets/jorgeortizfuentes/universal_spanish_chilean_corpus)

## Descripción

Tulio ha sido entrenado con textos en español de Chile (noticias, web, reclamos y tweets) y libros en español. Este modelo se caracteriza por presentar resultados sobresalientes respecto a otros modelos en español en tareas que involucren español de Chile. 

### Hiperparámetros de entrenamiento

Los siguientes hiperparámetros fueron usados durante el entrenamiento:

- learning_rate: 2e-05
- train_batch_size: 64
- eval_batch_size: 64
- seed: 13
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: constant
- num_epochs: 1

### Training Loss

| Epoch | Training Loss     |
|-------|----------|
| 0.1   | 1.5646   |
| 0.2   | 1.4615   |
| 0.3   | 1.4251   |
| 0.4   | 1.4013   |
| 0.5   | 1.3836   |
| 0.6   | 1.3704   |
| 0.7   | 1.3598   |
| 0.8   | 1.3506   |
| 0.9   | 1.3429   |
| 1.0   | 1.3995   |

### Evaluación y comparativa con otros modelos en español

| Modelo         | Text classification task (en español de Chile) | Token classification task (en español de Chile) |
|----------------|------------------------------------------------------|----------------------------------------------------|
| Beto (BERT Spanish)              | 0.8392                                               | 0.7544                                             |
| Bertin Roberta Base  | 0.8325                                               | -                                                  |
| Roberta Large BNE  | 0.8499                                               | 0.7697                                             |
| Tulio BERT  | **0.8503**                                               | **0.7815**                                             |
| Patana BERT | 0.8435                                               | 0.7777                                             |


### Frameworks de entrenamiento

- Transformers 4.30.2
- Pytorch 2.0.1+cu117
- Datasets 2.13.1
- Tokenizers 0.13.3

## Agradecimientos

Agradecemos al [Departamento de Ciencias de la Computación de la Universidad de Chile](https://www.dcc.uchile.cl/) y a [ReLeLa](https://relela.com/) por los servidores proporcionados para el entrenamiento del modelo. También agradecemos por su apoyo al [Instituto Milenio Fundamentos de los Datos](https://imfd.cl/).

## Licencia

La licencia CC BY 4.0 es la que mejor describe las intenciones de nuestro trabajo. Sin embargo, no estamos seguros de que todos datos utilizados para entrenar este modelo tengan licencias compatibles con CC BY 4.0 (especialmente para uso comercial). 

## Limitaciones

El dataset de entrenamiento no recibió ningún tipo de censura. Por lo tanto, el modelo puede contener representaciones ideológicas no deseadas. Utilizar con precaución.

## Autor

Modelo entrenado y datasets recopilados por [Jorge Ortiz Fuentes](https://ortizfuentes.com)

## Citación

```
@misc{tuliobert2023,
  author = {Ortiz-Fuentes, Jorge},
  title = {Tulio Chilean Spanish Bert},
  year = 2023,
  url = {https://doi.org/10.57967/hf/1846},
}
```