metadata

license: apache-2.0
datasets:
  - hackathon-somos-nlp-2023/informes_discriminacion_gitana
language:
  - es
metrics:
  - perplexity

PAG-BERT: Protocolo Antiracismo Gitano basado en BERT

Detalles del adaptador

Este modelo ha sido creado con la librería PEFT, que nos ha permitido hacer fine tuning al modelo base bertin-project/bertin-gpt-j-6B sobre el dataset hackathon-somos-nlp-2023/informes_discriminacion_gitana usando el método LoRA.

Fuentes del modelo

Notebook del entrenamiento: Se ha utilizado como base el notebook compartido por @mrm8488 en el taller "Fine-tuning de grandes modelos de lenguaje con Manuel Romero | Hackathon Somos NLP 2023". El notebook adaptado a este modelo se encuentra en https://colab.research.google.com/drive/1eEOiuYdg63JOWUiVSdiZ-GUocH48_2wj?usp=sharing
Demo: https://huggingface.co/spaces/hackathon-somos-nlp-2023/demo_IntervencionesRacismo

Usos

El objetivo del modelo consiste en generar un conjunto de acciones ante un hecho de discriminación hacia el pueblo gitano, así como tratar de predecir si dicha acción tendrá un resultado positivo, negativo o neutro. Por ejemplo, ante el hecho "Una joven gitana fue a hacer la compra acompañada de su hija de 12 años y su sobrina de ocho. Mientras compraban, el vigilante de seguridad no dejó de seguirlas en todo momento.", el modelo debe sugerir una posible intervención ante este supuesto caso: "Desde la FSG se asesoró a la joven de sus derechos y de cómo actuar ante un incidente de este tipo." y el posible resultado esperado tras aplicar dicha intervención.

Cómo empezar a utilizar el modelo

Use el código mostrado a continuación para comenzar a utilizar el modelo.

import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

peft_model_id = "hackathon-somos-nlp-2023/discriminacion_gitana_intervenciones_balanceado"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, return_dict=True, load_in_8bit=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
# Load the Lora model
model = PeftModel.from_pretrained(model, peft_model_id)

def predecir_intervencion(text):
    text = "<SH>" + text + " Intervención: "
    batch = tokenizer(text, return_tensors='pt')
    with torch.cuda.amp.autocast():
        output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)

    output = tokenizer.decode(output_tokens[0], skip_special_tokens=False)

    aux = output.split("Intervención:")[1].strip()
    intervencion = aux.split("Resultado:")[0].strip()
    resultado = aux.split("Resultado:")[1].split("<EH>")[0].strip()
    
    return intervencion, resultado

hechos = "Una joven gitana fue a hacer la compra acompañada de su hija de 12 años y su sobrina de ocho. Mientras compraban, el vigilante de seguridad no dejó de seguirlas en todo momento."
intervencion, resultado = predecir_intervencion(hechos)
print(f"Intervención: {intervencion}")
print(f"Resultado: {resultado}")

Detalles del entrenamiento

Datos de entrenamiento

Se han utilizado los datos del dataset informes_discriminacion_gitana. Cabe destacar que el conjunto de datos no está balanceado y hay un mayor número de muestras con resultado negativo y neutro que positivo. Para conseguir un entrenamiento más equilibrado hemos seleccionado de forma aleatoria el mismo número de muestras negativas y neutras que positivas y hemos realizado el entrenamiento con este subconjunto de datos.

Hiperparámetros del entrenamiento

Training regime: fp16
Step: 1000
Learning rate: 2e-4
num_epochs: 21
train_batch_size: 4

Métricas

Loss: 0.6538
Perplexity: 9.2

Frameworks

bitsandbytes 0.37.2
datasets 2.11.0
loralib 0.1.1
peft 0.3.0.dev0
pytorch 2.0.0
tokenizers 0.13.2
transformers 4.28.0.dev0

Impacto medioambiental

Las emisiones de CO2 a la hora de entrenar el modelo han sido estimadas usando la plataforma Machine Learning Impact calculator presentada en Lacoste et al. (2019). A continuación es muestran los detalles del impacto:

Hardware Type: RTX 3090
Hours used: 2.5
Cloud Provider: Private infrastructure
Compute Region: Belgium
Carbon Emitted: 0.38 kg

somosnlp-hackathon-2023
/

PAG-BERT