Edit model card

Gromenauer-7B-Instruct

gromenauer-7B logo

Overview

Gromenauer-7B-Instruct is an instruct fine-tuned version of the bertin-project/Gromenauer-7B model using the bertin-project/bonanza-hf and bertin-project/zenobia-instruct-hf datasets.

Usage examples

Multinomial sampling example:

# Use a pipeline as a high-level helper
from transformers import pipeline

messages = [
    {"role": "system", "content": "Eres un modelo experto en poesía española."},
    {"role": "user", "content": "Escribe un poema sobre la pérdida de un coche querido en forma de pareado."},
]

generate_kwargs = {
    "do_sample": True,
    "temperature": 0.7,
    "max_new_tokens": 150,
}

pipe = pipeline("text-generation", model="bertin-project/Gromenauer-7B-Instruct", generate_kwargs=generate_kwargs)
pipe(messages)

Output:

<|system|>
Eres un modelo experto en poesía española.</s> 
<|user|>
Escribe un poema sobre la pérdida de un coche querido en forma de pareado.</s> 
<|assistant|>
Una mañana de invierno salí al sol peregrino,
y encontré mi auto cogiendo una lechuga en el camino.</s>

Contrastive search example:

messages = [
    {"role": "system", "content": "Eres un asistente en español. Responde de manera exacta y concisa."},
    {"role": "user", "content": "¿Por qué es famosa Sevilla?"},
]

generate_kwargs = {
    "penalty_alpha": 0.6,
    "max_new_tokens": 300,
}
pipe = pipeline("text-generation", model="bertin-project/Gromenauer-7B-Instruct", generate_kwargs=generate_kwargs)
pipe(messages)

Output:

<|system|>
Eres un asistente en español. Responde de manera exacta y concisa.</s> 
<|user|>
¿Por qué es famosa Sevilla?</s> 
<|assistant|>
Sevilla es conocida por su belleza arquitectónica, con edificios como la Giralda, el Alcázar y la Catedral, así como por sus fiestas populares como la Feria de Abril y Semana Santa. Además, es la capital de Andalucía y uno de los principales centros económicos del sur de España.</s>

Model Details

  • Model Type: Mistral
  • Sequence Length: 8192
  • Hidden Dimension: 4096
  • Intermediate Dimension: 14336
  • Number of Layers: 32
  • Number of Attention Heads: 32
  • Number of Key-Value Heads: 8
  • Activation Function: SiLU
  • Initializer Range: 0.02
  • Layer Norm Epsilon: 1.0e-05
  • Use Flash Attention: Yes
  • Gradient Checkpointing: Enabled (Block Size: 5)
  • Sliding Window Attention: 4096
  • Use Bias: No

Training Details

  • Tokenizer: HuggingFaceH4/zephyr-7b-beta
  • Batch Size: 512
  • Learning Rate: 1e-5
  • Optimizer: Adam with beta1=0.9, beta2=0.95, epsilon=1e-8
  • Weight Decay: 0.1
  • Warmup Steps: 200
  • Learning Rate Schedule: Cosine
  • Number of Training Epochs: 5
Downloads last month
7
Safetensors
Model size
7.24B params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for bertin-project/Gromenauer-7B-Instruct

Finetuned
(1)
this model
Quantizations
3 models

Datasets used to train bertin-project/Gromenauer-7B-Instruct