Simnonym

Simnonym é um classificador BERT-based de sinônimos da língua portuguesa.

Entrada

A entrada deve sempre seguir o template do prompt

'As palavras "{}" e "{}" são sinônimos?'

Dados de Treinamento

O modelo foi treinado e avaliado no conjunto de dados Sym-Pair.

Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não.

Sym-Pair é composto por:

Pares de sinônimos e antônimos obtidos de dois datasets (DicSin e Portuguese Brazilian Synonyms).
Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos.

Descrição do Modelo

Desenvolvido por: Leonardo Souza
Tipo do modelo: BERT
Licença: Apache 2.0
Fine-tunado do modelo: BERTimbau Base

Como Usar

Exemplo de uma única classificação:

import torch
from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification

model_name = 'lrds-code/simnonym'

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt')

with torch.no_grad():
    output = model(**inputs).logits

predict_id = logits.argmax().item()
model.config.id2label[predict_id]

Downloads last month: 6

Safetensors

Model size

0.1B params

Tensor type

F32

Dataset used to train lrds-code/simnonym

Evaluation results

Accuracy on sym-pair
validation set self-reported

91.790