Automatic Scoring for Indonesian Semantic Similarity ✨

Model ini merupakan hasil fine-tuning dari indobenchmark/indobert-large-p2 menggunakan Sentence Transformers untuk tugas Semantic Textual Similarity (STS) dalam bahasa Indonesia.

Model ini dilatih secara multi-dataset menggunakan gabungan dari:

  • 🟒 rzkamalia/stsb-indo-mt-modified
  • 🟒 quarkss/stsb-indo-mt
  • 🟒 AkshitaS/semrel_2024_plus (split ind_Latn)

Tujuan utama dari model ini adalah untuk mendukung penilaian otomatis jawaban siswa atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.

🧠 Model Details

  • Base Model: indobenchmark/indobert-large-p2
  • Framework: sentence-transformers
  • Loss Function: CosineSimilarityLoss
  • Training Epochs: 5
  • Batch Size: 16
  • Evaluation Metric: Cosine Similarity
  • Total Datasets Combined: 3 corpora (STS Indo + Semantic Relation)

πŸ“Š Example Usage

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("eugene702/Automatic-Scoring")

score = util.cos_sim(
    model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
    model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)

print("Similarity Score:", score.item())

πŸ“ Datasets Used

Dataset Deskripsi
rzkamalia/stsb-indo-mt-modified Versi modifikasi STS bahasa Indonesia
quarkss/stsb-indo-mt STS benchmark bahasa Indonesia
AkshitaS/semrel_2024_plus Dataset Semantic Relation multilingual split ind_Latn

πŸ“ˆ Evaluation

Evaluasi dilakukan pada data test dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan EmbeddingSimilarityEvaluator dari sentence-transformers.

Metric utama: Cosine Similarity terhadap pasangan kalimat dalam bahasa Indonesia.

πŸ’‘ Use Cases

  • Penilaian otomatis jawaban siswa
  • Deteksi parafrase dalam Bahasa Indonesia
  • Penilaian kesamaan kalimat untuk e-learning
  • Analisis pertanyaan dan jawaban semantik

πŸ›  Training Code

Model dilatih menggunakan sentence-transformers di platform Kaggle. Kode pelatihan tersedia secara privat namun dapat diminta melalui email.

πŸ“Œ Model Availability

Model tersedia di:

πŸ“¬ Contact

Untuk pertanyaan atau kolaborasi:

Eugene Feilian Putra Rangga
πŸ“§ eugenefeilianputrarangga@gmail.com
πŸ”— Hugging Face Profile πŸ”— GitHub


Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia.

Downloads last month
41
Safetensors
Model size
335M params
Tensor type
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Datasets used to train eugene702/Automatic-Scoring

Evaluation results

  • Cosine Similarity on STSB Indo + SemRel 2024
    self-reported
    Evaluated on test set (see below)