Automatic Scoring for Indonesian Semantic Similarity β¨
Model ini merupakan hasil fine-tuning dari indobenchmark/indobert-large-p2
menggunakan Sentence Transformers untuk tugas Semantic Textual Similarity (STS) dalam bahasa Indonesia.
Model ini dilatih secara multi-dataset menggunakan gabungan dari:
- π’
rzkamalia/stsb-indo-mt-modified
- π’
quarkss/stsb-indo-mt
- π’
AkshitaS/semrel_2024_plus
(splitind_Latn
)
Tujuan utama dari model ini adalah untuk mendukung penilaian otomatis jawaban siswa atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.
π§ Model Details
- Base Model:
indobenchmark/indobert-large-p2
- Framework:
sentence-transformers
- Loss Function:
CosineSimilarityLoss
- Training Epochs:
5
- Batch Size:
16
- Evaluation Metric:
Cosine Similarity
- Total Datasets Combined: 3 corpora (STS Indo + Semantic Relation)
π Example Usage
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("eugene702/Automatic-Scoring")
score = util.cos_sim(
model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)
print("Similarity Score:", score.item())
π Datasets Used
Dataset | Deskripsi |
---|---|
rzkamalia/stsb-indo-mt-modified |
Versi modifikasi STS bahasa Indonesia |
quarkss/stsb-indo-mt |
STS benchmark bahasa Indonesia |
AkshitaS/semrel_2024_plus |
Dataset Semantic Relation multilingual split ind_Latn |
π Evaluation
Evaluasi dilakukan pada data test
dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan EmbeddingSimilarityEvaluator
dari sentence-transformers
.
Metric utama: Cosine Similarity terhadap pasangan kalimat dalam bahasa Indonesia.
π‘ Use Cases
- Penilaian otomatis jawaban siswa
- Deteksi parafrase dalam Bahasa Indonesia
- Penilaian kesamaan kalimat untuk e-learning
- Analisis pertanyaan dan jawaban semantik
π Training Code
Model dilatih menggunakan sentence-transformers
di platform Kaggle.
Kode pelatihan tersedia secara privat namun dapat diminta melalui email.
π Model Availability
Model tersedia di:
- Hugging Face: eugene702/Automatic-Scoring
- Kaggle Model Hub: Automatic Scoring
π¬ Contact
Untuk pertanyaan atau kolaborasi:
Eugene Feilian Putra Rangga
π§ eugenefeilianputrarangga@gmail.com
π Hugging Face Profile
π GitHub
Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia.
- Downloads last month
- 41
Datasets used to train eugene702/Automatic-Scoring
Evaluation results
- Cosine Similarity on STSB Indo + SemRel 2024self-reportedEvaluated on test set (see below)