Automatic Scoring for Indonesian Semantic Similarity ✨

Model ini merupakan hasil fine-tuning dari indobenchmark/indobert-large-p2 menggunakan Sentence Transformers untuk tugas Semantic Textual Similarity (STS) dalam bahasa Indonesia.

Model ini dilatih secara multi-dataset menggunakan gabungan dari:

🟢 rzkamalia/stsb-indo-mt-modified
🟢 quarkss/stsb-indo-mt
🟢 AkshitaS/semrel_2024_plus (split ind_Latn)

Tujuan utama dari model ini adalah untuk mendukung penilaian otomatis jawaban siswa atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.

🧠 Model Details

Base Model: indobenchmark/indobert-large-p2
Framework: sentence-transformers
Loss Function: CosineSimilarityLoss
Training Epochs: 5
Batch Size: 16
Evaluation Metric: Cosine Similarity
Total Datasets Combined: 3 corpora (STS Indo + Semantic Relation)

📊 Example Usage

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("eugene702/Automatic-Scoring")

score = util.cos_sim(
    model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
    model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)

print("Similarity Score:", score.item())

📁 Datasets Used

Dataset	Deskripsi
`rzkamalia/stsb-indo-mt-modified`	Versi modifikasi STS bahasa Indonesia
`quarkss/stsb-indo-mt`	STS benchmark bahasa Indonesia
`AkshitaS/semrel_2024_plus`	Dataset Semantic Relation multilingual split `ind_Latn`

📈 Evaluation

Evaluasi dilakukan pada data test dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan EmbeddingSimilarityEvaluator dari sentence-transformers.

Metric utama: Cosine Similarity terhadap pasangan kalimat dalam bahasa Indonesia.

💡 Use Cases

Penilaian otomatis jawaban siswa
Deteksi parafrase dalam Bahasa Indonesia
Penilaian kesamaan kalimat untuk e-learning
Analisis pertanyaan dan jawaban semantik

🛠 Training Code

Model dilatih menggunakan sentence-transformers di platform Kaggle. Kode pelatihan tersedia secara privat namun dapat diminta melalui email.

📌 Model Availability

Model tersedia di:

Hugging Face: eugene702/Automatic-Scoring
Kaggle Model Hub: Automatic Scoring

📬 Contact

Untuk pertanyaan atau kolaborasi:

Eugene Feilian Putra Rangga
📧 eugenefeilianputrarangga@gmail.com
🔗 Hugging Face Profile 🔗 GitHub

Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia.

eugene702
/

Automatic-Scoring