---
license: mit
language:
- multilingual
- af
- am
- ar
- as
- az
- be
- bg
- bn
- br
- bs
- ca
- cs
- cy
- da
- de
- el
- en
- eo
- es
- et
- eu
- fa
- fi
- fr
- fy
- ga
- gd
- gl
- gu
- ha
- he
- hi
- hr
- hu
- hy
- id
- is
- it
- ja
- jv
- ka
- kk
- km
- kn
- ko
- ku
- ky
- la
- lo
- lt
- lv
- mg
- mk
- ml
- mn
- mr
- ms
- my
- ne
- nl
- 'no'
- om
- or
- pa
- pl
- ps
- pt
- ro
- ru
- sa
- sd
- si
- sk
- sl
- so
- sq
- sr
- su
- sv
- sw
- ta
- te
- th
- tl
- tr
- ug
- uk
- ur
- uz
- vi
- xh
- yi
- zh
datasets:
- agentlans/en-translations
base_model:
- agentlans/multilingual-e5-small-aligned
pipeline_tag: text-classification
tags:
- multilingual
- quality-assessment
---
# multilingual-e5-small-aligned-quality
This model is a fine-tuned version of [agentlans/multilingual-e5-small-aligned](https://huggingface.co/agentlans/multilingual-e5-small-aligned) designed for assessing text quality across multiple languages.
## Key Features
- Multilingual support
- Quality assessment for text
- Based on E5 small model architecture
## Intended Uses & Limitations
This model is intended for:
- Assessing the quality of multilingual text
- Filtering multilingual content
- Comparative analysis of corpus text quality across different languages
Limitations:
- Performance may vary for languages not well-represented in the training data
- Should not be used as the sole criterion for quality assessment
## Usage Example
```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "agentlans/multilingual-e5-small-aligned-quality"
# Initialize tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
def quality(text):
"""Assess the quality of the input text."""
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
with torch.no_grad():
logits = model(**inputs).logits.squeeze().cpu()
return logits.tolist()
# Example usage
score = quality("Your text here.")
print(f"Quality score: {score}")
```
## Performance Results
The model was evaluated on a diverse set of multilingual text samples:
- 10 English text samples of varying quality were translated into Arabic, Chinese, French, Russian, and Spanish.
- The model demonstrated consistent quality assessment across different languages for the same text.
The following table presents the 10 original texts along with their translations:
|Text |English |French |Spanish |Chinese |Russian |Arabic |
|:----|:-------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------|
|A |Discover the secret to eternal youth with our revolutionary skincare product! |Découvrez le secret de la jeunesse éternelle avec notre produit de soin révolutionnaire ! |¡Descubre el secreto de la eterna juventud con nuestro revolucionario producto de cuidado de la piel! |使用我们革命性的护肤产品发现永葆青春的秘密! |Откройте для себя секрет вечной молодости с нашим революционным средством по уходу за кожей! |اكتشف سر الشباب الأبدي مع منتجنا الثوري للعناية بالبشرة! |
|B |Get rich quick with our foolproof investment strategy - no experience needed! |Devenez riche rapidement grâce à notre stratégie d’investissement infaillible – aucune expérience n’est requise ! |Hazte rico rápidamente con nuestra estrategia de inversión infalible: ¡no necesitas experiencia! |利用我们万无一失的投资策略快速致富 - 无需经验! |Быстро разбогатейте с нашей надежной инвестиционной стратегией — опыт не требуется! |احصل على الثراء السريع مع استراتيجية الاستثمار الموثوقة لدينا - لا حاجة للخبرة! |
|C |Earn money from home by participating in online surveys - sign up today! |Gagnez de l'argent depuis chez vous en participant à des sondages en ligne - inscrivez-vous dès aujourd'hui ! |Gana dinero desde casa participando en encuestas online: ¡regístrate hoy! |通过参与在线调查在家赚钱 - 今天就注册! |Зарабатывайте деньги из дома, участвуя в онлайн-опросах — зарегистрируйтесь сегодня! |اكسب المال من المنزل عن طريق المشاركة في الاستطلاعات عبر الإنترنت - سجل اليوم! |
|D |Congratulations! You've won a $1,000 gift card! Click here to claim your prize! |Félicitations ! Vous avez gagné une carte-cadeau de 1 000 $ ! Cliquez ici pour réclamer votre prix ! |¡Felicitaciones! ¡Ganaste una tarjeta de regalo de $1,000! ¡Haz clic aquí para reclamar tu premio! |恭喜!您赢了一张价值 1,000 美元的礼品卡!单击此处领取您的奖品! |Поздравляем! Вы выиграли подарочную карту на $1000! Нажмите здесь, чтобы получить свой приз! |مبروك! لقد فزت ببطاقة هدايا بقيمة 1000 دولار! انقر هنا للحصول على جائزتك! |
|E |Act now! Limited time offer on miracle weight loss pills! |Agissez maintenant ! Offre à durée limitée sur les pilules amaigrissantes miracles ! |¡Actúe ahora! ¡Oferta por tiempo limitado en píldoras milagrosas para bajar de peso! |立即行动!神奇减肥药限时优惠! |Действуйте сейчас! Ограниченное по времени предложение на чудодейственные таблетки для похудения! |تصرف الآن! عرض لفترة محدودة على حبوب إنقاص الوزن المعجزة! |
|F |Your computer is infected! Click here for a free scan and fix your issues now! |Votre ordinateur est infecté ! Cliquez ici pour une analyse gratuite et corrigez vos problèmes dès maintenant ! |¡Su computadora está infectada! Haga clic aquí para obtener un análisis gratuito y solucionar sus problemas ahora. |您的计算机已感染病毒!点击此处进行免费扫描并立即修复您的问题! |Ваш компьютер заражен! Нажмите здесь для бесплатного сканирования и устранения проблем прямо сейчас! |جهاز الكمبيوتر الخاص بك مصاب! انقر هنا لإجراء فحص مجاني وإصلاح المشكلات التي تواجهك الآن! |
|G |Unlock the secrets of the universe with our exclusive online astronomy course! |Découvrez les secrets de l'univers avec notre cours d'astronomie en ligne exclusif ! |¡Descubre los secretos del universo con nuestro exclusivo curso de astronomía online! |通过我们独家的在线天文学课程揭开宇宙的秘密! |Откройте тайны Вселенной с нашим эксклюзивным онлайн-курсом астрономии! |اكتشف أسرار الكون مع دورتنا الفلكية الحصرية عبر الإنترنت! |
|H |The Eiffel Tower can be 15 cm taller during the summer due to thermal expansion. |La tour Eiffel peut être plus haute de 15 cm en été en raison de la dilatation thermique. |La Torre Eiffel puede ser 15 cm más alta durante el verano debido a la expansión térmica. |由于热膨胀,埃菲尔铁塔在夏季可能会高出 15 厘米。 |Летом Эйфелева башня может стать на 15 см выше из-за теплового расширения. |يمكن أن يزيد ارتفاع برج إيفل بمقدار 15 سم خلال فصل الصيف بسبب التمدد الحراري. |
|I |Did you know? The average person spends 6 years of their life dreaming. |Le saviez-vous ? En moyenne, une personne passe 6 ans de sa vie à rêver. |¿Sabías que una persona promedio pasa 6 años de su vida soñando? |你知道吗?每个人一生中平均有 6 年的时间在做梦。 |Знаете ли вы? В среднем человек тратит 6 лет своей жизни на мечты. |هل تعلم؟ يقضي الشخص العادي 6 سنوات من حياته في الأحلام. |
|J |Did you know that honey never spoils? Archaeologists have found pots of honey in ancient Egyptian tombs that are over 3,000 years old and still edible. |Saviez-vous que le miel ne périme jamais ? Des archéologues ont découvert dans d'anciennes tombes égyptiennes des pots de miel datant de plus de 3 000 ans et toujours comestibles. |¿Sabías que la miel nunca se estropea? Los arqueólogos han encontrado tarros de miel en tumbas del antiguo Egipto que tienen más de 3000 años y aún son comestibles. |你知道蜂蜜是不会变质的吗?考古学家在古埃及墓穴中发现了已有 3000 多年历史的蜂蜜罐,至今仍可食用。 |Знаете ли вы, что мед никогда не портится? Археологи нашли в древнеегипетских гробницах горшки с медом, которым более 3000 лет, и которые до сих пор съедобны. |هل تعلم أن العسل لا يفسد أبدًا؟ لقد عثر علماء الآثار على أواني عسل في مقابر مصرية قديمة يزيد عمرها عن 3000 عام ولا تزال صالحة للأكل. |
## Training Data
The model was trained on the [Multilingual Parallel Sentences dataset](https://huggingface.co/datasets/agentlans/en-translations), which includes:
- Parallel sentences in English and various other languages
- Semantic similarity scores calculated using LaBSE
- Additional quality metrics
- Sources: JW300, Europarl, TED Talks, OPUS-100, Tatoeba, Global Voices, and News Commentary
## Training Procedure
### Hyperparameters
- Learning rate: 5e-05
- Train batch size: 128
- Eval batch size: 8
- Seed: 42
- Optimizer: AdamW (betas=(0.9,0.999), epsilon=1e-08)
- Learning rate scheduler: Linear
- Number of epochs: 3.0
### Training Results
| Epoch | Training Loss | Validation Loss | MSE |
|-------|---------------|-----------------|--------|
| 1.0 | 0.2436 | 0.2296 | 0.2296 |
| 2.0 | 0.1927 | 0.2079 | 0.2079 |
| 3.0 | 0.1615 | 0.1958 | 0.1958 |
## Framework Versions
- Transformers: 4.46.3
- PyTorch: 2.5.1+cu124
- Datasets: 3.1.0
- Tokenizers: 0.20.3