---
base_model: vinai/phobert-base-v2
datasets: []
language: []
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
- pearson_manhattan
- spearman_manhattan
- pearson_euclidean
- spearman_euclidean
- pearson_dot
- spearman_dot
- pearson_max
- spearman_max
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:102178
- loss:TripletLoss
widget:
- source_sentence: Bàn cho thấy các thiết_kế và sản_xuất kiến_thức cần_thiết để thực_hiện
nhiều quyết_định thông_báo hơn .
sentences:
- Nixon quyết_định rằng hồ chí minh có_thể ở lại miền nam Việt_Nam .
- Không có gì cần_thiết để đưa ra một quyết_định thông_tin .
- Bảng Hiển_thị thiết_kế và sản_xuất thông_tin cần_thiết để đưa ra quyết_định .
- source_sentence: 95 gói nước_tiểu miễn_phí trong túi của họ .
sentences:
- Tây_ban nha trượt từ vị_trí quyền_lực của họ .
- Đội đã bước vào phòng thí_nghiệm mang theo tổng_cộng 99 đơn_vị trong_sạch , thử_nghiệm
thân_thiện .
- Túi được yêu_cầu cho nhà toàn_bộ 95 đơn_vị phục_vụ trong_sạch nước_tiểu giữa các
nhà cung_cấp các sản_phẩm .
- source_sentence: Tuyển một chiếc xe rất đắt tiền , và những gì có để xem_thường
là gần những con đường chính .
sentences:
- Thuê một chiếc xe rất rẻ nhưng có_thể không đáng_giá_như những cảnh_sát ở xa con
đường .
- Có một nhà_thờ hình_tròn ở orangerie ở Paris .
- Thuê một chiếc xe đến với chi_phí lớn và hầu_hết các điểm đến đều gần đường .
- source_sentence: Người da đen là 12 phần_trăm dân_số .
sentences:
- Người da đen tạo ra 50 % tổng_số dân_số .
- Người Mỹ Châu_Phi là một nhóm_thiểu_số .
- Tôi đoán là barney fife .
- source_sentence: Báo đen đã editorialized chống lại những cuộc viếng_thăm của farrakhan
với các nhà độc_tài châu phi .
sentences:
- Báo đen đã viết về quá_khứ của farrakhan .
- Khi bạn đi đến radda , bạn nên kiểm_tra piccolo bảo del chianti .
- Báo đen từ_chối yểm_trợ cho farrakhan .
model-index:
- name: SentenceTransformer based on vinai/phobert-base-v2
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev
type: sts-dev
metrics:
- type: pearson_cosine
value: 0.42030854811305457
name: Pearson Cosine
- type: spearman_cosine
value: 0.5147968030818376
name: Spearman Cosine
- type: pearson_manhattan
value: 0.5605026901702432
name: Pearson Manhattan
- type: spearman_manhattan
value: 0.5792048311109484
name: Spearman Manhattan
- type: pearson_euclidean
value: 0.4710386131519505
name: Pearson Euclidean
- type: spearman_euclidean
value: 0.5087153254455983
name: Spearman Euclidean
- type: pearson_dot
value: 0.3923969498466928
name: Pearson Dot
- type: spearman_dot
value: 0.4338097270757405
name: Spearman Dot
- type: pearson_max
value: 0.5605026901702432
name: Pearson Max
- type: spearman_max
value: 0.5792048311109484
name: Spearman Max
---
# SentenceTransformer based on vinai/phobert-base-v2
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/stage1")
# Run inference
sentences = [
'Báo đen đã editorialized chống lại những cuộc viếng_thăm của farrakhan với các nhà độc_tài châu phi .',
'Báo đen đã viết về quá_khứ của farrakhan .',
'Báo đen từ_chối yểm_trợ cho farrakhan .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Semantic Similarity
* Dataset: `sts-dev`
* Evaluated with [EmbeddingSimilarityEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.4203 |
| **spearman_cosine** | **0.5148** |
| pearson_manhattan | 0.5605 |
| spearman_manhattan | 0.5792 |
| pearson_euclidean | 0.471 |
| spearman_euclidean | 0.5087 |
| pearson_dot | 0.3924 |
| spearman_dot | 0.4338 |
| pearson_max | 0.5605 |
| spearman_max | 0.5792 |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 102,178 training samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details |
Tem đầy màu_sắc của madeira , cũng như tiền xu , ghi_chép ngân_hàng , và các mặt_hàng khác như bưu_thiếp là mối quan_tâm đến nhiều nhà sưu_tập .
| Các nhà sưu_tập sẽ thích ghé thăm madeira bởi_vì những phân_chia lớn của tem , ghi_chép ngân_hàng , bưu_thiếp , và nhiều mặt_hàng khác họ có_thể đọc được .
| Mọi người quan_tâm đến việc bắt_đầu bộ sưu_tập mới nên thoát madeira và đi du_lịch phía bắc , nơi họ có khả_năng tìm thấy các cửa_hàng tốt .
|
| Cẩn_thận đấy , ông inglethorp . Poirot bị bồn_chồn .
| Hãy chăm_sóc ông inglethorp .
| Không cần phải cẩn_thận với anh ta .
|
| Phải có một_chút hoài_nghi về trải nghiệm cá_nhân của sperling với trò_chơi .
| Hãy suy_nghĩ về những tác_động khi nhìn vào kinh_nghiệm của anh ấy .
| Một người có_thể lấy trải nghiệm cá_nhân của sperling với giá_trị mặt .
|
* Loss: [TripletLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
```json
{
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
}
```
### Evaluation Dataset
#### Unnamed Dataset
* Size: 12,772 evaluation samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
| type | string | string | string |
| details | Tình_yêu , anh có muốn em trở_thành kassandra lubbock của anh không ?
| Tôi có_thể là kassandra lubbock của anh .
| Tôi từ_chối trở_thành kassandra lubbock của anh .
|
| Ví_dụ , trong mùa thu năm 1997 , ủy ban điều_trị hạt_nhân ( nrc ) văn_phòng thanh_tra tướng liệu nrc để có được quan_điểm của họ trên văn_hóa an_toàn của đại_lý .
| Nhân_viên nrc đã được hỏi về quan_điểm của họ trên văn_hóa an_toàn của đại_lý .
| Các nhân_viên không bao_giờ quan_sát về quan_điểm của họ về văn_hóa an_toàn của đại_lý trong mùa thu năm 1997 .
|
| Mỗi năm kem của trẻ nghệ và comedic tài_năng làm cho nó đường đến edinburgh , và fringe đã lớn lên trong việc huấn_luyện lớn nhất trong khung_cảnh lớn nhất cho các diễn_viên phát_triển trên thế_giới .
| Tài_năng mới đến edinburgh .
| Tài_năng mới đến dublin .
|
* Loss: [TripletLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
```json
{
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `overwrite_output_dir`: True
- `eval_strategy`: epoch
- `per_device_train_batch_size`: 128
- `per_device_eval_batch_size`: 128
- `num_train_epochs`: 20
- `lr_scheduler_type`: cosine
- `warmup_ratio`: 0.05
- `fp16`: True
- `load_best_model_at_end`: True
- `gradient_checkpointing`: True
#### All Hyperparameters