gte-gold-bs64 / README.md
seongil-dn's picture
Add new SentenceTransformer model
b4a37bd verified
---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:5376
- loss:MultipleNegativesRankingLoss
base_model: Alibaba-NLP/gte-multilingual-mlm-base
widget:
- source_sentence: 세종특별자치시의 행정구역은 어떻게 되나요?
sentences:
- 잉글랜드 주민들이 앵글로색슨족인 반면 스코틀랜드 주민들은 아일랜드나 프랑스 북부 브르타뉴, 스페인 북부 갈리시아와 같은 켈트족이다. 따라서
잉글랜드와는 문화가 다르며, 국민성도 다르다. 언어는 원래 영어와 다른 스코틀랜드 게일어, 그리고 스코트어를 사용하였으나 영어의 영향 스코틀랜드문화에
대한 잉글랜드의 탄압으로 사용인구가 줄어들었다. 스코트어는 영어와 계통이 같은 게르만어파로서 중세영어의 모습을 많이 보존하고 있다. 스코틀랜드
사람들의 영어도 스코트어가 혼합되어 있는데, 발음도 잉글랜드 발음과 많이 다르다. 예를 들어 잉글랜드 사람들은 모음 다음에 나오는 알(R)을
발음하지 않는 반면 스코틀랜드 사람들은 미국이나 캐나다 사람들처럼 알(R)을 분명히 발음한다. 스코틀랜드 게일어는 게르만어파와 전혀 다른 켈트어파에
속하는 켈트족의 순수한 언어로서 현재 사용인구가 1000여명밖에 남아있지 않아 사멸위기에 놓여있다. 2005년에 공용어로 지정되었다.2005년
총선거 이전까지 스코틀랜드에는 영국 의회의 하원 의석 가운데 72석이 할당되어 있었다. 이것은 연합왕국을 구성하는 다른 지역에 비해 의석이
과다 할당된 것이었다. 1998 스코틀랜드법의 81조를 통해 스코틀랜드의 선거구를 잉글랜드와 균등하게 조정하였다. 결과 스코틀랜드에 할당된
의석을 57석으로 줄이는 스코틀랜드 선거구 조정 위원회의 권고가 2005 총선거에서부터 적용되었다. 이러한 의석수 삭감을 위해 영국 의회에서는
1998 스코틀랜드법에 대한 수정안이 2004 스코틀랜드 선거구법으로 통과되었다. 과도할당된 의석을 바탕으로 스코틀랜드는 영국 하원 내에서의
발언권을 갖고 있었으나, 스코틀랜드 의회가 부활되고 이후에는 그러한 발언권이 굳이 필요하지 않게 되었다는 점도 관련된다.
- 새만금지역은 행정구역상 2시1군 19 읍·면·동으로 군산시, 김제시, 부안군에 걸쳐 401km에 이르며 뉴욕 맨해튼의 5배, 서울특별시
면적의 3분의2, 행정복합도시로 새롭게 탄생되는 세종특별자치시 면적의 5.7배에 달한다.
- 세종특별자치시의 행정 구역은 1읍, 9면, 9행정동(14개 법정동)으로 구성되어 있으며, 2018 6 주민등록 기준으로 인구는 30만0332
명, 11만7734 가구이다.
- source_sentence: 니체는 어느 나라 사람인가?
sentences:
- 성리학(性理學) 12세기에 남송의 주희(朱熹)가 집대성한 유교의 주류 학파이다. 성리학의 어원은 주희가 주창한 성즉리(性卽理)를 축약한 명칭이다.
- 니체는 1844 10 15 예전의 프로이센 (독일)의 작센 지방의 작은 마을인 뢰켄(Röcken)에서 루터교 목사의 아들로 태어났다.
그의 이름은 프러시아의 왕인 프리드리히 빌헬름 4세에게서 빌려온 것으로, 빌헬름 4세는 니체가 태어나던 날에 나이가 49세를 넘어있었다(니체는
훗날 그의 이름에서 가운데에 있던 "빌헬름" 버렸다.) 니체의 아버지인 카를 빌헬름 루트비히 니체(1813-1849)는 루터교회 목사이자
전직 교사이었고, 프란치스카 욀러(1826~1897)와 1843년에 결혼하였다. 그의 여동생인 엘리자베스 니체는 1846년에 태어났고, 뒤를
이어 남동생인 루드비히 요셉이 1848년에 태어났다. 니체의 아버지는 질환으로 1849년에 세상을 떠났다. 그의 어린 남동생은 1850년에
죽었다. 가족은 나움부르크로 이사를 갔고, 그곳에서 니체의 할머니와 어머니 프란치스카, 아버지의 결혼하지 않은 자매, 하녀들과
함께 살며 어린시절을 보냈다. 니체의 할머니가 1856년에 세상을 하직하자, 가족은 그들의 집으로 이사했다.
- 19세기 철학자 프리드리히 니체는 '신은 죽었다.'라는 발언으로 알려진 명사이다. 그러나 발언은 니체가 직접 발언이 아니라 그의
작품 인물들 사이의 대화에서 나온 문장이다. 니체는 기독교적 유신론이 신앙 체제로서 서구 세계의 도덕적 근원이였으나 현대 사상의 결과
허무주의의 부상과 기독교적 가치의 하락으로 붕괴되고 거부되었다고 논증하였다. 니체는 굳은 무신론자로서 허무주의와 인본주의의 부작용을 걱정하기도
하였다. 따라서 그는 새로운 사회를 요구하였는데, 그것은 바로 초인 중심의 사회였다.
- source_sentence: 돼지의 번식은 태어난 몇개월 정도 되면 짝짓기를 있나요?
sentences:
- 워싱턴 기념탑(555피트, 169.3m)의 높이 이상으로 건축물을 건설하지 못하도록 하여, 뉴욕와 달리 초고층 건물이 드물다. 백악관,
펜타곤, 연방 의사당 미국의 주요 정부 기관이 있다. 정식 연방주가 아니므로 상원 의석은 없으나, 표결권이 없는 미국 하원 파견대표 1
(2019년 현재 민주당의 Eleanor Holmes Norton의원)과 대통령선거인단 3표를 확보하고 있다.
- 두더지는 태어난 2-3년이면 새끼를 낳을 있다. 3-4월에 짝짓기를 하고 1년에 1회, 2-7마리의 새끼를 낳는다. 성장이 매우 빨라서
6개월이면 앞발을 제외하고 어미와 비슷한 크기로 자란다. 수명은 5 정도이다.
- 돼지는 번식이 매우 빨라서 태어난 8개월 정도가 되면 짝짓기를 있다. 임신기간은 114일이고 보통 한배에 8-12마리를 낳는다.
태어난 새끼돼지는 1kg가량이고, 1주일이 지나면 배로 늘어난다. 자란 수퇘지는 230 kg 이상 되며, 암퇘지도 200kg이
넘는다. 돼지가 완전히 자라기 위해서는 1 반에서 2년이 걸리며 수명은 9-15년이다. 돼지는 오랜 시간과 노력을 거친 품종 개량으로 오늘날
수많은 종에 이르렀다.이슬람교와 유대교의 발원지인 서아시아가 고온건조한 사막기후여서 잡식동물인 데다가 자주 씻는 돼지는 키우기 부적합한 동물이다.
게다가 비활동적인 성격때문에 불결한 짐승으로 여겨졌다. 지금도 이슬람교도와 유대인들은 돼지고기를 먹지 않는 전통이 있다.
- source_sentence: 인간은 언제 달에 착륙했는가?
sentences:
- 세종특별자치시의 행정 구역은 1읍, 9면, 9행정동(14개 법정동)으로 구성되어 있으며, 2018 6 주민등록 기준으로 인구는 30만0332
명, 11만7734 가구이다.
- 아폴로 11호(Apollo 11)는 처음으로 달에 착륙한 유인 우주선이다. 아폴로 계획의 다섯 번째 유인우주비행인 동시에 번째 유인
탐사이기도 했다. 1969 7 16일에 발사되었으며 선장 암스트롱, 사령선 조종사 마이클 콜린스, 착륙선 조종사 버즈 올드린이 탔다.
7 20 암스트롱과 올드린은 달에 발을 딛은 최초의 인류가 되었다. 당시 콜린스는 궤도를 돌고 있었다.
- 1969 7 16 13 32 UTC에 플로리다 케네디 우주 센터에서 새턴 5 로켓으로 발사되었다. NASA의 5번째 아폴로 프로그램
유인우주선 임무였다. 7 20 20 17 UTC에 달착륙선이 달의 표면에 착륙했다. 선장은 암스트롱 중위, 조종사는 버즈 올드린이었다.
달에 착륙하고 6시간이 지나서 7 21 02 56 15 UTC에 암스트롱이 달에 내렸다. 버즈 올드린은 20 후에 내려왔다. 2시간
30분을 달에서 걸어다니면서 21.5 kg의 모래 등을 채집했다. 궤도를 돌고 있는 사령선에는 마이클 콜린스 (우주비행사)가 혼자 남아있었다.
달에 착륙하고 21.5 시간이 지나서 달착륙선이 이륙해 사령선과 도킹했다.콜린스는 원래 아폴로 8 사령선 조종사를 맡기로 되어 있었으나,
부상으로 인해 탈락하고 러벨이 대신 임무를 맡았다. 또한 아폴로 11 착륙선 조종사를 맡기로 되어 있었으나, 사령선 조종사는 우주
비행 경험이 있는 사람만 있기 때문에 제미니 계획에서 우주비행을 경험이 있던 콜린스 비행사가 사령선 조종사로 일종의 '진급' 하게
되었다.달 착륙선은 미국의 국장이자 아폴로 11호의 기장 마스코트인 흰머리수리에서 착안, 이글("Eagle")로 이름지어졌다. 사령선의 이름은
아폴로 11 승무원들이 자신들의 탐험을 대륙을 발견했던 콜롬버스의 이름을 따서 콜럼비아("Columbia")로 이름이 지어졌다. 미국
항공우주국 내부 문서에는 착륙선과 사령선을 각각 빙수("Snowcone")와 건초가리("Haystack")로 부를 계획이 잡혀 있었으나,
이들 이름은 언론에 계획이 공표되기 전에 조용히 바뀌었다.
- source_sentence: 인간은 언제 달에 착륙했는가?
sentences:
- 아폴로 11호(Apollo 11)는 처음으로 달에 착륙한 유인 우주선이다. 아폴로 계획의 다섯 번째 유인우주비행인 동시에 번째 유인
탐사이기도 했다. 1969 7 16일에 발사되었으며 선장 암스트롱, 사령선 조종사 마이클 콜린스, 착륙선 조종사 버즈 올드린이 탔다.
7 20 암스트롱과 올드린은 달에 발을 딛은 최초의 인류가 되었다. 당시 콜린스는 궤도를 돌고 있었다.
- 가톨릭 신자들은 모든 주일 (그리스도교)과 더불어 의무 대축일에 해당하는 천주의 성모 마리아 대축일(1월 1일), 주님 부활 대축일, 성모
승천 대축일(8월 15일), 주님 성탄 대축일(12월 25일)에 미사에 참례해야 하는 것이 기본적인 의무이다.
- 사일런스는 닥터를 죽이기 위한 계획의 일환으로 우주복이 필요했으며, 인류에 걸쳐 '암시 능력' 이용해 인류가 달에 가기 위한 연구를 하게
만들고 결과 인간이 만들어낸 우주복을 훔쳐 각종 최신 과학기술력을 탑재하여 개조한다. 하지만 사일런스가 "인간은 우릴 보고있을 때만 죽일
수 있다." 라고 말한 장면을 닥터가 아폴로 우주선의 송신 장치에 붙여놓아 아폴로 우주선이 착륙할때 TV 화면을 보고있던 세계 사람들에게
'사일런스를 죽여라'라는 암시가 걸리고 결과 사일런스는 1969년를 기점으로 더이상 인류에게 암시를 하지 못하게 되었다.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
---
# SentenceTransformer based on Alibaba-NLP/gte-multilingual-mlm-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-mlm-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-mlm-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [Alibaba-NLP/gte-multilingual-mlm-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-mlm-base) <!-- at revision b747c5e8eb09e48c24eb3d4e48f80a79a18889ff -->
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
<!-- - **Training Dataset:** Unknown -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/gte-gold-bs64")
# Run inference
sentences = [
'인간은 언제 달에 착륙했는가?',
'아폴로 11호(Apollo 11)는 처음으로 달에 착륙한 유인 우주선이다. 아폴로 계획의 다섯 번째 유인우주비행인 동시에 세 번째 유인 달 탐사이기도 했다. 1969년 7월 16일에 발사되었으며 선장 닐 암스트롱, 사령선 조종사 마이클 콜린스, 달 착륙선 조종사 버즈 올드린이 탔다. 7월 20일 암스트롱과 올드린은 달에 발을 딛은 최초의 인류가 되었다. 당시 콜린스는 달 궤도를 돌고 있었다.',
'사일런스는 닥터를 죽이기 위한 계획의 일환으로 우주복이 필요했으며, 전 인류에 걸쳐 \'암시 능력\'을 이용해 인류가 달에 가기 위한 연구를 하게 만들고 그 결과 인간이 만들어낸 우주복을 훔쳐 각종 최신 과학기술력을 탑재하여 개조한다. 하지만 사일런스가 "인간은 우릴 보고있을 때만 죽일 수 있다." 라고 말한 장면을 닥터가 아폴로 우주선의 송신 장치에 붙여놓아 아폴로 우주선이 달 착륙할때 TV 화면을 보고있던 전 세계 사람들에게 \'사일런스를 죽여라\'라는 암시가 걸리고 그 결과 사일런스는 1969년를 기점으로 더이상 인류에게 암시를 하지 못하게 되었다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
<!--
### Direct Usage (Transformers)
<details><summary>Click to see the direct usage in Transformers</summary>
</details>
-->
<!--
### Downstream Usage (Sentence Transformers)
You can finetune this model on your own dataset.
<details><summary>Click to expand</summary>
</details>
-->
<!--
### Out-of-Scope Use
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->
<!--
## Bias, Risks and Limitations
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->
<!--
### Recommendations
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 5,376 training samples
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
| type | string | string | string |
| details | <ul><li>min: 6 tokens</li><li>mean: 14.66 tokens</li><li>max: 83 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 151.18 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 169.71 tokens</li><li>max: 512 tokens</li></ul> |
* Samples:
| anchor | positive | negative |
|:---------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| <code>로마의 면적은 서울시의 2배인가요?</code> | <code>로마()는 이탈리아의 수도이자 라치오주의 주도로, 테베레 강 연안에 있다. 로마시의 행정구역 면적은 1,285km로 서울시의 2배정도이고, 2014년 인구는 290여만명이다. 로마시 권역의 인구는 430여만명이다. 로마 대도시현의 인구는 400만이 넘지만 밀라노나 나폴리 대도시현에 비해 면적이 3~4배 넓은 편이고 되려 로마시의 면적과 밀라노와 나폴리의 대도시현의 면적이 비슷하므로 세 도시 모두 300만 정도로 비슷한 규모의 도시라 볼 수 있다.</code> | <code>도봉구는 서울시청으로부터 약12km 동북부에 구의 중심인 방학동이 위치하며, 구 전체면적은 20.84km로 서울특별시 면적의 3.4%를 차지하고 있다. 도봉구 면적 중에서 가장 많이 차지하는 부분은 북한산국립공원을 비롯한 공원으로, 구면적의 48.2%인 10.05km에 달하고 있다. 서울시의 최북단에 위치한 도봉구는 동쪽으로 노원구 상계동과, 서쪽은 강북구 수유동·우이동과, 남쪽은 노원구 월계동 및 강북구 번동과 북쪽은 의정부시 호원동 등과 접하고 있는 서울 동북부의 관문 지역이다.</code> |
| <code>로마의 면적은 서울시의 2배인가요?</code> | <code>로마()는 이탈리아의 수도이자 라치오주의 주도로, 테베레 강 연안에 있다. 로마시의 행정구역 면적은 1,285km로 서울시의 2배정도이고, 2014년 인구는 290여만명이다. 로마시 권역의 인구는 430여만명이다. 로마 대도시현의 인구는 400만이 넘지만 밀라노나 나폴리 대도시현에 비해 면적이 3~4배 넓은 편이고 되려 로마시의 면적과 밀라노와 나폴리의 대도시현의 면적이 비슷하므로 세 도시 모두 300만 정도로 비슷한 규모의 도시라 볼 수 있다.</code> | <code>신안군(新安郡)은 유인도 72개와 무인도 932개로 이뤄져 있다. 섬의 면적만 (655km)에 달하고, 바다와 육지 넓이를 더한 신안군의 면적은 서울시의 22배나 된다. 이런 넓은 지역을 36곳의 치안센터와 파출소에 근무하는 목포경찰서 소속 경찰관 100여명이 관리해, 이전부터 치안 공백을 우려하는 주민들의 지적이 많았다. 신안군 한 사회단체 관계자는 "신안에 경찰서가 있었다면 염전 종사자 관리감독이 이처럼 방관 상태까지 이르지 않았을 것이다"고 주장했다.</code> |
| <code>로마의 면적은 서울시의 2배인가요?</code> | <code>로마()는 이탈리아의 수도이자 라치오주의 주도로, 테베레 강 연안에 있다. 로마시의 행정구역 면적은 1,285km로 서울시의 2배정도이고, 2014년 인구는 290여만명이다. 로마시 권역의 인구는 430여만명이다. 로마 대도시현의 인구는 400만이 넘지만 밀라노나 나폴리 대도시현에 비해 면적이 3~4배 넓은 편이고 되려 로마시의 면적과 밀라노와 나폴리의 대도시현의 면적이 비슷하므로 세 도시 모두 300만 정도로 비슷한 규모의 도시라 볼 수 있다.</code> | <code>로마는 2015년 1월 1일부로 로마 수도 광역시의 행정 중심지가 되었다. 이 로마 수도 광역시는 로마 광역권에 북쪽으로 치비타베키아까지 뻗어나갔던 구 로마현을 대체했다. 로마 수도 광역시의 면적은 총 5,353제곱미터로 이탈리아에서 가장 크며, 리구리아주에 맞먹는다. 이와 더불어 로마는 라치오주의 주도이기도 하다.</code> |
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `per_device_train_batch_size`: 64
- `gradient_accumulation_steps`: 8
- `learning_rate`: 0.0001
- `adam_epsilon`: 1e-07
- `num_train_epochs`: 10
- `warmup_ratio`: 0.1
- `fp16`: True
- `dataloader_drop_last`: True
- `batch_sampler`: no_duplicates
#### All Hyperparameters
<details><summary>Click to expand</summary>
- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: no
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 64
- `per_device_eval_batch_size`: 8
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 8
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 0.0001
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-07
- `max_grad_norm`: 1.0
- `num_train_epochs`: 10
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.1
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: False
- `fp16`: True
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: True
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: False
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`:
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `eval_use_gather_object`: False
- `batch_sampler`: no_duplicates
- `multi_dataset_batch_sampler`: proportional
</details>
### Training Logs
| Epoch | Step | Training Loss |
|:------:|:----:|:-------------:|
| 0.0952 | 1 | 5.6584 |
| 0.1905 | 2 | 5.6663 |
| 0.2857 | 3 | 5.2883 |
| 0.3810 | 4 | 5.5523 |
| 0.4762 | 5 | 5.5037 |
| 0.5714 | 6 | 5.1176 |
| 0.6667 | 7 | 4.9949 |
| 0.7619 | 8 | 5.0314 |
| 0.8571 | 9 | 4.4824 |
| 0.9524 | 10 | 4.1297 |
| 1.0952 | 11 | 3.6362 |
| 1.1905 | 12 | 2.9783 |
| 1.2857 | 13 | 2.6855 |
| 1.3810 | 14 | 2.1482 |
| 1.4762 | 15 | 1.9731 |
| 1.5714 | 16 | 1.6655 |
| 1.6667 | 17 | 1.5604 |
| 1.7619 | 18 | 1.3974 |
| 1.8571 | 19 | 1.2828 |
| 1.9524 | 20 | 1.3931 |
| 2.0952 | 21 | 1.0056 |
| 2.1905 | 22 | 0.8308 |
| 2.2857 | 23 | 0.7171 |
| 2.3810 | 24 | 0.6162 |
| 2.4762 | 25 | 0.6624 |
| 2.5714 | 26 | 0.5194 |
| 2.6667 | 27 | 0.5322 |
| 2.7619 | 28 | 0.457 |
| 2.8571 | 29 | 0.5596 |
| 2.9524 | 30 | 0.5194 |
| 3.0952 | 31 | 0.3777 |
| 3.1905 | 32 | 0.324 |
| 3.2857 | 33 | 0.2961 |
| 3.3810 | 34 | 0.2515 |
| 3.4762 | 35 | 0.2501 |
| 3.5714 | 36 | 0.2552 |
| 3.6667 | 37 | 0.1956 |
| 3.7619 | 38 | 0.1688 |
| 3.8571 | 39 | 0.207 |
| 3.9524 | 40 | 0.2219 |
| 4.0952 | 41 | 0.1458 |
| 4.1905 | 42 | 0.1345 |
| 4.2857 | 43 | 0.1421 |
| 4.3810 | 44 | 0.1228 |
| 4.4762 | 45 | 0.1158 |
| 4.5714 | 46 | 0.1105 |
| 4.6667 | 47 | 0.0788 |
| 4.7619 | 48 | 0.079 |
| 4.8571 | 49 | 0.111 |
| 4.9524 | 50 | 0.1202 |
| 5.0952 | 51 | 0.0685 |
| 5.1905 | 52 | 0.0834 |
| 5.2857 | 53 | 0.0711 |
| 5.3810 | 54 | 0.0694 |
| 5.4762 | 55 | 0.0627 |
| 5.5714 | 56 | 0.0655 |
| 5.6667 | 57 | 0.0576 |
| 5.7619 | 58 | 0.0467 |
| 5.8571 | 59 | 0.0582 |
| 5.9524 | 60 | 0.07 |
| 6.0952 | 61 | 0.0399 |
| 6.1905 | 62 | 0.0498 |
| 6.2857 | 63 | 0.0509 |
| 6.3810 | 64 | 0.0495 |
| 6.4762 | 65 | 0.0399 |
| 6.5714 | 66 | 0.0305 |
| 6.6667 | 67 | 0.0202 |
| 6.7619 | 68 | 0.0205 |
| 6.8571 | 69 | 0.0321 |
| 6.9524 | 70 | 0.048 |
| 7.0952 | 71 | 0.0231 |
| 7.1905 | 72 | 0.0388 |
| 7.2857 | 73 | 0.0241 |
| 7.3810 | 74 | 0.0227 |
| 7.4762 | 75 | 0.0241 |
| 7.5714 | 76 | 0.0252 |
| 7.6667 | 77 | 0.0202 |
| 7.7619 | 78 | 0.0171 |
| 7.8571 | 79 | 0.0277 |
| 7.9524 | 80 | 0.0352 |
| 8.0952 | 81 | 0.016 |
| 8.1905 | 82 | 0.0186 |
| 8.2857 | 83 | 0.0228 |
| 8.3810 | 84 | 0.0173 |
| 8.4762 | 85 | 0.0134 |
| 8.5714 | 86 | 0.0138 |
| 8.6667 | 87 | 0.0126 |
| 8.7619 | 88 | 0.0108 |
| 8.8571 | 89 | 0.0156 |
| 8.9524 | 90 | 0.0235 |
| 9.0952 | 91 | 0.0117 |
| 9.1905 | 92 | 0.0155 |
| 9.2857 | 93 | 0.0135 |
| 9.3810 | 94 | 0.0162 |
| 9.4762 | 95 | 0.0121 |
| 9.5714 | 96 | 0.0125 |
| 9.6667 | 97 | 0.0113 |
| 9.7619 | 98 | 0.0085 |
| 9.8571 | 99 | 0.0164 |
| 9.9524 | 100 | 0.0206 |
### Framework Versions
- Python: 3.10.13
- Sentence Transformers: 3.2.1
- Transformers: 4.44.2
- PyTorch: 2.4.0+cu121
- Accelerate: 1.1.1
- Datasets: 2.21.0
- Tokenizers: 0.19.1
## Citation
### BibTeX
#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
```
#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
<!--
## Glossary
*Clearly define terms in order to be accessible across audiences.*
-->
<!--
## Model Card Authors
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->
<!--
## Model Card Contact
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->