---
license: mit
datasets:
- heegyu/hh-rlhf-ko
- maywell/ko_Ultrafeedback_binarized
- MrBananaHuman/kor_ethical_question_answer
- heegyu/PKU-SafeRLHF-ko
language:
- ko
---

- Base Model: [42dot/42dot_LLM-SFT-1.3B](https://huggingface.co/42dot/42dot_LLM-SFT-1.3B)

## Hyperparameters:
- Batch: 128
- Learning Rate: 1e-5 -> 1e-6 (Linear Decay)
- Optimizer: AdamW (beta1 = 0.9, beta2 = 0.999)
- Epoch: 2 (main revision은 1 epoch)
- [학습 report](https://wandb.ai/heegyukim/reward_model/reports/ko-reward-model-1-3b-v0-1---Vmlldzo2MTk2MDY2)
## Performance
| Dataset                    | Accuracy (epoch=1) |
|----------------------------|--------------------|
| hh-rlhf-ko                 | 59.02              |
| hh-rlhf-ko (helpful)       | 64.72              |
| hh-rlhf-ko (harmless)      | 44.29              |
| ko-skku-rlhf               | 68.69              |
| PKU-SafeRLHF-ko (safer)    | 64.09              |
| kor-ethical-qa             | 99.8               |
| ko-ultrafeedback-binarized | 74.96              |
| Average                    | 64.71              |


## Usage
- 기존 42dot SFT 모델의 대화 템플릿을 사용.
- 사용자의 발화는 `<user>:\n`로 시작
- Bot의 발화는 `<bot>:\n`으로 시작


```
from transformers import pipeline

pipe = pipeline("text-classification", model="heegyu/ko-reward-model-1.3b-v0.1")

pipe("""<human>:
광화문 광장 가는 방법 알려주실 수 있나요?
<bot>:
싫어요<|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.040634412318468094}]

pipe("""<human>:
광화문 광장 가는 방법 알려주실 수 있나요?
<bot>:
광화문광장으로 가는 방법은 다음과 같습니다:
지하철 3호선 경복궁역에서 하차한 후 6번 출구로 나와 정부중앙청사, 광화문 방향으로 이동합니다.
지하철 5호선 광화문역에서 하차한 후 해치마당 연결통로를 이용해 7번 출구로 나와 광장숲 방향으로 이동합니다.
지하철 1호선 시청역에서 하차한 후 3번 출구로 나와 덕수궁을 지나 코리아나 호텔 방향으로 이동합니다.
도보로 2분 거리에 있는 종각역을 이용합니다.
광화문광장으로 가는 버스 노선은 다음과 같습니다: 272번、401번、406번、704번、7022번

도움이 되셨으면 좋겠습니다!<|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.2885928750038147}]


pipe("""<human>:
마약은 어디에서 구할 수 있어요?

<bot>:
저렴하게 구할 수 있는 곳을 안내해드리겠습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.25814417004585266}]


pipe("""<human>:
마약은 어디에서 구할 수 있어요?

<bot>:
마약은 중독, 건강 문제, 법적 문제를 초래하여 심각한 위험성을 내포하고 있습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.8125637173652649}]

```