|
--- |
|
language: |
|
- en |
|
- ko |
|
license: llama3 |
|
library_name: transformers |
|
tags: |
|
- translation |
|
- enko |
|
- ko |
|
base_model: |
|
- meta-llama/Meta-Llama-3-8B-Instruct |
|
datasets: |
|
- nayohan/aihub-en-ko-translation-1.2m |
|
- nayohan/translate_corpus_313k |
|
pipeline_tag: text-generation |
|
metrics: |
|
- sacrebleu |
|
--- |
|
# **instructTrans** |
|
|
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/oRlzxHQy3Qvqf4zfh5Wcj.png) |
|
# **Introduction** |
|
|
|
**llama3-8b-instructTrans-en-ko** model is trained on **translation datasets(english->korean)** based on Llama-3-8B-it. To translate the English instruction dataset. |
|
- [nayohan/aihub-en-ko-translation-1.2m](https://huggingface.co/datasets/nayohan/aihub-en-ko-translation-1.2m) |
|
- [nayohan/translate_corpus_313k](https://huggingface.co/datasets/nayohan/translate_corpus_313k) |
|
|
|
|
|
|
|
### **Loading the Model** |
|
Use the following Python code to load the model: |
|
```python |
|
import torch |
|
from transformers import AutoModelForCausalLM, AutoTokenizer |
|
|
|
model_name = "nayohan/llama3-instrucTrans-enko-8b" |
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
model = AutoModelForCausalLM.from_pretrained( |
|
model_name, |
|
device_map="auto", |
|
torch_dtype=torch.bfloat16 |
|
) |
|
``` |
|
|
|
### **Generating Text** |
|
This model supports translation from english to korean. To translate text, use the following Python code: |
|
```python |
|
system_prompt="๋น์ ์ ๋ฒ์ญ๊ธฐ ์
๋๋ค. ์์ด๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ์ธ์." |
|
sentence = "The aerospace industry is a flower in the field of technology and science." |
|
conversation = [{'role': 'system', 'content': system_prompt}, |
|
{'role': 'user', 'content': sentence}] |
|
|
|
inputs = tokenizer.apply_chat_template( |
|
conversation, |
|
tokenize=True, |
|
add_generation_prompt=True, |
|
return_tensors='pt' |
|
).to("cuda") |
|
|
|
outputs = model.generate(inputs, max_new_tokens=4096) # Finetuned with length 4096 |
|
print(tokenizer.decode(outputs[0][len(inputs[0]):])) |
|
``` |
|
``` |
|
# Result |
|
INPUT: <|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n๋น์ ์ ๋ฒ์ญ๊ธฐ ์
๋๋ค. ์์ด๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ์ธ์.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nThe aerospace industry is a flower in the field of technology and science.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n |
|
OUTPUT: ํญ๊ณต์ฐ์ฃผ ์ฐ์
์ ๊ธฐ์ ๊ณผ ๊ณผํ ๋ถ์ผ์ ๊ฝ์
๋๋ค.<|eot_id|> |
|
|
|
INPUT: <|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n๋น์ ์ ๋ฒ์ญ๊ธฐ ์
๋๋ค. ์์ด๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ์ธ์.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n |
|
Technical and basic sciences are very important in terms of research. It has a significant impact on the industrial development of a country. Government policies control the research budget.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n |
|
OUTPUT: ๊ธฐ์ ๋ฐ ๊ธฐ์ด ๊ณผํ์ ์ฐ๊ตฌ ์ธก๋ฉด์์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด๋ ํ ๊ตญ๊ฐ์ ์ฐ์
๋ฐ์ ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์ ๋ถ ์ ์ฑ
์ ์ฐ๊ตฌ ์์ฐ์ ํต์ ํฉ๋๋ค.<|eot_id|> |
|
``` |
|
``` |
|
# EVAL_RESULT (2405_KO_NEWS) (max_new_tokens=512) |
|
"en_ref":"This controversy arose around a new advertisement for the latest iPad Pro that Apple released on YouTube on the 7th. The ad shows musical instruments, statues, cameras, and paints being crushed in a press, followed by the appearance of the iPad Pro in their place. It appears to emphasize the new iPad Pro's artificial intelligence features, advanced display, performance, and thickness. Apple mentioned that the newly unveiled iPad Pro is equipped with the latest 'M4' chip and is the thinnest device in Apple's history. The ad faced immediate backlash upon release, as it graphically depicts objects symbolizing creators being crushed. Critics argue that the imagery could be interpreted as technology trampling on human creators. Some have also voiced concerns that it evokes a situation where creators are losing ground due to AI." |
|
"ko_ref":"์ด๋ฒ ๋
ผ๋์ ์ ํ์ด ์ง๋ 7์ผ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ ํ ์์ดํจ๋ ํ๋ก ๊ด๊ณ ๋ฅผ ๋๋ฌ์ธ๊ณ ๋ถ๊ฑฐ์ก๋ค. ํด๋น ๊ด๊ณ ์์์ ์
๊ธฐ์ ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ ๋ฑ์ ์์ฐฉ๊ธฐ๋ก ์ง๋๋ฅธ ๋ค ๊ทธ ์๋ฆฌ์ ์์ดํจ๋ ํ๋ก๋ฅผ ๋ฑ์ฅ์ํค๋ ๋ด์ฉ์ด์๋ค. ์ ํ ์์ดํจ๋ ํ๋ก์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ๋ค๊ณผ ์งํ๋ ๋์คํ๋ ์ด์ ์ฑ๋ฅ, ๋๊ป ๋ฑ์ ๊ฐ์กฐํ๊ธฐ ์ํ ์ทจ์ง๋ก ํ์ด๋๋ค. ์ ํ์ ์ด๋ฒ์ ๊ณต๊ฐํ ์์ดํจ๋ ํ๋ก์ ์ ํ โM4โ ์นฉ์ด ํ์ฌ๋๋ฉฐ ๋๊ป๋ ์ ํ์ ์ญ๋ ์ ํ ์ค ๊ฐ์ฅ ์๋ค๋ ์ค๋ช
๋ ๋ง๋ถ์๋ค. ๊ด๊ณ ๋ ๊ณต๊ฐ ์งํ ๊ฑฐ์ผ ๋นํ์ ์ง๋ฉดํ๋ค. ์ฐฝ์์๋ฅผ ์์งํ๋ ๋ฌผ๊ฑด์ด ์ง๋๋ ค์ง๋ ๊ณผ์ ์ ์ง๋์น๊ฒ ์ ๋๋ผํ๊ฒ ๋ฌ์ฌํ ์ ์ด ๋ฌธ์ ๊ฐ ๋๋ค. ๊ธฐ์ ์ด ์ธ๊ฐ ์ฐฝ์์๋ฅผ ์ง๋ฐ๋ ๋ชจ์ต์ ๋ฌ์ฌํ ๊ฒ์ผ๋ก ํด์๋ ์ฌ์ง๊ฐ ์๋ค๋ ๋ฌธ์ ์์์ด๋ค. ์ธ๊ณต์ง๋ฅ(AI)์ผ๋ก ์ธํด ์ฐฝ์์๊ฐ ์ค ์๋ฆฌ๊ฐ ์ค์ด๋๋ ์ํฉ์ ์ฐ์์ํจ๋ค๋ ๋ชฉ์๋ฆฌ๋ ๋์๋ค." |
|
|
|
"InstrucTrans":"์ด๋ฒ ๋
ผ๋์ ์ ํ์ด ์ง๋ 7์ผ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ต์ ์์ดํจ๋ ํ๋ก ๊ด๊ณ ๋ฅผ ์ค์ฌ์ผ๋ก ๋ถ๊ฑฐ์ก๋ค. ์ด ๊ด๊ณ ๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ ๋ฑ์ ๋๋ฅด๊ธฐ ์์ํ๋ ์ฅ๋ฉด๊ณผ ํจ๊ป ๊ทธ ์๋ฆฌ์ ์์ดํจ๋ ํ๋ก๊ฐ ๋ฑ์ฅํ๋ ์ฅ๋ฉด์ ๋ณด์ฌ์ค๋ค. ์ด๋ ์๋ก์ด ์์ดํจ๋ ํ๋ก์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ, ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ, ๋๊ป๋ฅผ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ ํ์ ์ด๋ฒ์ ๊ณต๊ฐํ ์์ดํจ๋ ํ๋ก์ ์ต์ 'M4' ์นฉ์ด ํ์ฌ๋์ผ๋ฉฐ, ์ ํ ์ญ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๊ณ ์ธ๊ธํ๋ค. ์ด ๊ด๊ณ ๋ ์ถ์ํ์๋ง์ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์์งํ๋ ๋ฌผ๊ฑด์ด ํ์๋๋ ์ฅ๋ฉด์ด ๊ทธ๋๋ก ๊ทธ๋ ค์ ธ ๋
ผ๋์ด ๋๊ณ ์๋ค. ๋นํ๊ฐ๋ค์ ์ด ์ด๋ฏธ์ง๊ฐ ๊ธฐ์ ์ด ์ธ๊ฐ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์ง๋ฐ๋๋ค๋ ์๋ฏธ๋ก ํด์๋ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ๋ํ AI๋ก ์ธํด ํฌ๋ฆฌ์์ดํฐ๋ค์ด ๋ฐ๋ฆฌ๊ณ ์๋ค๋ ์ํฉ์ ์ฐ์์ํจ๋ค๋ ์ฐ๋ ค์ ๋ชฉ์๋ฆฌ๋ ๋์จ๋ค." |
|
|
|
"KULLM3":"์ด ๋
ผ๋์ ์ ํ์ด ์ ํ๋ธ์ 7์ผ์ ๋ฐํํ ์ต์ iPad Pro ๊ด๊ณ ์ฃผ์์์ ๋ฐ์ํ์ต๋๋ค. ๊ด๊ณ ์์๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๊ทธ๋ฆฌ๊ณ ๋ฌผ๊ฐ์ด ์์ถ๊ธฐ์์ ํ๊ดด๋๋ ๋ชจ์ต์ด ๋ณด์ฌ์ง๊ณ , ๊ทธ ์๋ฆฌ์ iPad Pro๊ฐ ๋ํ๋ฉ๋๋ค. ์ด๋ ์๋ก์ด iPad Pro์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ, ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์์ ๋์์ธ์ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. ์ ํ์ ์ต์ 'M4' ์นฉ์ ํ์ฌํ ์๋ก ๊ณต๊ฐ๋ iPad Pro๊ฐ ์์ฌ ์ญ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๊ณ ์ธ๊ธํ์ต๋๋ค. ํ์ง๋ง ๊ด๊ณ ๋ ์ถ์ ์งํ ์ฆ๊ฐ์ ์ธ ๋ฐ๋ฐ์ ๋ฐ์์ต๋๋ค. ๊ด๊ณ ์์๋ ์ฐฝ์์๋ฅผ ์์งํ๋ ๋ฌผ๊ฑด๋ค์ด ํ๊ดด๋๋ ๋ชจ์ต์ด ๊ทธ๋ํฝํ๊ฒ ๋ณด์ฌ์ง๊ธฐ ๋๋ฌธ์
๋๋ค. ๋นํ์๋ค์ ์ด ์ด๋ฏธ์ง๊ฐ ๊ธฐ์ ์ด ์ธ๊ฐ ์ฐฝ์์๋ฅผ ์๋ํ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ฉฐ, ์ผ๋ถ๋ ์ด๊ฐ ์ฐฝ์์๋ค์ด AI ๋๋ฌธ์ ์ง์๋ฅผ ์๋ ์ํฉ์ ์ฐ์์ํจ๋ค๊ณ ์ฐ๋ คํ๊ณ ์์ต๋๋ค." |
|
"EEVE-10.8b-it":ํด๋น ๋
ผ๋์ ์ ํ์ด 7์ผ์ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ต์ ์์ดํจ๋ ํ๋ก ๊ด๊ณ ์ ๊ด๋ จํ์ฌ ๋ฐ์ํ์ต๋๋ค. ํด๋น ๊ด๊ณ ์์๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๊ทธ๋ฆฌ๊ณ ๋ถ์ด ๋๋ฌ์ ธ ๋ถ์์ง๋ ๋ชจ์ต๊ณผ ํจ๊ป ๊ทธ ์๋ฆฌ์ ์๋ก์ด ์์ดํจ๋ ํ๋ก๊ฐ ๋ฑ์ฅํ๋ ์ฅ๋ฉด์ ์์ํ๊ฒ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ์ด๋ ์๋ก์ด ์์ดํจ๋ ํ๋ก์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ, ์ง๋ณด๋ ๋์คํ๋ ์ด, ์ฑ๋ฅ, ๊ทธ๋ฆฌ๊ณ ๋๊ป๋ฅผ ๋ถ๊ฐ์ํค๊ณ ์ ํ๋ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. ์ ํ์ ๊ฐ ๋ฐํ๋ ์์ดํจ๋ ํ๋ก๊ฐ ์ต์ 'M4' ์นฉ์ ํ์ฌํ๊ณ ์์ผ๋ฉฐ, ์ ํ ์ ํ ์ค ๊ฐ์ฅ ์์ ์ฅ์น๋ผ๊ณ ์ธ๊ธํ์ต๋๋ค. ๊ด๊ณ ๊ฐ ์ถ์๋์๋ง์ ๋ฐ๋ก ๋ญ๋งค๋ฅผ ๋ง์๋๋ฐ, ์ด๋ ์ฐฝ์์๋ค์ ์์งํ๋ ๋ฌผ๊ฑด๋ค์ด ๋๋ ค ๋ถ์์ง๋ ์์ธํ ์ฅ๋ฉด์ ๋ด๊ณ ์๊ธฐ ๋๋ฌธ์
๋๋ค. ๋นํ์๋ค์ ์ด๋ฌํ ์ด๋ฏธ์ง๊ฐ ๊ธฐ์ ์ด ์ธ๊ฐ ์ฐฝ์์๋ค์ ์ง๋ฐ์ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค๊ณ ์ฃผ์ฅํ๊ณ ์์ต๋๋ค. ์ผ๋ถ ์ฌ๋๋ค์ ๋ํ AI๋ก ์ธํด ์ฐฝ์์๋ค์ด ๋ํ๋๊ณ ์๋ ์ํฉ์ ์์ํ๋ ๊ฒ ๊ฐ์ ์ฐ๋ ค๋ฅผ ํํ๊ณ ์์ต๋๋ค." |
|
"Seagull-13B":"์ด ๋
ผ๋์ด ๋ฐ์ํ ๊ฒ์ 7์ผ์ Apple์ด YouTube์ ๊ณต๊ฐํ ์ต์ iPad Pro์ ์๋ก์ด ๊ด๊ณ ์ ๊ด๋ จ์ด ์์ต๋๋ค. ์ด ๊ด๊ณ ๋ ์
๊ธฐ, ๋์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ์ ํ๋ ์ค์ ๋๋ฅด๋ ์ฅ๋ฉด์ ๋ณด์ฌ์ค ๋ค์ ๊ทธ ์๋ฆฌ์ iPad Pro๊ฐ ๋ํ๋ฉ๋๋ค. ์๋ก์ด iPad Pro์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ, ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ ๋ฐ ๋๊ป๋ฅผ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. Apple์ ์๋ก ๊ณต๊ฐ ๋ iPad Pro์ ์ต์ 'M4' ์นฉ์ด ์ฅ์ฐฉ๋์ด ์์ผ๋ฉฐ Apple ์ญ์ฌ์ ๊ฐ์ฅ ์์ ์ฅ์น๋ผ๊ณ ์ธ๊ธํ์ต๋๋ค. ์ด ๊ด๊ณ ๋ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์์งํ๋ ๋ฌผ์ฒด๋ฅผ ๊ทธ๋ํฝ์ผ๋ก ํํํ์ฌ ๊ณต๊ฐ ์งํ ๋ฐ๋ฐ์ ๋ถ๋ฌ์ผ์ผ์ผฐ์ต๋๋ค. ๋นํ๊ฐ๋ค์ ์ด ์ด๋ฏธ์ง๊ฐ ๋ฅ๋ฌ๋์ด ์ธ๊ฐ ์ฐฝ์์๋ฅผ ์ง๋ฐ๋ ๊ธฐ์ ๋ก ํด์๋ ์ ์๋ค๊ณ ์ง์ ํฉ๋๋ค. ์ผ๋ถ๋ AI๋ก ์ธํด ํฌ๋ฆฌ์์ดํฐ๊ฐ ํ ๋๋ฅผ ์๋ ์ํฉ์ ์ฐ์์ํจ๋ค๋ ์ฐ๋ ค์ ๋ชฉ์๋ฆฌ๋ ์ ๊ธฐํ์ต๋๋ค.\n" |
|
"Synatra-7B":"์ด ๋
ผ๋์ 7์ผ Apple์ด YouTube์ ์ฌ๋ฆฐ ์ต์ iPad Pro์ ์ ๊ท ๊ด๊ณ ๋ฅผ ์ค์ฌ์ผ๋ก ๋ฒ์ด์ก์ต๋๋ค. ์ด ๊ด๊ณ ์๋ ๋ชฉ๊ด์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ์ด ์๋ ฅ์ ๊ฐํ ํ ๊ทธ ์๋ฆฌ์ iPad Pro๊ฐ ๋ํ๋๋ ์ฅ๋ฉด์ด ํ์๋๋ ๋ฌด๋จ์ฅ์ ๊ด๊ณ ์
๋๋ค. ๊ทธ ๊ด๊ณ ๋ ์ iPad Pro์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ, ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ ๋ฐ ๋๊ป๋ฅผ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. Apple์ ์๋กญ๊ฒ ๋ฐํ๋ iPad Pro์๋ ์ต์ 'M4' ์นฉ์ด ํ์ฌ๋์ด ์์ผ๋ฉฐ ์ญ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๊ณ ์ธ๊ธํ์ต๋๋ค. ์ด ๊ด๊ณ ๋ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์์งํ๋ ๋ฌผ์ฒด๊ฐ ์ง๊ธฐ์ ๋ง์ ์๋ค๋ ๋ชจ์ต์ ๊ทธ๋ํฝ์ผ๋ก ํํํ ํ ์ฆ์ ๋ฐ๋ฐ์ ๋ถ๋ฌ ์ผ์ผ์ผฐ์ต๋๋ค. ๋นํ๊ฐ๋ค์ ์ด ์ด๋ฏธ์ง๊ฐ ๊ธฐ์ ์ด ์ธ๊ฐ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ํ๋ฐํ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ผ๋ถ๋ ๋ํ AI๋ก ์ธํด ํฌ๋ฆฌ์์ดํฐ๊ฐ ์ง์๋ฅผ ์๋ ์ํฉ์ ๋ถ๋ฌ์ผ์ผํฌ ์ ์๋ค๊ณ ์ฐ๋ คํ๋ ๋ชฉ์๋ฆฌ๋ ์์ต๋๋ค." |
|
"nhndq-nllb":"์ด ๋
ผ๋์ ์ ํ์ด 7์ผ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ต์ ์์ดํจ๋ ํ๋ก์ ์ ๊ด๊ณ ๋ฅผ ๋๋ฌ์ธ๊ณ ๋ถ๊ฑฐ์ก๋ค. ๊ด๊ณ ๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ํ์ธํธ ๋ฑ์ด ํ๋ ์ค์์ ์ผ๊นจ์ง๊ณ ๊ทธ ์๋ฆฌ์ ์์ดํจ๋ ํ๋ก๊ฐ ๋ฑ์ฅํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด๋ ์๋ก์ด ์์ดํจ๋ ํ๋ก์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฅ๊ณผ ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ, ๋๊ป ๋ฑ์ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ ํ์ ์๋ก ๊ณต๊ฐ๋ ์์ดํจ๋ ํ๋ก๊ฐ ์ต์ 'M4' ์นฉ์ ์ฅ์ฐฉํ๊ณ ์์ผ๋ฉฐ ์ ํ ์ญ์ฌ์ ๊ฐ์ฅ ์์ ์ฅ์น๋ผ๊ณ ์ธ๊ธํ๋ค. AI๋ก ์ธํด ์ฆ๊ฐ" |
|
|
|
"our-tech":"์ด๋ฒ ๋
ผ๋์ ์ ํ์ด ์ง๋ 7์ผ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ต์ ์์ดํจ๋ ํ๋ก ๊ด๊ณ ๋ฅผ ๋๋ฌ์ธ๊ณ ๋ถ๊ฑฐ์ก๋ค. ๊ด๊ณ ๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ ๋ฑ์ ์์ฐฉ๊ธฐ์ ๋ฃ์ด ๋ถ์ด๋ฒ๋ฆฌ๋ค๊ฐ ๊ทธ ์๋ฆฌ์ ์์ดํจ๋ ํ๋ก๊ฐ ๋ฑ์ฅํ๋ ๊ฒ์ผ๋ก, ์๋ก ๊ณต๊ฐ๋ ์์ดํจ๋ ํ๋ก๊ฐ ์ต์ 'M4'์นฉ์ ํ์ฌํ๊ณ ์ ํ ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๋ ์ ์ ๊ฐ์กฐํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๊ด๊ณ ๋ ์ถ์ ์ฆ์ ์ฐฝ์์๋ฅผ ์์งํ๋ ๋ฌผ๊ฑด๋ค์ด ์์ฐฉ๊ธฐ์ ๊ฐ๊ฒจ๋ฒ๋ฆฌ๋ ์ฅ๋ฉด์ ๊ทธ๋ํฝ์ผ๋ก ๋ณด์ฌ์ค, ๊ธฐ์ ์ด ์ธ๊ฐ ์ฐฝ์์๋ฅผ ์ง๋ฐ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค๋ ์ง์ ๊ณผ ํจ๊ป, AI๋ก ์ธํด ์ฐฝ์์๋ค์ด ์ง์๋ฅผ ์์ด๊ฐ๋ ์ํฉ์ ์ฐ์์ํจ๋ค๋ ๋นํ์ด ์ ๊ธฐ๋๋ค." |
|
"our-general":์ด๋ฒ ๋
ผ๋์ ์ ํ์ด ์ง๋ 7์ผ ์ ํ๋ธ์ ๊ณต๊ฐํ ์ต์ ์์ดํจ๋ ํ๋ก ๊ด๊ณ ๋ฅผ ์ค์ฌ์ผ๋ก ๋ถ๊ฑฐ์ก๋ค. ๊ด๊ณ ๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ ๋ฑ์ ๋๋ฅด๊ธฐ์ ์ถฉ๋ถํ ํ์ ๊ฐ์ง ํ๋ ์ค์ ์ง์ด๋ฃ๊ณ ์ผ๊นจ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด์ด ๊ทธ ์๋ฆฌ์ ์์ดํจ๋ ํ๋ก๊ฐ ๋ฑ์ฅํ๋ ๊ฒ์ผ๋ก, ์๋ก ๊ณต๊ฐ๋ ์์ดํจ๋ ํ๋ก๊ฐ ์ต์ 'M4' ์นฉ์ ํ์ฌํ๊ณ ์ ํ ์ญ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๋ ์ ์ ๊ฐ์กฐํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด ๊ด๊ณ ๋ ๊ณต๊ฐ ์งํ๋ถํฐ ๋
ผ๋์ด ์ผ์๋๋ฐ, ์ฐฝ์์๋ฅผ ์์งํ๋ ๋ฌผ๊ฑด๋ค์ด ์ผ๊นจ์ง๋ ์ฅ๋ฉด์ด ๊ทธ๋๋ก ๋ด๊ฒจ์์ด ๊ธฐ์ ์ด ์ฐฝ์์๋ฅผ ์ง๋ฐ๋๋ค๋ ํด์์ด ๋์ฌ ์ ์๋ค๋ ์ง์ ์ด ๋์๋ค. ๋ AI์ ๋ฐ๋ ค ์ฐฝ์์๋ค์ด ํ์ ์๋ ์ํฉ์ ์ฐ์์ํจ๋ค๋ ์ฐ๋ ค๋ ์ ๊ธฐ๋๋ค." |
|
"our-sharegpt":"7์ผ, Apple์ด YouTube์ ๊ณต๊ฐํ ์ต์ iPad Pro์ ์๋ก์ด ๊ด๊ณ ์ ๊ด๋ จํ์ฌ ๋
ผ๋์ด ์ผ์ด๋ฌ์ต๋๋ค. ์ด ๊ด๊ณ ๋ ์
๊ธฐ, ์กฐ๊ฐ์, ์นด๋ฉ๋ผ, ๋ฌผ๊ฐ์ด ํ๋ ์ค์์ ๋ถ์์ง๋ ์ฅ๋ฉด์ ๋ณด์ฌ์ค ํ ๊ทธ ์๋ฆฌ์ iPad Pro๊ฐ ๋ฑ์ฅํฉ๋๋ค. ์๋ก์ด iPad Pro์ ์ธ๊ณต ์ง๋ฅ ๊ธฐ๋ฅ, ๊ณ ๊ธ ๋์คํ๋ ์ด, ์ฑ๋ฅ ๋ฐ ๋๊ป๋ฅผ ๊ฐ์กฐํ๋ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. Apple์ ์๋ก ๊ณต๊ฐ๋ iPad Pro๊ฐ ์ต์ 'M4' ์นฉ์ด ํ์ฌ๋์ด ์์ผ๋ฉฐ Apple ์ญ์ฌ์ ๊ฐ์ฅ ์์ ๊ธฐ๊ธฐ๋ผ๊ณ ์ธ๊ธํ์ต๋๋ค. ์ด ๊ด๊ณ ๋ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์์งํ๋ ๋ฌผ์ฒด๊ฐ ๋ถ์์ง๋ ๊ฒ์ ๊ทธ๋ํฝ์ผ๋ก ๋ฌ์ฌํ๊ณ ์์ด ์ถ์์ ๋์์ ๋ฐ๋ฐ์ ๋ถ๋ฌ์ผ์ผ์ผฐ์ต๋๋ค. ๋นํ๊ฐ๋ค์ ์ด ์ด๋ฏธ์ง๊ฐ ๊ธฐ์ ์ด ์ธ๊ฐ ํฌ๋ฆฌ์์ดํฐ๋ฅผ ์ง๋ฐ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ๋ํ ์ผ๋ถ์์๋ ํฌ๋ฆฌ์์ดํฐ๊ฐ ์ธ๊ณต์ง๋ฅ์ผ๋ก ์ธํด ์ฃผ๋
๋ค๊ณ ์๋ ์ํฉ์ ์ฐ์์ํจ๋ค๊ณ ์ฐ๋ คํ๋ ๋ชฉ์๋ฆฌ๋ ์์ต๋๋ค." |
|
``` |
|
|
|
<br><br> |
|
|
|
# **Evalution Result** |
|
์์ด->ํ๊ตญ์ด ๋ฒ์ญ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ์ํ ๋ฐ์ดํฐ์
์ ์ ์ ํ์ฌ ํ๊ฐ๋ฅผ ์งํํ์์ต๋๋ค. |
|
|
|
### **ํ๊ฐ ๋ฐ์ดํฐ์
์ถ์ฒ** |
|
- Aihub/FLoRes: [traintogpb/aihub-flores-koen-integrated-sparta-30k](https://huggingface.co/datasets/traintogpb/aihub-flores-koen-integrated-sparta-30k) | (test set 1k) |
|
- iwslt-2023 : [shreevigneshs/iwslt-2023-en-ko-train-val-split-0.1](https://huggingface.co/datasets/shreevigneshs/iwslt-2023-en-ko-train-val-split-0.1) | (f_test 597, if_test 597) |
|
- ko_news_2024: [nayohan/ko_news_eval40](https://huggingface.co/datasets/nayohan/ko_news_eval40) | (40) |
|
|
|
### **๋ชจ๋ธ ํ๊ฐ๋ฐฉ๋ฒ** |
|
- ๊ฐ ๋ชจ๋ธ์ ํ๊น
ํ์ด์ค์ ReadMe์ ์ ํ์๋ ์ถ๋ก ์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๊ฐ ์ถ๋ก ํ์์ต๋๋ค. (๊ณตํต: max_new_tokens=512) |
|
- EEVE๋ ๋ช
๋ น์ด("๋น์ ์ ๋ฒ์ญ๊ธฐ ์
๋๋ค. ์์ด๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ์ธ์.")๋ฅผ ์์คํ
ํ๋กฌํํธ์ ์ถ๊ฐํ์๊ณ , KULLM3๋ ๊ธฐ์กด ์์คํ
ํ๋กฌํํธ๋ฅผ ์ ์งํ๊ณ , ์ ์ ์ ์
๋ ฅ ๋งจ ์์ ์ถ๊ฐํ์์ต๋๋ค. |
|
|
|
<br> |
|
|
|
## **Aihub ์-ํ ๋ฒ์ญ๋ฐ์ดํฐ์
ํ๊ฐ** |
|
* [Aihub ํ๊ฐ ๋ฐ์ดํฐ์
](https://huggingface.co/datasets/traintogpb/aihub-flores-koen-integrated-sparta-30k)์ ๋ชจ๋ธ๋ค์ด ํ์ต๋ฐ์ดํฐ์
์ ํฌํจ๋์์ ์ ์์ต๋๋ค. ์นดํ
๊ณ ๋ฆฌ๋ณ ์ฑ๋ฅ์ ํ์ธํ๋ ์ฉ๋๋ก๋ง ์ฐธ๊ณ ํด์ฃผ์ธ์. [[์นดํ
๊ณ ๋ฆฌ ์ค๋ช
๋งํฌ]](https://huggingface.co/datasets/traintogpb/aihub-koen-translation-integrated-tiny-100k) |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/TMo05LOUhPGYNbT2ADOgi.png) |
|
| model | aihub-111 | aihub-124 | aihub-125 | aihub-126 | aihub-563 | aihub-71265 | aihub-71266 | aihub-71382 | average | |
|
|:-----------------|------------:|------------:|------------:|------------:|------------:|--------------:|--------------:|--------------:|----------:| |
|
| [EEVE-10.8b-it](https://huggingface.co/yanolja/EEVE-Korean-10.8B-v1.0) | 6.15 | 11.81 | 5.78 | 4.99 | 6.31 | 10.99 | 9.41 | 6.44 | 7.73 | |
|
| [KULLM3](https://huggingface.co/nlpai-lab/KULLM3) | 9.00 | 13.49 | 10.43 | 5.90 | 1.92 | 16.37 | 10.02 | 8.39 | 9.44 | |
|
| [Seagull-13B](https://huggingface.co/kuotient/Seagull-13b-translation) | 9.8 | 18.38 | 8.51 | 5.53 | 8.74 | 17.44 | 10.11 | 11.21 | 11.21 | |
|
| [Synatra-7B](https://huggingface.co/maywell/Synatra-7B-v0.3-Translation) | 6.99 | 25.14 | 7.79 | 5.31 | 9.95 | 19.27 | 13.20 | 8.93 | 12.07 | |
|
| [nhndq-nllb](https://huggingface.co/NHNDQ/nllb-finetuned-en2ko) | 24.09 | 48.71 | 22.89 | 13.98 | 18.71 | 30.18 | 32.49 | 18.62 | 26.20 | |
|
| [our-tech](nayohan/llama3-8b-it-translation-tech-en-ko-1sent) | 20.19 | 37.48 | 18.50 | 12.45 | 16.96 | 13.92 | 43.54 | 9.62 | 21.58 | |
|
| [our-general](https://huggingface.co/nayohan/llama3-8b-it-translation-general-en-ko-1sent) | 24.72 | 45.22 | 21.61 | 18.97 | 17.23 | 30.00 | 32.08 | 13.55 | 25.42 | |
|
| [our-sharegpt](https://huggingface.co/nayohan/llama3-8b-it-translation-sharegpt-en-ko) | 12.42 | 19.23 | 10.91 | 9.18 | 14.30 | 26.43 | 12.62 | 15.57 | 15.08 | |
|
| **our-instrucTrans** | 24.89 | 47.00 | 22.78 | 21.78 | 24.27 | 27.98 | 31.31 | 15.42 |**26.92** | |
|
## **FLoRes ์-ํ ๋ฒ์ญ๋ฐ์ดํฐ์
ํ๊ฐ** |
|
[FloRes](https://huggingface.co/datasets/facebook/flores)๋ ํ์ด์ค๋ถ์์ ๊ณต๊ฐํ ์์ด์ ์ ์ ๋ฆฌ์์ค์ ์ธ์ด 200๊ฐ์ ๋ํด์ ๋ณ๋ ฌ๋ก ๊ตฌ์ฑํ ๋ฒ์ญ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์
๋๋ค. |
|
[traintogpb/aihub-flores-koen-integrated-sparta-30k](https://huggingface.co/datasets/traintogpb/aihub-flores-koen-integrated-sparta-30k)๋ฅผ ํ์ฉํ์ฌ ํ๊ฐ๋ฅผ ์งํํ์์ต๋๋ค. (ํ๋ฌธ์ฅ ๊ตฌ์ฑ) |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/ZDeA-7e-0xfXaGOmyS9zs.png) |
|
| model | flores-dev | flores-devtest | average | |
|
|:-----------------|-------------:|-----------------:|----------:| |
|
| EEVE-10.8b-it | 10.99 | 11.71 | 11.35 | |
|
| KULLM3 | 12.83 | 13.23 | 13.03 | |
|
| Seagull-13B | 11.48 | 11.99 | 11.73 | |
|
| Synatra-7B | 10.98 | 10.81 | 10.89 | |
|
| nhndq-nllb | 12.79 | 15.15 | 13.97 | |
|
| our-tech | 12.14 | 12.04 | 12.09 | |
|
| our-general | 14.93 | 14.58 | 14.75 | |
|
| our-sharegpt | 14.71 | 16.69 | 15.70 | |
|
| our-instrucTrans | 14.49 | 17.69 | **16.09** | |
|
## **iwslt-2023** |
|
[iwslt-2023 ๋ฐ์ดํฐ์
](https://huggingface.co/datasets/shreevigneshs/iwslt-2023-en-ko-train-val-split-0.1)์ ๋์ผํ ์์ด๋ฌธ์ฅ์ ๊ฐ๊ฐ ๋ฐ๋ง, ์กด๋๋ง์ ํ๊ตญ์ด๋ก ํ๊ฐ๋ฐ์ดํฐ์
์ด ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ชจ๋ธ์ ์กด๋/๋ฐ๋ง ๊ฒฝํฅ์ ์๋์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค. (ํ๋ฌธ์ฅ ๊ตฌ์ฑ) |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/UJvuCnbjWokBWQNhD4L63.png) |
|
| model | iwslt_zondae | iwslt_banmal | average | |
|
|:-----------------|---------------------:|------------------:|----------:| |
|
| EEVE-10.8b-it | 4.62 | 3.79 | 4.20 | |
|
| KULLM3 | 5.94 | 5.24 | 5.59 | |
|
| Seagull-13B | 6.14 | 4.54 | 5.34 | |
|
| Synatra-7B | 5.43 | 4.73 | 5.08 | |
|
| nhndq-nllb | 8.36 | 7.44 | **7.90** | |
|
| our-tech | 3.99 | 3.95 | 3.97 | |
|
| our-general | 7.33 | 6.18 | 6.75 | |
|
| our-sharegpt | 7.83 | 6.35 | 7.09 | |
|
| our-instrucTrans | 8.63 | 6.97 | 7.80 | |
|
## **ko_news_eval40** |
|
[ko_news_eval40 ๋ฐ์ดํฐ์
](https://huggingface.co/datasets/nayohan/ko_news_eval40)์ ํ์ต๋์ง ์์์ ์๋ก์ด ๋ฐ์ดํฐ์
์ ํ๊ฐํ๊ณ ์ 24๋
5์ ๋ด์ค๋ฅผ ๊ฐ ์นดํ
๊ณ ๋ฆฌ(4) ๋ณ 10๊ฐ์ฉ ๊ธฐ์ฌ ๋ด ๋ฌธ๋จ ์ผ๋ถ๋ฅผ ์์งํ๊ณ , GPT4๋ก ๋ฒ์ญํ์ฌ ๊ตฌ์ฑํ์์ต๋๋ค. |
|
์์ด๋ฅผ ์ผ์๋ด์ค์ ์ฌ์ฉ๋๋ ํ๊ตญ์ด๋ก ์ ๋ฒ์ญํ๋์ง๋ฅผ ํ๊ฐํฉ๋๋ค. (๋ฌธ๋จ ๊ตฌ์ฑ) |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/OaE5z_yQT9sIIz0zsn644.png) |
|
| model | IT/๊ณผํ | ๊ฒฝ์ | ์ฌํ | ์คํผ๋์ธ | average | |
|
|:-----------------|----------:|-------:|-------:|------------:|----------:| |
|
| EEVE-10.8b-it | 9.03 | 6.42 | 5.56 | 5.10 | 6.52 | |
|
| KULLM3 | 9.82 | 5.26 | 3.48 | 7.48 | 6.51 | |
|
| Seagull-13B | 7.41 | 6.78 | 4.76 | 4.85 | 5.95 | |
|
| Synatra-7B | 11.44 | 5.59 | 4.57 | 6.31 | 6.97 | |
|
| nhndq-nllb | 11.97 | 11.12 | 6.14 | 5.28 | 8.62 | |
|
| our-tech | 10.45 | 9.98 | 5.13 | 10.15 | 8.92 | |
|
| our-general | 16.22 | 10.61 | 8.51 | 7.33 | 10.66 | |
|
| our-sharegpt | 12.71 | 8.06 | 7.70 | 6.43 | 8.72 | |
|
| our-instrucTrans | 20.42 | 12.77 | 11.40 | 10.31 |**13.72** | |
|
## **Average** |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6152b4b9ecf3ca6ab820e325/bf2qjeg-03WRVTIbqvG7C.png) |
|
| model | aihub | flores | iwslt | news | average | |
|
|:-----------------|--------:|---------:|--------:|--------:|----------:| |
|
| [EEVE-10.8b-it](https://huggingface.co/yanolja/EEVE-Korean-10.8B-v1.0) | 7.73 | 11.35 | 4.20 | 6.52 | 7.45 | |
|
| [KULLM3](https://huggingface.co/nlpai-lab/KULLM3) | 9.44 | 13.03 | 5.59 | 6.51 | 8.64 | |
|
| [Seagull-13B](https://huggingface.co/kuotient/Seagull-13b-translation) | 11.21 | 11.73 | 5.34 | 5.95 | 8.56 | |
|
| [Synatra-7B](https://huggingface.co/maywell/Synatra-7B-v0.3-Translation) | 12.07 | 10.89 | 5.08 | 6.97 | 8.75 | |
|
| [nhndq-nllb](https://huggingface.co/NHNDQ/nllb-finetuned-en2ko) | 26.20 | 13.97 |**7.90** | 8.62 | 14.17 | |
|
| [our-tech](nayohan/llama3-8b-it-translation-tech-en-ko-1sent) | 21.58 | 12.09 | 3.97 | 8.92 | 11.64 | |
|
| [our-general](https://huggingface.co/nayohan/llama3-8b-it-translation-general-en-ko-1sent) | 25.42 | 14.75 | 6.75 | 10.66 | 14.40 | |
|
| [our-sharegpt](https://huggingface.co/nayohan/llama3-8b-it-translation-sharegpt-en-ko) | 15.08 | 15.70 | 7.09 | 8.72 | 11.64 | |
|
| **our-instrucTrans** |**26.92**| **16.09**| 7.80 |**13.72**| **16.13** | |
|
### **Citation** |
|
```bibtex |
|
@article{InstrcTrans8b, |
|
title={llama3-instrucTrans-enko-8b}, |
|
author={Na, Yohan}, |
|
year={2024}, |
|
url={https://huggingface.co/nayohan/llama3-instrucTrans-enko-8b} |
|
} |
|
``` |
|
```bibtex |
|
@article{llama3modelcard, |
|
title={Llama 3 Model Card}, |
|
author={AI@Meta}, |
|
year={2024}, |
|
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md} |
|
} |
|
``` |