|
--- |
|
datasets: |
|
- beomi/KoAlpaca-v1.1a |
|
- dbdu/ShareGPT-74k-ko |
|
- heegyu/korquad-chat-v1 |
|
- HAERAE-HUB/KoInstruct-QA |
|
- changpt/ko-lima-vicuna |
|
- nlpai-lab/kullm-v2 |
|
language: |
|
- ko |
|
--- |
|
# iknow-lab/AULM-12.8b-v0 |
|
- [EleutherAI/polyglot-ko-12.8b](https://huggingface.co/EleutherAI/polyglot-ko-12.8b)λ₯Ό μ¬λ¬ νκ΅μ΄ instruction λ°μ΄ν°μ
μΌλ‘ νμ΅ν λͺ¨λΈ |
|
|
|
|
|
## μμ±μμ |
|
ν둬ννΈ |
|
``` |
|
λΉμ μ μμ£Όλνκ΅μ νκ΅μ΄ μ±λ΄ μμ°λ¦μ
λλ€. μ¬μ©μμκ² λμμ΄ λκ³ μ μ΅ν λ΄μ©μ μ 곡ν΄μΌν©λλ€. λ΅λ³μ κΈΈκ³ μμΈν΄μΌ νλ©°, λ°λμ μΉμ ν μ€λͺ
μ ν¬ν¨ν΄μΌν©λλ€. |
|
|
|
### μ¬μ©μ: |
|
μμ£Όλνκ΅μ λν΄ μμ? |
|
|
|
### μ±λ΄: |
|
``` |
|
|
|
μμ±λ λ΅λ³: |
|
``` |
|
μμ£Όλνκ΅λ λνλ―Όκ΅μ λνκ΅λ‘, 1973λ
λΆν° μμΉνκ³ μμΌλ©°, κ²½κΈ°λ μμμ μν΅κ΅¬μ μμ¬νκ³ μμ΅λλ€. λνκ΅μ κ·λͺ¨λ λ§€μ° ν¬κ³ , λ€μν μ 곡과 νλ¬Έ λΆμΌλ₯Ό μ 곡νλ©°, λμ μμ€μ κ΅μ‘κ³Ό μ°κ΅¬ νλμ μννκ³ μμ΅λλ€. κ΅μ‘ κΈ°κ΄μΌλ‘μ μμ£Όλμ λͺ©νλ λ€μν κ΅μ μ κΈ°μ€μ κ°μΆ μ λ¬Έμ μ΄κ³ μ°μν μΈμ¬λ₯Ό λ°°μΆνλ κ²μ
λλ€. |
|
|
|
μμ£Όλνκ΅λ νμλ€μ μλμ ν€μ°κΈ° μν΄ λ€μν νλ‘κ·Έλ¨μ μ 곡νκ³ μμ΅λλ€. μλ₯Ό λ€μ΄, μΈλ¬Ένκ³Ό μ΄κ³΅κ³ νκ³Όμ νμλ€μ μΈλ¬Ένκ³Ό μμ°μ κ³Όνμ μ΄ν΄ κΈ°λ°μ λμ΄λ κ³Όμ μ ν΅ν΄ μ§μμ νμ₯ν μ μμΌλ©°, 곡νΒ·IT λΆμΌ νμλ€μ κΈ°μ΄ κ³Όν λΆμΌμ μλμ ν¨μν μ μμ΅λλ€. λν, μμ£Όλμ νμ 체μ λ λ€μν κ³Όλͺ©κ³Ό νκ° μ€νμΌμ κ°μ§κ³ μμ΄, νμλ€μ μμ λ§μ κ³΅λΆ λ°©ν₯μ μ€μ νκ³ νμ μμ€ν
μ μ μν μ μλλ‘ μ§μνκ³ μμ΅λλ€. |
|
|
|
μμ£Όλνκ΅μλ κ΅λ΄ μ΅κ³ μ λνκ΅λ‘μμ μ격μ μ
μ¦νκΈ° μν΄ λ€μν νμ μ°κ΅¬ μΌν°λ€μ΄ μ‘΄μ¬ν©λλ€. κ·Έ μ€μμλ νμ μ μ°κ΅¬ μΌν°λ€μ μμ£Όλνκ΅μ ν΅μ¬ κΈ°κ΄μΌλ‘, νμλ€μ΄ λμ μμ€μ νμ νλμ κ²½νν μ μλλ‘ λμμ€λλ€. λν, μμ£Όλνκ΅μλ μΈκ΅μ΄ μΌν° λ° μΈκ΅μ΄ κ΅μ‘ μ°κ΅¬λ₯Ό μ§ννλ μΈκ΅μ΄ κ΅μ‘μΌν°κ° μμ΄μ, νμλ€μ΄ μΈκ΅μ΄ λ₯λ ₯μ κ°ννκ³ ν΄μΈμ·¨μ
κ°λ₯μ±μ λμΌ μ μλλ‘ μ§μνκ³ μμ΅λλ€. |
|
|
|
μμ£Όλνκ΅λ λ€μν μ¬νμ 곡μ΅μ¬μ
μ μ§ννλ©°, νμλ€κ³Ό μ¬νμμ μνΈμμ©μ΄ λ§€μ° μ€μνλ€κ³ μΈμνκ³ μμ΅λλ€. μ΄λ¬ν λ
Έλ ₯λ€ μ€ νλλ μμ£Όλνκ΅ νμλ€μ λμμΌλ‘ ν μ₯νκΈ μ λλ₯Ό μ΄μνκ³ μλ κ²μ
λλ€. μ₯νκΈμ κ²½μ μ μΈ μ΄μ λ‘ νμ
μ μ΄λ €μμ κ²ͺλ νμλ€μ μ§μνκΈ° μν΄ μ 곡 λκ³ μμΌλ©°, μ΄λ¬ν λ
Έλ ₯μ μμ£Όλνκ΅μμλ μ§μλκ³ μμ΅λλ€. |
|
|
|
λν, μμ£Όλνκ΅λ μ§μ μ¬νμμ μνΈμμ©μλ λ§μ κ΄μ¬μ λκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅μ μΊ νΌμ€ λ΄μμ μ§μ λ΄ μ¬λ¬ κΈ°κ΄λ€κ³Ό ν¨κ»νλ κ΅μ‘ νλ ₯ νλ‘κ·Έλ¨μ μ΄μνκ³ μμ΅λλ€. μ΄λ¬ν νλ ₯ νλ‘κ·Έλ¨μ μ§μ λ΄μ νμλ€μ΄ λ€μν κ΅μ‘κ³Ό λ¬Έν 체νμ ν΅ν΄ κΈλ‘λ²ν μΈμ¬λ‘ μ±μ₯ν μ μλλ‘ μ§μνκ³ μμ΅λλ€. |
|
|
|
μμ£Όλνκ΅λ νμ μ€μ¬ κ΅μ‘μ μΆκ΅¬νκ³ μμ΅λλ€. μ΄λ₯Ό μν΄ μμ£Όλνκ΅λ νμλ€μ μ견μ μ΅λν μμ©νλ €κ³ λ
Έλ ₯νλ©°, κ΅μλ€μ νμλ€μ΄ μ°½μμ±κ³Ό λ¬Έμ ν΄κ²° λ₯λ ₯μ λ°μ μν¬ μ μλλ‘ λ€μν κ°μμ μ€μ΅ νλμ μ 곡νκ³ μμ΅λλ€. μ΄λ κ² νμλ€μ μ€μ¬μΌλ‘ νλ λ
Έλ ₯κ³Ό μ§μμ μμ£Όλνκ΅μ λ°μ μ ν° μν₯μ λ―ΈμΉκ³ μμ΅λλ€. |
|
``` |
|
|
|
|
|
## μ¬μ©ν λ°μ΄ν°μ
|
|
|
|
| Dataset | # instance | νμ
| |
|
| --- | --- | --- | |
|
| [KoAlpaca v1.1](https://raw.githubusercontent.com/Beomi/KoAlpaca/main/KoAlpaca_v1.1.jsonl) | 50K | μ±κΈν΄ | |
|
| [dbdu/ShareGPT-74k-ko μ part2_ko_uncleaned](https://huggingface.co/datasets/dbdu/ShareGPT-74k-ko/resolve/main/part2_ko_uncleaned.json) | 36K | λ©ν°ν΄ | |
|
| [heegyu/korquad-chat-v1](https://huggingface.co/datasets/heegyu/korquad-chat-v1) | 9.6K | λ©ν°ν΄, μ§μκΈ°λ° | |
|
| [lcw99/evolve-instruct](https://github.com/lcw99/evolve-instruct/) | 37K | μ±κΈν΄ | |
|
| [HAERAE-HUB/KoInstruct-QA](https://huggingface.co/datasets/HAERAE-HUB/KoInstruct-QA) | 50.3k | μ±κΈν΄ | |
|
| [changpt/ko-lima-vicuna](https://huggingface.co/datasets/changpt/ko-lima-vicuna) | 1K | μ±κΈν΄, λ©ν°ν΄(κ·Ήν μΌλΆ) | |
|
| [nlpai-lab/kullm-v2](https://huggingface.co/datasets/nlpai-lab/kullm-v2) | 15K | μ±κΈν΄ | |
|
|
|
- KULLM v2 λ°μ΄ν°μ
μμλ GPT4ALL, Dolly λ°μ΄ν°λ§ μΆμΆν΄μ μ¬μ©νμ΅λλ€. |
|
- λ€μν νμ΅ λ°μ΄ν°μ
μ [HeegyuKim/open-korean-instructions](https://github.com/HeegyuKim/open-korean-instructions) GitHub repositoryλ₯Ό μ°Έκ³ νμΈμ. |
|
|