Edit model card
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

KoUL2

  • λͺ¨λ‘μ˜λ§λ­‰μΉ˜ + AI hub에 곡개된 기타 ν•œκ΅­μ–΄ ν…μŠ€νŠΈ 데이터λ₯Ό 기반으둜 ν•™μŠ΅λœ UL2(Unifying Language Learning Paradigm)λͺ¨λΈμž…λ‹ˆλ‹€.
  • νŒŒλΌλ―Έν„° μˆ˜λŠ” 279526656(280M)개둜 encoder-decoder ꡬ쑰λ₯Ό 가지고 μžˆμŠ΅λ‹ˆλ‹€.
  • lassl μ˜€ν”ˆμ†ŒμŠ€ ν”„λ‘œμ νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ ν•™μŠ΅ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
  • μ‚¬μ „ν•™μŠ΅λ§Œ μ§„ν–‰λœ λͺ¨λΈμ΄λ―€λ‘œ μ•„λž˜μ™€ 같이 UL2의 denoising을 확인해보싀 수 μžˆμŠ΅λ‹ˆλ‹€.
model = T5ForConditionalGeneration.from_pretrained("DaehanKim/KoUL2")                                                                                                 
tokenizer = AutoTokenizer.from_pretrained("DaehanKim/KoUL2")

for prefix_token in ("[NLU]","[NLG]","[S2S]"):
    input_string = f"{prefix_token}μ–΄λ–€ μ•„νŒŒνŠΈλŠ” ν˜Έκ°€κ°€ [new_id_27]λŠ”λ“± κ²½κΈ° 침체둜 μΈν•œ [new_id_26]λ₯Ό 확인할 수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€.</s>"
    inputs = tokenizer(input_string, return_tensors="pt", add_special_tokens=False)
    decoder_inputs = tokenizer("<pad>[new_id_27]", return_tensors='pt', add_special_tokens=False)
    outputs = model.generate(input_ids = inputs.input_ids, decoder_input_ids=decoder_inputs.input_ids, num_beams=10, num_return_sequences=5)
    print(tokenizer.batch_decode(outputs))
# output
['<pad>[new_id_27] 고곡행진을[new_id_26] μ•„νŒŒνŠΈμ˜ ν˜Έκ°€κ°€ 고곡행진을', '<pad>[new_id_27] 고곡 행진을[new_id_26] μ•„νŒŒνŠΈ ν˜Έκ°€κ°€ 고곡 행진', '<pad>[new_id_27] 고곡 행진을[new_id_26] μ•„νŒŒνŠΈ 값이 고곡 행진', '<pad>[new_id_27] 고곡 행진을[new_id_26] μ•„νŒŒνŠΈμ˜ ν˜Έκ°€κ°€ 고곡 ν–‰', '<pad>[new_id_27] 고곡 행진을[new_id_26] μ•„νŒŒνŠΈ ν˜Έκ°€κ°€ 고곡행진을']
['<pad>[new_id_27] 천만 원 이상 였λ₯΄κ³  μ–΄λ–€ μ•„νŒŒνŠΈλŠ” ν˜Έκ°€κ°€ 천만 ', '<pad>[new_id_27] 천만 원 이상 였λ₯΄κ³  μ–΄λ–€ μ•„νŒŒνŠΈλŠ” ν˜Έκ°€κ°€ 천만[new_id_26]', '<pad>[new_id_27] 천만 원 이상 였λ₯΄κ³  μ–΄λ–€ μ•„νŒŒνŠΈλŠ” ν˜Έκ°€κ°€ 천 만', '<pad>[new_id_27] 천만 μ›μ—μ„œ 천만 원 κΉŒμ§€ 였λ₯΄λŠ”[new_id_26] μ•„νŒŒνŠΈ 가격 ν•˜λ½', '<pad>[new_id_27] 천만 원 이상 였λ₯΄κ³  μ–΄λ–€ μ•„νŒŒνŠΈλŠ” ν˜Έκ°€κ°€ 천 원']
['<pad>[new_id_27] 천만 원 이상 였λ₯΄λŠ”[new_id_26] μ•„νŒŒνŠΈ 값이 천만 원', '<pad>[new_id_27] 천만 원 이상 였λ₯΄λŠ”[new_id_26] μ•„νŒŒνŠΈ 값이 천만 원을', '<pad>[new_id_27] 천만 원 이상 였λ₯΄λŠ”[new_id_26] μ•„νŒŒνŠΈ 값이 였λ₯΄λŠ” λ“± 뢀동산', '<pad>[new_id_27] 고곡 행진을 이어가고[new_id_26] μ•„νŒŒνŠΈ 값이 ν•˜λ½ν•˜λŠ” λ“±', '<pad>[new_id_27] 고곡 행진을 ν•˜κ³ [new_id_26] μ•„νŒŒνŠΈ 값이 ν•˜λ½ν•˜λŠ” λ“±']
  • μ‚¬μ „ν•™μŠ΅ κ³Όμ •μ—μ„œ sentinel token은 κΈ°μ‘΄ T5와 ν˜Έν™˜λ˜κ²Œ ν•˜κΈ° μœ„ν•΄ [new_id_27]...[new_id_1]... 순으둜 λ“€μ–΄κ°€κ²Œ λ©λ‹ˆλ‹€. ν•™μŠ΅ 방식에 λŒ€ν•œ λ‚΄μš©μ€ 이 포슀트λ₯Ό μ°Έμ‘°ν•΄μ£Όμ‹œλ©΄ κ°μ‚¬ν•˜κ² μŠ΅λ‹ˆλ‹€.
  • LicenseλŠ” MITμž…λ‹ˆλ‹€.
  • ν•™μŠ΅ λ‘œκ·ΈλŠ” μ—¬κΈ°μ—μ„œ ν™•μΈν•˜μ‹€ 수 μžˆμŠ΅λ‹ˆλ‹€.
  • λͺ¨λΈμ΄λ‚˜ 데이터 셋에 λŒ€ν•΄ κΆκΈˆν•˜μ‹  점이 μžˆμœΌμ‹œλ©΄ kdh5852 [at] gmail [dot] com으둜 λ¬Έμ˜ν•΄μ£Όμ‹œλ©΄ λ‹΅λ³€ λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

acknowledgement

  • 이 ν”„λ‘œμ νŠΈλŠ” TFRC ν”„λ‘œκ·Έλž¨μ˜ TPU 지원을 λ°›μ•„ μˆ˜ν–‰λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
Downloads last month
4
Inference Examples
Inference API (serverless) is not available, repository is disabled.