--- license: mit datasets: - Calvin-Xu/FLFL-Aozora-Speech-Train language: - ja metrics: - sacrebleu pipeline_tag: text2text-generation --- # FLFL フリフリ Furigana (ruby) generation model. ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer torch_dtype = torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, "is_bf16_supported") and torch.cuda.is_bf16_supported() else torch.float16 model = AutoModelForCausalLM.from_pretrained("Calvin-Xu/FLFL", device_map="auto", torch_dtype=torch_dtype) tokenizer = AutoTokenizer.from_pretrained("Calvin-Xu/FLFL") prompt_template = """[INST] {instruction}\n{input}\n[/INST]\n""" sentence = "国境の長いトンネルを抜けると雪国であった" inputs = tokenizer(prompt_template.format(instruction="次の文に正確に振り仮名を付けてください", input=sentence), return_tensors="pt").to(model.device) with torch.no_grad(): tokens = model.generate(**inputs, max_new_tokens=512, do_sample=False) output = tokenizer.decode(tokens[0], skip_special_tokens=False) print(output) # 国境くにざかいの長ながいトンネルを抜ぬけると雪国ゆきぐにであった<|endoftext|> ``` ### Finetuned from [stockmark/gpt-neox-japanese-1.4b](https://huggingface.co/stockmark/gpt-neox-japanese-1.4b) ### Training Dataset Trained for slightly over one epoch on [Calvin-Xu/FLFL-Aozora-Speech-Train](https://huggingface.co/datasets/Calvin-Xu/FLFL-Aozora-Speech-Train) ### Training Settings HuggingFace Trainer, PEFT (r=64, alpha=128) Control tokens added: `[INST]`, ` [/INST]`, ``, ``, ``, `` ### Output Examples ``` [INST] 次の文に正確に振り仮名を付けてください国境の長いトンネルを抜けると雪国であった [/INST] 国境くにざかいの長ながいトンネルを抜ぬけると雪国ゆきぐにであった<|endoftext|> ``` - 鰤ぶりの照てり焼やき、八宝菜はっぽうさい、ハンバーグ。<|endoftext|> - 主菜しゅさい関連かんれんは、見事みごとなまでの和洋わよう中ちゅう折衷せっちゅう。<|endoftext|> - 別べつの者ものの目めを通つうじて歴史れきしを垣間見かいまみられるとは、想像そうぞうを超こえる体験たいけんに違ちがいない!<|endoftext|> - 止とめるなら、その大本おおもとを根絶ねだやしにしないと効果こうかがないわ<|endoftext|> - 不人気ふにんき銘柄かぶでこれ以上いじょう価値かちが下さがりようないから、ほとんど底値そこねだ<|endoftext|> - 時間じかんの澱おりの中なかに沈殿ちんたいしていたようだ。<|endoftext|>