monsoon-nlp
/

llama3-biotokenpretrain-kaniwa

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

monsoon-nlp commited on May 12

Commit

4e7da13

•

1 Parent(s): 4a226bb

tokenizer fix

Files changed (1) hide show

README.md +4 -2

README.md CHANGED Viewed

@@ -43,7 +43,7 @@ Information about location in the kaniwa chromosome: >lcl|Cp5
 ## Usage
-### Basic inference
 ```python
 from peft import AutoPeftModelForCausalLM
@@ -64,16 +64,18 @@ sample = tokenizer.batch_decode(outputs, skip_special_tokens=False)[0]
 ### LoRA finetuning on a new task
 ```python
 from trl import SFTTrainer
 from unsloth import FastLanguageModel
-model, tokenizer = FastLanguageModel.from_pretrained(
     model_name = "monsoon-nlp/llama3-biotokenpretrain-kaniwa",
     max_seq_length = 7_000, # max 6,000 bp for AgroNT tasks
     dtype = None,
     load_in_4bit = True,
     resize_model_vocab=128260, # includes biotokens
 )
 tokenizer.pad_token = tokenizer.eos_token # pad fix
 trainer = SFTTrainer(

 ## Usage
+### Inference with DNA sequence
 ```python
 from peft import AutoPeftModelForCausalLM
 ### LoRA finetuning on a new task
 ```python
+from transformers import AutoTokenizer
 from trl import SFTTrainer
 from unsloth import FastLanguageModel
+model, _ = FastLanguageModel.from_pretrained(
     model_name = "monsoon-nlp/llama3-biotokenpretrain-kaniwa",
     max_seq_length = 7_000, # max 6,000 bp for AgroNT tasks
     dtype = None,
     load_in_4bit = True,
     resize_model_vocab=128260, # includes biotokens
 )
+tokenizer = AutoTokenizer.from_pretrained("monsoon-nlp/llama3-biotokenpretrain-kaniwa")
 tokenizer.pad_token = tokenizer.eos_token # pad fix
 trainer = SFTTrainer(