pszemraj
/

nanoT5-base-65kBPE-v2

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

nanoT5-base-65kBPE-v2 / README.md

pszemraj's picture

Update README.md

6308cc3 verified 4 months ago

|

history blame contribute delete

849 Bytes

metadata

license: apache-2.0
datasets:
  - allenai/c4
language:
  - en

nanoT5-base-65kBPE-v2

This is a "raw" pretrained model intended to be fine-tuned on downstream tasks

SiLU/gated-SiLU activation
25% mask rate during pretrain
65k vocab size, adapted claude3 tokenizer

training code: https://github.com/pszemraj/nanoT5/tree/any-tokenizer

plots

more details are under checkpoints/

loss

gradients

weights