u

Browse files

Files changed (9) hide show

README.md +77 -0
all_results.json +13 -0
config.json +719 -0
model.safetensors +3 -0
preprocessor_config.json +38 -0
test_results.json +8 -0
train_results.json +8 -0
trainer_state.json +792 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+license: other
+base_model: google/mobilenet_v2_1.0_224
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: doodle_mobilenet
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# doodle_mobilenet
+This model is a fine-tuned version of [google/mobilenet_v2_1.0_224](https://huggingface.co/google/mobilenet_v2_1.0_224) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 4.4124
+- Accuracy: 0.3565
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0008
+- train_batch_size: 512
+- eval_batch_size: 512
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 10
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step  | Validation Loss | Accuracy |
+|:-------------:|:------:|:-----:|:---------------:|:--------:|
+| 1.4546        | 0.5688 | 5000  | 1.4383          | 0.6474   |
+| 1.3759        | 1.1377 | 10000 | 1.3850          | 0.6610   |
+| 1.3508        | 1.7065 | 15000 | 1.3163          | 0.6737   |
+| 1.294         | 2.2753 | 20000 | 1.2832          | 0.6829   |
+| 1.2811        | 2.8441 | 25000 | 1.2581          | 0.6881   |
+| 1.2331        | 3.4130 | 30000 | 1.2387          | 0.6926   |
+| 1.2276        | 3.9818 | 35000 | 1.2227          | 0.6978   |
+| 1.1964        | 4.5506 | 40000 | 1.2196          | 0.6990   |
+| 1.1498        | 5.1195 | 45000 | 1.1994          | 0.7036   |
+| 1.1548        | 5.6883 | 50000 | 1.1900          | 0.7052   |
+| 1.1232        | 6.2571 | 55000 | 1.1831          | 0.7075   |
+| 1.1264        | 6.8259 | 60000 | 1.1695          | 0.7100   |
+| 1.0896        | 7.3948 | 65000 | 1.1584          | 0.7128   |
+| 1.0917        | 7.9636 | 70000 | 1.1535          | 0.7155   |
+| 1.0654        | 8.5324 | 75000 | 1.1545          | 0.7144   |
+| 1.0395        | 9.1013 | 80000 | 1.1471          | 0.7169   |
+| 1.0383        | 9.6701 | 85000 | 1.1722          | 0.7136   |
+### Framework versions
+- Transformers 4.40.0
+- Pytorch 2.2.1
+- Datasets 2.19.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.35654,
+    "eval_loss": 4.412439346313477,
+    "eval_runtime": 16.0962,
+    "eval_samples_per_second": 15531.592,
+    "eval_steps_per_second": 30.38,
+    "total_flos": 5.6417821488e+17,
+    "train_loss": 1.2023330011465443,
+    "train_runtime": 3087.8654,
+    "train_samples_per_second": 14573.174,
+    "train_steps_per_second": 28.466
+}

config.json ADDED Viewed

	@@ -0,0 +1,719 @@

+{
+  "_name_or_path": "google/mobilenet_v2_1.0_224",
+  "architectures": [
+    "MobileNetV2ForImageClassification"
+  ],
+  "classifier_dropout_prob": 0.2,
+  "depth_divisible_by": 8,
+  "depth_multiplier": 1.0,
+  "expand_ratio": 6,
+  "finegrained_output": true,
+  "first_layer_is_expansion": true,
+  "hidden_act": "relu6",
+  "id2label": {
+    "0": "aircraft carrier",
+    "1": "airplane",
+    "10": "asparagus",
+    "100": "dumbbell",
+    "101": "ear",
+    "102": "elbow",
+    "103": "elephant",
+    "104": "envelope",
+    "105": "eraser",
+    "106": "eye",
+    "107": "eyeglasses",
+    "108": "face",
+    "109": "fan",
+    "11": "axe",
+    "110": "feather",
+    "111": "fence",
+    "112": "finger",
+    "113": "fire hydrant",
+    "114": "fireplace",
+    "115": "firetruck",
+    "116": "fish",
+    "117": "flamingo",
+    "118": "flashlight",
+    "119": "flip flops",
+    "12": "backpack",
+    "120": "floor lamp",
+    "121": "flower",
+    "122": "flying saucer",
+    "123": "foot",
+    "124": "fork",
+    "125": "frog",
+    "126": "frying pan",
+    "127": "garden hose",
+    "128": "garden",
+    "129": "giraffe",
+    "13": "banana",
+    "130": "goatee",
+    "131": "golf club",
+    "132": "grapes",
+    "133": "grass",
+    "134": "guitar",
+    "135": "hamburger",
+    "136": "hammer",
+    "137": "hand",
+    "138": "harp",
+    "139": "hat",
+    "14": "bandage",
+    "140": "headphones",
+    "141": "hedgehog",
+    "142": "helicopter",
+    "143": "helmet",
+    "144": "hexagon",
+    "145": "hockey puck",
+    "146": "hockey stick",
+    "147": "horse",
+    "148": "hospital",
+    "149": "hot air balloon",
+    "15": "barn",
+    "150": "hot dog",
+    "151": "hot tub",
+    "152": "hourglass",
+    "153": "house plant",
+    "154": "house",
+    "155": "hurricane",
+    "156": "ice cream",
+    "157": "jacket",
+    "158": "jail",
+    "159": "kangaroo",
+    "16": "baseball bat",
+    "160": "key",
+    "161": "keyboard",
+    "162": "knee",
+    "163": "knife",
+    "164": "ladder",
+    "165": "lantern",
+    "166": "laptop",
+    "167": "leaf",
+    "168": "leg",
+    "169": "light bulb",
+    "17": "baseball",
+    "170": "lighter",
+    "171": "lighthouse",
+    "172": "lightning",
+    "173": "line",
+    "174": "lion",
+    "175": "lipstick",
+    "176": "lobster",
+    "177": "lollipop",
+    "178": "mailbox",
+    "179": "map",
+    "18": "basket",
+    "180": "marker",
+    "181": "matches",
+    "182": "megaphone",
+    "183": "mermaid",
+    "184": "microphone",
+    "185": "microwave",
+    "186": "monkey",
+    "187": "moon",
+    "188": "mosquito",
+    "189": "motorbike",
+    "19": "basketball",
+    "190": "mountain",
+    "191": "mouse",
+    "192": "moustache",
+    "193": "mouth",
+    "194": "mug",
+    "195": "mushroom",
+    "196": "nail",
+    "197": "necklace",
+    "198": "nose",
+    "199": "ocean",
+    "2": "alarm clock",
+    "20": "bat",
+    "200": "octagon",
+    "201": "octopus",
+    "202": "onion",
+    "203": "oven",
+    "204": "owl",
+    "205": "paint can",
+    "206": "paintbrush",
+    "207": "palm tree",
+    "208": "panda",
+    "209": "pants",
+    "21": "bathtub",
+    "210": "paper clip",
+    "211": "parachute",
+    "212": "parrot",
+    "213": "passport",
+    "214": "peanut",
+    "215": "pear",
+    "216": "peas",
+    "217": "pencil",
+    "218": "penguin",
+    "219": "piano",
+    "22": "beach",
+    "220": "pickup truck",
+    "221": "picture frame",
+    "222": "pig",
+    "223": "pillow",
+    "224": "pineapple",
+    "225": "pizza",
+    "226": "pliers",
+    "227": "police car",
+    "228": "pond",
+    "229": "pool",
+    "23": "bear",
+    "230": "popsicle",
+    "231": "postcard",
+    "232": "potato",
+    "233": "power outlet",
+    "234": "purse",
+    "235": "rabbit",
+    "236": "raccoon",
+    "237": "radio",
+    "238": "rain",
+    "239": "rainbow",
+    "24": "beard",
+    "240": "rake",
+    "241": "remote control",
+    "242": "rhinoceros",
+    "243": "rifle",
+    "244": "river",
+    "245": "roller coaster",
+    "246": "rollerskates",
+    "247": "sailboat",
+    "248": "sandwich",
+    "249": "saw",
+    "25": "bed",
+    "250": "saxophone",
+    "251": "school bus",
+    "252": "scissors",
+    "253": "scorpion",
+    "254": "screwdriver",
+    "255": "sea turtle",
+    "256": "see saw",
+    "257": "shark",
+    "258": "sheep",
+    "259": "shoe",
+    "26": "bee",
+    "260": "shorts",
+    "261": "shovel",
+    "262": "sink",
+    "263": "skateboard",
+    "264": "skull",
+    "265": "skyscraper",
+    "266": "sleeping bag",
+    "267": "smiley face",
+    "268": "snail",
+    "269": "snake",
+    "27": "belt",
+    "270": "snorkel",
+    "271": "snowflake",
+    "272": "snowman",
+    "273": "soccer ball",
+    "274": "sock",
+    "275": "speedboat",
+    "276": "spider",
+    "277": "spoon",
+    "278": "spreadsheet",
+    "279": "square",
+    "28": "bench",
+    "280": "squiggle",
+    "281": "squirrel",
+    "282": "stairs",
+    "283": "star",
+    "284": "steak",
+    "285": "stereo",
+    "286": "stethoscope",
+    "287": "stitches",
+    "288": "stop sign",
+    "289": "stove",
+    "29": "bicycle",
+    "290": "strawberry",
+    "291": "streetlight",
+    "292": "string bean",
+    "293": "submarine",
+    "294": "suitcase",
+    "295": "sun",
+    "296": "swan",
+    "297": "sweater",
+    "298": "swing set",
+    "299": "sword",
+    "3": "ambulance",
+    "30": "binoculars",
+    "300": "syringe",
+    "301": "t-shirt",
+    "302": "table",
+    "303": "teapot",
+    "304": "teddy-bear",
+    "305": "telephone",
+    "306": "television",
+    "307": "tennis racquet",
+    "308": "tent",
+    "309": "The Eiffel Tower",
+    "31": "bird",
+    "310": "The Great Wall of China",
+    "311": "The Mona Lisa",
+    "312": "tiger",
+    "313": "toaster",
+    "314": "toe",
+    "315": "toilet",
+    "316": "tooth",
+    "317": "toothbrush",
+    "318": "toothpaste",
+    "319": "tornado",
+    "32": "birthday cake",
+    "320": "tractor",
+    "321": "traffic light",
+    "322": "train",
+    "323": "tree",
+    "324": "triangle",
+    "325": "trombone",
+    "326": "truck",
+    "327": "trumpet",
+    "328": "umbrella",
+    "329": "underwear",
+    "33": "blackberry",
+    "330": "van",
+    "331": "vase",
+    "332": "violin",
+    "333": "washing machine",
+    "334": "watermelon",
+    "335": "waterslide",
+    "336": "whale",
+    "337": "wheel",
+    "338": "windmill",
+    "339": "wine bottle",
+    "34": "blueberry",
+    "340": "wine glass",
+    "341": "wristwatch",
+    "342": "yoga",
+    "343": "zebra",
+    "344": "zigzag",
+    "35": "book",
+    "36": "boomerang",
+    "37": "bottlecap",
+    "38": "bowtie",
+    "39": "bracelet",
+    "4": "angel",
+    "40": "brain",
+    "41": "bread",
+    "42": "bridge",
+    "43": "broccoli",
+    "44": "broom",
+    "45": "bucket",
+    "46": "bulldozer",
+    "47": "bus",
+    "48": "bush",
+    "49": "butterfly",
+    "5": "animal migration",
+    "50": "cactus",
+    "51": "cake",
+    "52": "calculator",
+    "53": "calendar",
+    "54": "camel",
+    "55": "camera",
+    "56": "camouflage",
+    "57": "campfire",
+    "58": "candle",
+    "59": "cannon",
+    "6": "ant",
+    "60": "canoe",
+    "61": "car",
+    "62": "carrot",
+    "63": "castle",
+    "64": "cat",
+    "65": "ceiling fan",
+    "66": "cell phone",
+    "67": "cello",
+    "68": "chair",
+    "69": "chandelier",
+    "7": "anvil",
+    "70": "church",
+    "71": "circle",
+    "72": "clarinet",
+    "73": "clock",
+    "74": "cloud",
+    "75": "coffee cup",
+    "76": "compass",
+    "77": "computer",
+    "78": "cookie",
+    "79": "cooler",
+    "8": "apple",
+    "80": "couch",
+    "81": "cow",
+    "82": "crab",
+    "83": "crayon",
+    "84": "crocodile",
+    "85": "crown",
+    "86": "cruise ship",
+    "87": "cup",
+    "88": "diamond",
+    "89": "dishwasher",
+    "9": "arm",
+    "90": "diving board",
+    "91": "dog",
+    "92": "dolphin",
+    "93": "donut",
+    "94": "door",
+    "95": "dragon",
+    "96": "dresser",
+    "97": "drill",
+    "98": "drums",
+    "99": "duck"
+  },
+  "image_size": 28,
+  "initializer_range": 0.02,
+  "label2id": {
+    "The Eiffel Tower": "309",
+    "The Great Wall of China": "310",
+    "The Mona Lisa": "311",
+    "aircraft carrier": "0",
+    "airplane": "1",
+    "alarm clock": "2",
+    "ambulance": "3",
+    "angel": "4",
+    "animal migration": "5",
+    "ant": "6",
+    "anvil": "7",
+    "apple": "8",
+    "arm": "9",
+    "asparagus": "10",
+    "axe": "11",
+    "backpack": "12",
+    "banana": "13",
+    "bandage": "14",
+    "barn": "15",
+    "baseball": "17",
+    "baseball bat": "16",
+    "basket": "18",
+    "basketball": "19",
+    "bat": "20",
+    "bathtub": "21",
+    "beach": "22",
+    "bear": "23",
+    "beard": "24",
+    "bed": "25",
+    "bee": "26",
+    "belt": "27",
+    "bench": "28",
+    "bicycle": "29",
+    "binoculars": "30",
+    "bird": "31",
+    "birthday cake": "32",
+    "blackberry": "33",
+    "blueberry": "34",
+    "book": "35",
+    "boomerang": "36",
+    "bottlecap": "37",
+    "bowtie": "38",
+    "bracelet": "39",
+    "brain": "40",
+    "bread": "41",
+    "bridge": "42",
+    "broccoli": "43",
+    "broom": "44",
+    "bucket": "45",
+    "bulldozer": "46",
+    "bus": "47",
+    "bush": "48",
+    "butterfly": "49",
+    "cactus": "50",
+    "cake": "51",
+    "calculator": "52",
+    "calendar": "53",
+    "camel": "54",
+    "camera": "55",
+    "camouflage": "56",
+    "campfire": "57",
+    "candle": "58",
+    "cannon": "59",
+    "canoe": "60",
+    "car": "61",
+    "carrot": "62",
+    "castle": "63",
+    "cat": "64",
+    "ceiling fan": "65",
+    "cell phone": "66",
+    "cello": "67",
+    "chair": "68",
+    "chandelier": "69",
+    "church": "70",
+    "circle": "71",
+    "clarinet": "72",
+    "clock": "73",
+    "cloud": "74",
+    "coffee cup": "75",
+    "compass": "76",
+    "computer": "77",
+    "cookie": "78",
+    "cooler": "79",
+    "couch": "80",
+    "cow": "81",
+    "crab": "82",
+    "crayon": "83",
+    "crocodile": "84",
+    "crown": "85",
+    "cruise ship": "86",
+    "cup": "87",
+    "diamond": "88",
+    "dishwasher": "89",
+    "diving board": "90",
+    "dog": "91",
+    "dolphin": "92",
+    "donut": "93",
+    "door": "94",
+    "dragon": "95",
+    "dresser": "96",
+    "drill": "97",
+    "drums": "98",
+    "duck": "99",
+    "dumbbell": "100",
+    "ear": "101",
+    "elbow": "102",
+    "elephant": "103",
+    "envelope": "104",
+    "eraser": "105",
+    "eye": "106",
+    "eyeglasses": "107",
+    "face": "108",
+    "fan": "109",
+    "feather": "110",
+    "fence": "111",
+    "finger": "112",
+    "fire hydrant": "113",
+    "fireplace": "114",
+    "firetruck": "115",
+    "fish": "116",
+    "flamingo": "117",
+    "flashlight": "118",
+    "flip flops": "119",
+    "floor lamp": "120",
+    "flower": "121",
+    "flying saucer": "122",
+    "foot": "123",
+    "fork": "124",
+    "frog": "125",
+    "frying pan": "126",
+    "garden": "128",
+    "garden hose": "127",
+    "giraffe": "129",
+    "goatee": "130",
+    "golf club": "131",
+    "grapes": "132",
+    "grass": "133",
+    "guitar": "134",
+    "hamburger": "135",
+    "hammer": "136",
+    "hand": "137",
+    "harp": "138",
+    "hat": "139",
+    "headphones": "140",
+    "hedgehog": "141",
+    "helicopter": "142",
+    "helmet": "143",
+    "hexagon": "144",
+    "hockey puck": "145",
+    "hockey stick": "146",
+    "horse": "147",
+    "hospital": "148",
+    "hot air balloon": "149",
+    "hot dog": "150",
+    "hot tub": "151",
+    "hourglass": "152",
+    "house": "154",
+    "house plant": "153",
+    "hurricane": "155",
+    "ice cream": "156",
+    "jacket": "157",
+    "jail": "158",
+    "kangaroo": "159",
+    "key": "160",
+    "keyboard": "161",
+    "knee": "162",
+    "knife": "163",
+    "ladder": "164",
+    "lantern": "165",
+    "laptop": "166",
+    "leaf": "167",
+    "leg": "168",
+    "light bulb": "169",
+    "lighter": "170",
+    "lighthouse": "171",
+    "lightning": "172",
+    "line": "173",
+    "lion": "174",
+    "lipstick": "175",
+    "lobster": "176",
+    "lollipop": "177",
+    "mailbox": "178",
+    "map": "179",
+    "marker": "180",
+    "matches": "181",
+    "megaphone": "182",
+    "mermaid": "183",
+    "microphone": "184",
+    "microwave": "185",
+    "monkey": "186",
+    "moon": "187",
+    "mosquito": "188",
+    "motorbike": "189",
+    "mountain": "190",
+    "mouse": "191",
+    "moustache": "192",
+    "mouth": "193",
+    "mug": "194",
+    "mushroom": "195",
+    "nail": "196",
+    "necklace": "197",
+    "nose": "198",
+    "ocean": "199",
+    "octagon": "200",
+    "octopus": "201",
+    "onion": "202",
+    "oven": "203",
+    "owl": "204",
+    "paint can": "205",
+    "paintbrush": "206",
+    "palm tree": "207",
+    "panda": "208",
+    "pants": "209",
+    "paper clip": "210",
+    "parachute": "211",
+    "parrot": "212",
+    "passport": "213",
+    "peanut": "214",
+    "pear": "215",
+    "peas": "216",
+    "pencil": "217",
+    "penguin": "218",
+    "piano": "219",
+    "pickup truck": "220",
+    "picture frame": "221",
+    "pig": "222",
+    "pillow": "223",
+    "pineapple": "224",
+    "pizza": "225",
+    "pliers": "226",
+    "police car": "227",
+    "pond": "228",
+    "pool": "229",
+    "popsicle": "230",
+    "postcard": "231",
+    "potato": "232",
+    "power outlet": "233",
+    "purse": "234",
+    "rabbit": "235",
+    "raccoon": "236",
+    "radio": "237",
+    "rain": "238",
+    "rainbow": "239",
+    "rake": "240",
+    "remote control": "241",
+    "rhinoceros": "242",
+    "rifle": "243",
+    "river": "244",
+    "roller coaster": "245",
+    "rollerskates": "246",
+    "sailboat": "247",
+    "sandwich": "248",
+    "saw": "249",
+    "saxophone": "250",
+    "school bus": "251",
+    "scissors": "252",
+    "scorpion": "253",
+    "screwdriver": "254",
+    "sea turtle": "255",
+    "see saw": "256",
+    "shark": "257",
+    "sheep": "258",
+    "shoe": "259",
+    "shorts": "260",
+    "shovel": "261",
+    "sink": "262",
+    "skateboard": "263",
+    "skull": "264",
+    "skyscraper": "265",
+    "sleeping bag": "266",
+    "smiley face": "267",
+    "snail": "268",
+    "snake": "269",
+    "snorkel": "270",
+    "snowflake": "271",
+    "snowman": "272",
+    "soccer ball": "273",
+    "sock": "274",
+    "speedboat": "275",
+    "spider": "276",
+    "spoon": "277",
+    "spreadsheet": "278",
+    "square": "279",
+    "squiggle": "280",
+    "squirrel": "281",
+    "stairs": "282",
+    "star": "283",
+    "steak": "284",
+    "stereo": "285",
+    "stethoscope": "286",
+    "stitches": "287",
+    "stop sign": "288",
+    "stove": "289",
+    "strawberry": "290",
+    "streetlight": "291",
+    "string bean": "292",
+    "submarine": "293",
+    "suitcase": "294",
+    "sun": "295",
+    "swan": "296",
+    "sweater": "297",
+    "swing set": "298",
+    "sword": "299",
+    "syringe": "300",
+    "t-shirt": "301",
+    "table": "302",
+    "teapot": "303",
+    "teddy-bear": "304",
+    "telephone": "305",
+    "television": "306",
+    "tennis racquet": "307",
+    "tent": "308",
+    "tiger": "312",
+    "toaster": "313",
+    "toe": "314",
+    "toilet": "315",
+    "tooth": "316",
+    "toothbrush": "317",
+    "toothpaste": "318",
+    "tornado": "319",
+    "tractor": "320",
+    "traffic light": "321",
+    "train": "322",
+    "tree": "323",
+    "triangle": "324",
+    "trombone": "325",
+    "truck": "326",
+    "trumpet": "327",
+    "umbrella": "328",
+    "underwear": "329",
+    "van": "330",
+    "vase": "331",
+    "violin": "332",
+    "washing machine": "333",
+    "watermelon": "334",
+    "waterslide": "335",
+    "whale": "336",
+    "wheel": "337",
+    "windmill": "338",
+    "wine bottle": "339",
+    "wine glass": "340",
+    "wristwatch": "341",
+    "yoga": "342",
+    "zebra": "343",
+    "zigzag": "344"
+  },
+  "layer_norm_eps": 0.001,
+  "min_depth": 8,
+  "model_type": "mobilenet_v2",
+  "num_channels": 1,
+  "output_stride": 32,
+  "problem_type": "single_label_classification",
+  "semantic_loss_ignore_index": 255,
+  "tf_padding": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48a2c7a84bc5b3b33a8893b4d011df0e8abc179b5597681d87fd1cff423f4385
+size 10835548

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_center_crop",
+    "crop_size",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "crop_size": {
+    "height": 28,
+    "width": 28
+  },
+  "do_center_crop": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5
+  ],
+  "image_processor_type": "MobileNetV2ImageProcessor",
+  "image_std": [
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 28
+  }
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.35654,
+    "eval_loss": 4.412439346313477,
+    "eval_runtime": 16.0962,
+    "eval_samples_per_second": 15531.592,
+    "eval_steps_per_second": 30.38
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 5.6417821488e+17,
+    "train_loss": 1.2023330011465443,
+    "train_runtime": 3087.8654,
+    "train_samples_per_second": 14573.174,
+    "train_steps_per_second": 28.466
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,792 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 5000,
+  "global_step": 87900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11376564277588168,
+      "grad_norm": 1.9390705823898315,
+      "learning_rate": 0.0007909078498293515,
+      "loss": 1.5809,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22753128555176336,
+      "grad_norm": 1.703497052192688,
+      "learning_rate": 0.000781806598407281,
+      "loss": 1.54,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3412969283276451,
+      "grad_norm": 1.7551511526107788,
+      "learning_rate": 0.0007727144482366326,
+      "loss": 1.5087,
+      "step": 3000
+    },
+    {
+      "epoch": 0.4550625711035267,
+      "grad_norm": 1.5709869861602783,
+      "learning_rate": 0.000763613196814562,
+      "loss": 1.4773,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5688282138794084,
+      "grad_norm": 1.5395598411560059,
+      "learning_rate": 0.0007545119453924914,
+      "loss": 1.4546,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5688282138794084,
+      "eval_accuracy": 0.647436,
+      "eval_loss": 1.4382679462432861,
+      "eval_runtime": 16.1443,
+      "eval_samples_per_second": 15485.324,
+      "eval_steps_per_second": 30.289,
+      "step": 5000
+    },
+    {
+      "epoch": 0.6825938566552902,
+      "grad_norm": 1.6133095026016235,
+      "learning_rate": 0.0007454106939704209,
+      "loss": 1.4513,
+      "step": 6000
+    },
+    {
+      "epoch": 0.7963594994311718,
+      "grad_norm": 1.3529345989227295,
+      "learning_rate": 0.0007363185437997725,
+      "loss": 1.459,
+      "step": 7000
+    },
+    {
+      "epoch": 0.9101251422070534,
+      "grad_norm": 1.4212840795516968,
+      "learning_rate": 0.000727217292377702,
+      "loss": 1.4393,
+      "step": 8000
+    },
+    {
+      "epoch": 1.023890784982935,
+      "grad_norm": 1.3942997455596924,
+      "learning_rate": 0.0007181342434584756,
+      "loss": 1.4183,
+      "step": 9000
+    },
+    {
+      "epoch": 1.1376564277588168,
+      "grad_norm": 1.584731936454773,
+      "learning_rate": 0.0007090329920364051,
+      "loss": 1.3759,
+      "step": 10000
+    },
+    {
+      "epoch": 1.1376564277588168,
+      "eval_accuracy": 0.660984,
+      "eval_loss": 1.38503897190094,
+      "eval_runtime": 16.2019,
+      "eval_samples_per_second": 15430.245,
+      "eval_steps_per_second": 30.182,
+      "step": 10000
+    },
+    {
+      "epoch": 1.2514220705346986,
+      "grad_norm": 1.4144625663757324,
+      "learning_rate": 0.0006999317406143345,
+      "loss": 1.375,
+      "step": 11000
+    },
+    {
+      "epoch": 1.36518771331058,
+      "grad_norm": 1.3004510402679443,
+      "learning_rate": 0.0006908395904436861,
+      "loss": 1.3729,
+      "step": 12000
+    },
+    {
+      "epoch": 1.4789533560864618,
+      "grad_norm": 1.3783901929855347,
+      "learning_rate": 0.0006817474402730376,
+      "loss": 1.3562,
+      "step": 13000
+    },
+    {
+      "epoch": 1.5927189988623436,
+      "grad_norm": 1.309706449508667,
+      "learning_rate": 0.000672646188850967,
+      "loss": 1.355,
+      "step": 14000
+    },
+    {
+      "epoch": 1.7064846416382253,
+      "grad_norm": 3.742795944213867,
+      "learning_rate": 0.0006635540386803186,
+      "loss": 1.3508,
+      "step": 15000
+    },
+    {
+      "epoch": 1.7064846416382253,
+      "eval_accuracy": 0.673728,
+      "eval_loss": 1.316284418106079,
+      "eval_runtime": 16.2031,
+      "eval_samples_per_second": 15429.139,
+      "eval_steps_per_second": 30.179,
+      "step": 15000
+    },
+    {
+      "epoch": 1.820250284414107,
+      "grad_norm": 1.2620598077774048,
+      "learning_rate": 0.0006544527872582481,
+      "loss": 1.3472,
+      "step": 16000
+    },
+    {
+      "epoch": 1.9340159271899886,
+      "grad_norm": 1.3602592945098877,
+      "learning_rate": 0.0006453515358361775,
+      "loss": 1.3371,
+      "step": 17000
+    },
+    {
+      "epoch": 2.04778156996587,
+      "grad_norm": 1.3070189952850342,
+      "learning_rate": 0.000636259385665529,
+      "loss": 1.3145,
+      "step": 18000
+    },
+    {
+      "epoch": 2.161547212741752,
+      "grad_norm": 1.2134970426559448,
+      "learning_rate": 0.0006271581342434585,
+      "loss": 1.2917,
+      "step": 19000
+    },
+    {
+      "epoch": 2.2753128555176336,
+      "grad_norm": 1.3796401023864746,
+      "learning_rate": 0.00061806598407281,
+      "loss": 1.294,
+      "step": 20000
+    },
+    {
+      "epoch": 2.2753128555176336,
+      "eval_accuracy": 0.682924,
+      "eval_loss": 1.283160924911499,
+      "eval_runtime": 16.1194,
+      "eval_samples_per_second": 15509.309,
+      "eval_steps_per_second": 30.336,
+      "step": 20000
+    },
+    {
+      "epoch": 2.3890784982935154,
+      "grad_norm": 1.357393741607666,
+      "learning_rate": 0.0006089738339021616,
+      "loss": 1.2936,
+      "step": 21000
+    },
+    {
+      "epoch": 2.502844141069397,
+      "grad_norm": 1.2381339073181152,
+      "learning_rate": 0.0005998725824800911,
+      "loss": 1.2859,
+      "step": 22000
+    },
+    {
+      "epoch": 2.616609783845279,
+      "grad_norm": 1.256423830986023,
+      "learning_rate": 0.0005907713310580204,
+      "loss": 1.2899,
+      "step": 23000
+    },
+    {
+      "epoch": 2.73037542662116,
+      "grad_norm": 1.1443513631820679,
+      "learning_rate": 0.000581679180887372,
+      "loss": 1.2846,
+      "step": 24000
+    },
+    {
+      "epoch": 2.8441410693970424,
+      "grad_norm": 1.2000058889389038,
+      "learning_rate": 0.0005725870307167236,
+      "loss": 1.2811,
+      "step": 25000
+    },
+    {
+      "epoch": 2.8441410693970424,
+      "eval_accuracy": 0.688052,
+      "eval_loss": 1.2580605745315552,
+      "eval_runtime": 16.1237,
+      "eval_samples_per_second": 15505.095,
+      "eval_steps_per_second": 30.328,
+      "step": 25000
+    },
+    {
+      "epoch": 2.9579067121729237,
+      "grad_norm": 1.2849873304367065,
+      "learning_rate": 0.0005634857792946531,
+      "loss": 1.2779,
+      "step": 26000
+    },
+    {
+      "epoch": 3.0716723549488054,
+      "grad_norm": 1.2703396081924438,
+      "learning_rate": 0.0005543936291240047,
+      "loss": 1.2444,
+      "step": 27000
+    },
+    {
+      "epoch": 3.185437997724687,
+      "grad_norm": 1.356720209121704,
+      "learning_rate": 0.000545292377701934,
+      "loss": 1.2303,
+      "step": 28000
+    },
+    {
+      "epoch": 3.299203640500569,
+      "grad_norm": 1.128195881843567,
+      "learning_rate": 0.0005361911262798635,
+      "loss": 1.2321,
+      "step": 29000
+    },
+    {
+      "epoch": 3.4129692832764507,
+      "grad_norm": 1.2033754587173462,
+      "learning_rate": 0.0005270989761092151,
+      "loss": 1.2331,
+      "step": 30000
+    },
+    {
+      "epoch": 3.4129692832764507,
+      "eval_accuracy": 0.69262,
+      "eval_loss": 1.2387434244155884,
+      "eval_runtime": 16.2457,
+      "eval_samples_per_second": 15388.688,
+      "eval_steps_per_second": 30.1,
+      "step": 30000
+    },
+    {
+      "epoch": 3.526734926052332,
+      "grad_norm": 1.2216309309005737,
+      "learning_rate": 0.0005179977246871446,
+      "loss": 1.2384,
+      "step": 31000
+    },
+    {
+      "epoch": 3.640500568828214,
+      "grad_norm": 1.3189234733581543,
+      "learning_rate": 0.000508896473265074,
+      "loss": 1.239,
+      "step": 32000
+    },
+    {
+      "epoch": 3.7542662116040955,
+      "grad_norm": 1.193328857421875,
+      "learning_rate": 0.0004998043230944255,
+      "loss": 1.2282,
+      "step": 33000
+    },
+    {
+      "epoch": 3.868031854379977,
+      "grad_norm": 1.3810237646102905,
+      "learning_rate": 0.000490703071672355,
+      "loss": 1.2301,
+      "step": 34000
+    },
+    {
+      "epoch": 3.981797497155859,
+      "grad_norm": 1.477654218673706,
+      "learning_rate": 0.0004816018202502845,
+      "loss": 1.2276,
+      "step": 35000
+    },
+    {
+      "epoch": 3.981797497155859,
+      "eval_accuracy": 0.697844,
+      "eval_loss": 1.2226529121398926,
+      "eval_runtime": 16.1466,
+      "eval_samples_per_second": 15483.136,
+      "eval_steps_per_second": 30.285,
+      "step": 35000
+    },
+    {
+      "epoch": 4.09556313993174,
+      "grad_norm": 2.5721781253814697,
+      "learning_rate": 0.00047250056882821396,
+      "loss": 1.2011,
+      "step": 36000
+    },
+    {
+      "epoch": 4.2093287827076225,
+      "grad_norm": 1.233066439628601,
+      "learning_rate": 0.00046340841865756544,
+      "loss": 1.1882,
+      "step": 37000
+    },
+    {
+      "epoch": 4.323094425483504,
+      "grad_norm": 15.391983032226562,
+      "learning_rate": 0.0004543071672354949,
+      "loss": 1.1856,
+      "step": 38000
+    },
+    {
+      "epoch": 4.436860068259386,
+      "grad_norm": 1.2283698320388794,
+      "learning_rate": 0.0004452059158134244,
+      "loss": 1.1972,
+      "step": 39000
+    },
+    {
+      "epoch": 4.550625711035267,
+      "grad_norm": 1.1042656898498535,
+      "learning_rate": 0.0004361046643913539,
+      "loss": 1.1964,
+      "step": 40000
+    },
+    {
+      "epoch": 4.550625711035267,
+      "eval_accuracy": 0.698972,
+      "eval_loss": 1.2195725440979004,
+      "eval_runtime": 16.22,
+      "eval_samples_per_second": 15413.078,
+      "eval_steps_per_second": 30.148,
+      "step": 40000
+    },
+    {
+      "epoch": 4.664391353811149,
+      "grad_norm": 1.2379703521728516,
+      "learning_rate": 0.00042701251422070535,
+      "loss": 1.194,
+      "step": 41000
+    },
+    {
+      "epoch": 4.778156996587031,
+      "grad_norm": 1.3536499738693237,
+      "learning_rate": 0.00041792036405005693,
+      "loss": 1.1939,
+      "step": 42000
+    },
+    {
+      "epoch": 4.891922639362912,
+      "grad_norm": 1.1571460962295532,
+      "learning_rate": 0.00040881911262798635,
+      "loss": 1.1952,
+      "step": 43000
+    },
+    {
+      "epoch": 5.005688282138794,
+      "grad_norm": 1.1833922863006592,
+      "learning_rate": 0.00039972696245733794,
+      "loss": 1.1908,
+      "step": 44000
+    },
+    {
+      "epoch": 5.1194539249146755,
+      "grad_norm": 1.4700716733932495,
+      "learning_rate": 0.00039062571103526736,
+      "loss": 1.1498,
+      "step": 45000
+    },
+    {
+      "epoch": 5.1194539249146755,
+      "eval_accuracy": 0.703608,
+      "eval_loss": 1.1993978023529053,
+      "eval_runtime": 16.3707,
+      "eval_samples_per_second": 15271.187,
+      "eval_steps_per_second": 29.87,
+      "step": 45000
+    },
+    {
+      "epoch": 5.233219567690558,
+      "grad_norm": 1.3525902032852173,
+      "learning_rate": 0.00038152445961319684,
+      "loss": 1.1507,
+      "step": 46000
+    },
+    {
+      "epoch": 5.346985210466439,
+      "grad_norm": 1.3642832040786743,
+      "learning_rate": 0.0003724232081911263,
+      "loss": 1.1551,
+      "step": 47000
+    },
+    {
+      "epoch": 5.460750853242321,
+      "grad_norm": 1.2102240324020386,
+      "learning_rate": 0.0003633219567690558,
+      "loss": 1.1574,
+      "step": 48000
+    },
+    {
+      "epoch": 5.5745164960182025,
+      "grad_norm": 1.1597959995269775,
+      "learning_rate": 0.0003542207053469852,
+      "loss": 1.1545,
+      "step": 49000
+    },
+    {
+      "epoch": 5.688282138794084,
+      "grad_norm": 1.2223830223083496,
+      "learning_rate": 0.00034512855517633675,
+      "loss": 1.1548,
+      "step": 50000
+    },
+    {
+      "epoch": 5.688282138794084,
+      "eval_accuracy": 0.705224,
+      "eval_loss": 1.1899733543395996,
+      "eval_runtime": 16.029,
+      "eval_samples_per_second": 15596.716,
+      "eval_steps_per_second": 30.507,
+      "step": 50000
+    },
+    {
+      "epoch": 5.802047781569966,
+      "grad_norm": 1.1772878170013428,
+      "learning_rate": 0.0003360364050056883,
+      "loss": 1.1543,
+      "step": 51000
+    },
+    {
+      "epoch": 5.915813424345847,
+      "grad_norm": 1.286970615386963,
+      "learning_rate": 0.00032693515358361776,
+      "loss": 1.1566,
+      "step": 52000
+    },
+    {
+      "epoch": 6.0295790671217295,
+      "grad_norm": 1.1497869491577148,
+      "learning_rate": 0.00031783390216154724,
+      "loss": 1.1471,
+      "step": 53000
+    },
+    {
+      "epoch": 6.143344709897611,
+      "grad_norm": 1.2324450016021729,
+      "learning_rate": 0.00030873265073947667,
+      "loss": 1.1141,
+      "step": 54000
+    },
+    {
+      "epoch": 6.257110352673493,
+      "grad_norm": 1.175905466079712,
+      "learning_rate": 0.00029963139931740615,
+      "loss": 1.1232,
+      "step": 55000
+    },
+    {
+      "epoch": 6.257110352673493,
+      "eval_accuracy": 0.707532,
+      "eval_loss": 1.183059573173523,
+      "eval_runtime": 16.1679,
+      "eval_samples_per_second": 15462.772,
+      "eval_steps_per_second": 30.245,
+      "step": 55000
+    },
+    {
+      "epoch": 6.370875995449374,
+      "grad_norm": 1.133489966392517,
+      "learning_rate": 0.00029053924914675767,
+      "loss": 1.1213,
+      "step": 56000
+    },
+    {
+      "epoch": 6.484641638225256,
+      "grad_norm": 1.3633593320846558,
+      "learning_rate": 0.00028143799772468715,
+      "loss": 1.1206,
+      "step": 57000
+    },
+    {
+      "epoch": 6.598407281001138,
+      "grad_norm": 1.2622781991958618,
+      "learning_rate": 0.00027233674630261663,
+      "loss": 1.1241,
+      "step": 58000
+    },
+    {
+      "epoch": 6.712172923777019,
+      "grad_norm": 1.2032582759857178,
+      "learning_rate": 0.00026324459613196816,
+      "loss": 1.1276,
+      "step": 59000
+    },
+    {
+      "epoch": 6.825938566552901,
+      "grad_norm": 1.166924238204956,
+      "learning_rate": 0.00025414334470989764,
+      "loss": 1.1264,
+      "step": 60000
+    },
+    {
+      "epoch": 6.825938566552901,
+      "eval_accuracy": 0.710036,
+      "eval_loss": 1.1695001125335693,
+      "eval_runtime": 16.198,
+      "eval_samples_per_second": 15434.001,
+      "eval_steps_per_second": 30.189,
+      "step": 60000
+    },
+    {
+      "epoch": 6.939704209328783,
+      "grad_norm": 1.236396074295044,
+      "learning_rate": 0.00024505119453924917,
+      "loss": 1.1196,
+      "step": 61000
+    },
+    {
+      "epoch": 7.053469852104665,
+      "grad_norm": 1.2301005125045776,
+      "learning_rate": 0.00023594994311717865,
+      "loss": 1.1065,
+      "step": 62000
+    },
+    {
+      "epoch": 7.167235494880546,
+      "grad_norm": 1.1987460851669312,
+      "learning_rate": 0.00022685779294653017,
+      "loss": 1.0845,
+      "step": 63000
+    },
+    {
+      "epoch": 7.281001137656427,
+      "grad_norm": 1.367330551147461,
+      "learning_rate": 0.0002177565415244596,
+      "loss": 1.0915,
+      "step": 64000
+    },
+    {
+      "epoch": 7.39476678043231,
+      "grad_norm": 1.2554900646209717,
+      "learning_rate": 0.00020865529010238908,
+      "loss": 1.0896,
+      "step": 65000
+    },
+    {
+      "epoch": 7.39476678043231,
+      "eval_accuracy": 0.712788,
+      "eval_loss": 1.1583917140960693,
+      "eval_runtime": 15.94,
+      "eval_samples_per_second": 15683.855,
+      "eval_steps_per_second": 30.678,
+      "step": 65000
+    },
+    {
+      "epoch": 7.508532423208191,
+      "grad_norm": 1.1475346088409424,
+      "learning_rate": 0.00019955403868031853,
+      "loss": 1.0937,
+      "step": 66000
+    },
+    {
+      "epoch": 7.622298065984073,
+      "grad_norm": 1.2330896854400635,
+      "learning_rate": 0.000190452787258248,
+      "loss": 1.095,
+      "step": 67000
+    },
+    {
+      "epoch": 7.736063708759954,
+      "grad_norm": 1.3467962741851807,
+      "learning_rate": 0.0001813515358361775,
+      "loss": 1.0945,
+      "step": 68000
+    },
+    {
+      "epoch": 7.849829351535837,
+      "grad_norm": 1.144555926322937,
+      "learning_rate": 0.00017225938566552902,
+      "loss": 1.0943,
+      "step": 69000
+    },
+    {
+      "epoch": 7.963594994311718,
+      "grad_norm": 1.39180326461792,
+      "learning_rate": 0.0001631581342434585,
+      "loss": 1.0917,
+      "step": 70000
+    },
+    {
+      "epoch": 7.963594994311718,
+      "eval_accuracy": 0.715496,
+      "eval_loss": 1.1535059213638306,
+      "eval_runtime": 16.0681,
+      "eval_samples_per_second": 15558.787,
+      "eval_steps_per_second": 30.433,
+      "step": 70000
+    },
+    {
+      "epoch": 8.0773606370876,
+      "grad_norm": 1.277241587638855,
+      "learning_rate": 0.00015405688282138795,
+      "loss": 1.0693,
+      "step": 71000
+    },
+    {
+      "epoch": 8.19112627986348,
+      "grad_norm": 1.3388996124267578,
+      "learning_rate": 0.00014496473265073948,
+      "loss": 1.064,
+      "step": 72000
+    },
+    {
+      "epoch": 8.304891922639364,
+      "grad_norm": 1.1635925769805908,
+      "learning_rate": 0.00013588168373151308,
+      "loss": 1.0617,
+      "step": 73000
+    },
+    {
+      "epoch": 8.418657565415245,
+      "grad_norm": 1.1681923866271973,
+      "learning_rate": 0.00012678043230944256,
+      "loss": 1.0664,
+      "step": 74000
+    },
+    {
+      "epoch": 8.532423208191126,
+      "grad_norm": 1.3212028741836548,
+      "learning_rate": 0.00011767918088737203,
+      "loss": 1.0654,
+      "step": 75000
+    },
+    {
+      "epoch": 8.532423208191126,
+      "eval_accuracy": 0.714384,
+      "eval_loss": 1.154496192932129,
+      "eval_runtime": 16.158,
+      "eval_samples_per_second": 15472.18,
+      "eval_steps_per_second": 30.264,
+      "step": 75000
+    },
+    {
+      "epoch": 8.646188850967008,
+      "grad_norm": 1.341015100479126,
+      "learning_rate": 0.00010857792946530148,
+      "loss": 1.0618,
+      "step": 76000
+    },
+    {
+      "epoch": 8.759954493742889,
+      "grad_norm": 1.2505824565887451,
+      "learning_rate": 9.947667804323096e-05,
+      "loss": 1.0674,
+      "step": 77000
+    },
+    {
+      "epoch": 8.873720136518772,
+      "grad_norm": 1.2615190744400024,
+      "learning_rate": 9.037542662116041e-05,
+      "loss": 1.0638,
+      "step": 78000
+    },
+    {
+      "epoch": 8.987485779294653,
+      "grad_norm": 1.2935796976089478,
+      "learning_rate": 8.128327645051195e-05,
+      "loss": 1.0616,
+      "step": 79000
+    },
+    {
+      "epoch": 9.101251422070535,
+      "grad_norm": 1.3248777389526367,
+      "learning_rate": 7.218202502844142e-05,
+      "loss": 1.0395,
+      "step": 80000
+    },
+    {
+      "epoch": 9.101251422070535,
+      "eval_accuracy": 0.716892,
+      "eval_loss": 1.1470571756362915,
+      "eval_runtime": 16.0825,
+      "eval_samples_per_second": 15544.827,
+      "eval_steps_per_second": 30.406,
+      "step": 80000
+    },
+    {
+      "epoch": 9.215017064846416,
+      "grad_norm": 1.379506230354309,
+      "learning_rate": 6.308077360637088e-05,
+      "loss": 1.0436,
+      "step": 81000
+    },
+    {
+      "epoch": 9.328782707622299,
+      "grad_norm": 1.1906781196594238,
+      "learning_rate": 5.398862343572242e-05,
+      "loss": 1.0417,
+      "step": 82000
+    },
+    {
+      "epoch": 9.44254835039818,
+      "grad_norm": 1.1397643089294434,
+      "learning_rate": 4.489647326507395e-05,
+      "loss": 1.0376,
+      "step": 83000
+    },
+    {
+      "epoch": 9.556313993174061,
+      "grad_norm": 1.0807147026062012,
+      "learning_rate": 3.5813424345847554e-05,
+      "loss": 1.0381,
+      "step": 84000
+    },
+    {
+      "epoch": 9.670079635949943,
+      "grad_norm": 1.3149391412734985,
+      "learning_rate": 2.6712172923777017e-05,
+      "loss": 1.0383,
+      "step": 85000
+    },
+    {
+      "epoch": 9.670079635949943,
+      "eval_accuracy": 0.713636,
+      "eval_loss": 1.1722280979156494,
+      "eval_runtime": 16.186,
+      "eval_samples_per_second": 15445.423,
+      "eval_steps_per_second": 30.211,
+      "step": 85000
+    },
+    {
+      "epoch": 9.783845278725824,
+      "grad_norm": 1.227634072303772,
+      "learning_rate": 1.7610921501706483e-05,
+      "loss": 1.0359,
+      "step": 86000
+    },
+    {
+      "epoch": 9.897610921501707,
+      "grad_norm": 1.2846591472625732,
+      "learning_rate": 8.509670079635951e-06,
+      "loss": 1.0337,
+      "step": 87000
+    },
+    {
+      "epoch": 10.0,
+      "step": 87900,
+      "total_flos": 5.6417821488e+17,
+      "train_loss": 1.2023330011465443,
+      "train_runtime": 3087.8654,
+      "train_samples_per_second": 14573.174,
+      "train_steps_per_second": 28.466
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 87900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 5000,
+  "total_flos": 5.6417821488e+17,
+  "train_batch_size": 512,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cb83c53dad265eea2b2575de9c35416e393e7c9c7d7cf436ca11a228b78fb59
+size 4984