{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 120, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 0.026384063741458276, "learning_rate": 4.166666666666667e-06, "loss": 0.0289, "step": 1 }, { "epoch": 0.03333333333333333, "grad_norm": 0.0381178394896252, "learning_rate": 8.333333333333334e-06, "loss": 0.0681, "step": 2 }, { "epoch": 0.05, "grad_norm": 0.03806013121499383, "learning_rate": 1.25e-05, "loss": 0.0701, "step": 3 }, { "epoch": 0.06666666666666667, "grad_norm": 0.02554968496153987, "learning_rate": 1.6666666666666667e-05, "loss": 0.0283, "step": 4 }, { "epoch": 0.08333333333333333, "grad_norm": 0.04082345198528403, "learning_rate": 2.0833333333333336e-05, "loss": 0.0546, "step": 5 }, { "epoch": 0.1, "grad_norm": 0.034219669070415494, "learning_rate": 2.5e-05, "loss": 0.0354, "step": 6 }, { "epoch": 0.11666666666666667, "grad_norm": 0.055222764423530565, "learning_rate": 2.916666666666667e-05, "loss": 0.0622, "step": 7 }, { "epoch": 0.13333333333333333, "grad_norm": 0.04042485918299323, "learning_rate": 3.3333333333333335e-05, "loss": 0.0491, "step": 8 }, { "epoch": 0.15, "grad_norm": 0.026281735764152415, "learning_rate": 3.7500000000000003e-05, "loss": 0.0214, "step": 9 }, { "epoch": 0.16666666666666666, "grad_norm": 0.04607271246393499, "learning_rate": 4.166666666666667e-05, "loss": 0.0613, "step": 10 }, { "epoch": 0.18333333333333332, "grad_norm": 0.0747369119767727, "learning_rate": 4.5833333333333334e-05, "loss": 0.0766, "step": 11 }, { "epoch": 0.2, "grad_norm": 0.0869039385880176, "learning_rate": 5e-05, "loss": 0.1212, "step": 12 }, { "epoch": 0.21666666666666667, "grad_norm": 0.02830200483746996, "learning_rate": 4.998942375205502e-05, "loss": 0.0267, "step": 13 }, { "epoch": 0.23333333333333334, "grad_norm": 0.06664779578474901, "learning_rate": 4.995770395678171e-05, "loss": 0.0951, "step": 14 }, { "epoch": 0.25, "grad_norm": 0.03813697779563304, "learning_rate": 4.990486745229364e-05, "loss": 0.0435, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 0.029655650206479773, "learning_rate": 4.983095894354858e-05, "loss": 0.0194, "step": 16 }, { "epoch": 0.2833333333333333, "grad_norm": 0.029553926983223806, "learning_rate": 4.973604096452361e-05, "loss": 0.0276, "step": 17 }, { "epoch": 0.3, "grad_norm": 0.03684909541122035, "learning_rate": 4.962019382530521e-05, "loss": 0.0633, "step": 18 }, { "epoch": 0.31666666666666665, "grad_norm": 0.058239327139823584, "learning_rate": 4.948351554413879e-05, "loss": 0.0581, "step": 19 }, { "epoch": 0.3333333333333333, "grad_norm": 0.05663579981509807, "learning_rate": 4.9326121764495596e-05, "loss": 0.0535, "step": 20 }, { "epoch": 0.35, "grad_norm": 0.051434548921003194, "learning_rate": 4.914814565722671e-05, "loss": 0.0274, "step": 21 }, { "epoch": 0.36666666666666664, "grad_norm": 0.032273082315555035, "learning_rate": 4.894973780788722e-05, "loss": 0.0214, "step": 22 }, { "epoch": 0.38333333333333336, "grad_norm": 0.025645161410312686, "learning_rate": 4.873106608932585e-05, "loss": 0.0201, "step": 23 }, { "epoch": 0.4, "grad_norm": 0.07228289445855908, "learning_rate": 4.849231551964771e-05, "loss": 0.046, "step": 24 }, { "epoch": 0.4166666666666667, "grad_norm": 0.03795719299441356, "learning_rate": 4.823368810567056e-05, "loss": 0.0291, "step": 25 }, { "epoch": 0.43333333333333335, "grad_norm": 0.03966755661083611, "learning_rate": 4.7955402672006854e-05, "loss": 0.0191, "step": 26 }, { "epoch": 0.45, "grad_norm": 0.027977314930774745, "learning_rate": 4.765769467591625e-05, "loss": 0.0236, "step": 27 }, { "epoch": 0.4666666666666667, "grad_norm": 0.0376610255278666, "learning_rate": 4.734081600808531e-05, "loss": 0.0375, "step": 28 }, { "epoch": 0.48333333333333334, "grad_norm": 0.039507227833144774, "learning_rate": 4.700503477950278e-05, "loss": 0.0301, "step": 29 }, { "epoch": 0.5, "grad_norm": 0.054474199510495536, "learning_rate": 4.665063509461097e-05, "loss": 0.0498, "step": 30 }, { "epoch": 0.5166666666666667, "grad_norm": 0.034047084156415955, "learning_rate": 4.627791681092499e-05, "loss": 0.0225, "step": 31 }, { "epoch": 0.5333333333333333, "grad_norm": 0.04149988647699434, "learning_rate": 4.588719528532342e-05, "loss": 0.0233, "step": 32 }, { "epoch": 0.55, "grad_norm": 0.02557096276097297, "learning_rate": 4.54788011072248e-05, "loss": 0.0208, "step": 33 }, { "epoch": 0.5666666666666667, "grad_norm": 0.05297880750156102, "learning_rate": 4.50530798188761e-05, "loss": 0.0503, "step": 34 }, { "epoch": 0.5833333333333334, "grad_norm": 0.03241692695784168, "learning_rate": 4.4610391622989396e-05, "loss": 0.0204, "step": 35 }, { "epoch": 0.6, "grad_norm": 0.031789230930039034, "learning_rate": 4.415111107797445e-05, "loss": 0.0223, "step": 36 }, { "epoch": 0.6166666666666667, "grad_norm": 0.09163975585614548, "learning_rate": 4.36756267810249e-05, "loss": 0.0543, "step": 37 }, { "epoch": 0.6333333333333333, "grad_norm": 0.04237240403102959, "learning_rate": 4.318434103932622e-05, "loss": 0.0213, "step": 38 }, { "epoch": 0.65, "grad_norm": 0.038433227869473605, "learning_rate": 4.267766952966369e-05, "loss": 0.0229, "step": 39 }, { "epoch": 0.6666666666666666, "grad_norm": 0.061322227427647834, "learning_rate": 4.215604094671835e-05, "loss": 0.0457, "step": 40 }, { "epoch": 0.6833333333333333, "grad_norm": 0.029307088218105272, "learning_rate": 4.1619896640348445e-05, "loss": 0.0143, "step": 41 }, { "epoch": 0.7, "grad_norm": 0.022936051386415447, "learning_rate": 4.1069690242163484e-05, "loss": 0.0126, "step": 42 }, { "epoch": 0.7166666666666667, "grad_norm": 0.07658833688112006, "learning_rate": 4.05058872817065e-05, "loss": 0.0754, "step": 43 }, { "epoch": 0.7333333333333333, "grad_norm": 0.037676215687386765, "learning_rate": 3.9928964792569655e-05, "loss": 0.0236, "step": 44 }, { "epoch": 0.75, "grad_norm": 0.06215415347689673, "learning_rate": 3.933941090877615e-05, "loss": 0.0467, "step": 45 }, { "epoch": 0.7666666666666667, "grad_norm": 0.028019464294679285, "learning_rate": 3.873772445177015e-05, "loss": 0.0153, "step": 46 }, { "epoch": 0.7833333333333333, "grad_norm": 0.04220821981679396, "learning_rate": 3.8124414508364e-05, "loss": 0.0183, "step": 47 }, { "epoch": 0.8, "grad_norm": 0.051205067038937485, "learning_rate": 3.7500000000000003e-05, "loss": 0.0387, "step": 48 }, { "epoch": 0.8166666666666667, "grad_norm": 0.029870905431265686, "learning_rate": 3.686500924369101e-05, "loss": 0.0195, "step": 49 }, { "epoch": 0.8333333333333334, "grad_norm": 0.024478518183322393, "learning_rate": 3.621997950501156e-05, "loss": 0.0125, "step": 50 }, { "epoch": 0.85, "grad_norm": 0.06425234214970503, "learning_rate": 3.556545654351749e-05, "loss": 0.0452, "step": 51 }, { "epoch": 0.8666666666666667, "grad_norm": 0.060249490179085215, "learning_rate": 3.490199415097892e-05, "loss": 0.0432, "step": 52 }, { "epoch": 0.8833333333333333, "grad_norm": 0.03993944750618337, "learning_rate": 3.423015368281711e-05, "loss": 0.0214, "step": 53 }, { "epoch": 0.9, "grad_norm": 0.05305682509824997, "learning_rate": 3.355050358314172e-05, "loss": 0.0295, "step": 54 }, { "epoch": 0.9166666666666666, "grad_norm": 0.043309758489262724, "learning_rate": 3.2863618903790346e-05, "loss": 0.0116, "step": 55 }, { "epoch": 0.9333333333333333, "grad_norm": 0.05029945068435243, "learning_rate": 3.217008081777726e-05, "loss": 0.0137, "step": 56 }, { "epoch": 0.95, "grad_norm": 0.03165935886021689, "learning_rate": 3.147047612756302e-05, "loss": 0.0105, "step": 57 }, { "epoch": 0.9666666666666667, "grad_norm": 0.036765703778937175, "learning_rate": 3.076539676856101e-05, "loss": 0.0117, "step": 58 }, { "epoch": 0.9833333333333333, "grad_norm": 0.044008256441346136, "learning_rate": 3.0055439308300952e-05, "loss": 0.016, "step": 59 }, { "epoch": 1.0, "grad_norm": 0.04399005512538931, "learning_rate": 2.9341204441673266e-05, "loss": 0.0223, "step": 60 }, { "epoch": 1.0, "eval_loss": 0.0373697392642498, "eval_runtime": 0.4152, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "step": 60 }, { "epoch": 1.0166666666666666, "grad_norm": 0.037133481892040514, "learning_rate": 2.8623296482681166e-05, "loss": 0.013, "step": 61 }, { "epoch": 1.0333333333333334, "grad_norm": 0.04497729934240487, "learning_rate": 2.7902322853130757e-05, "loss": 0.0216, "step": 62 }, { "epoch": 1.05, "grad_norm": 0.03831977031555312, "learning_rate": 2.717889356869146e-05, "loss": 0.0236, "step": 63 }, { "epoch": 1.0666666666666667, "grad_norm": 0.020996179804174984, "learning_rate": 2.6453620722761896e-05, "loss": 0.0066, "step": 64 }, { "epoch": 1.0833333333333333, "grad_norm": 0.0448285474215798, "learning_rate": 2.5727117968577784e-05, "loss": 0.0255, "step": 65 }, { "epoch": 1.1, "grad_norm": 0.027351811004705545, "learning_rate": 2.5e-05, "loss": 0.0093, "step": 66 }, { "epoch": 1.1166666666666667, "grad_norm": 0.03820675587650992, "learning_rate": 2.4272882031422215e-05, "loss": 0.0222, "step": 67 }, { "epoch": 1.1333333333333333, "grad_norm": 0.02567552327007203, "learning_rate": 2.3546379277238107e-05, "loss": 0.0063, "step": 68 }, { "epoch": 1.15, "grad_norm": 0.023207043476762543, "learning_rate": 2.2821106431308544e-05, "loss": 0.0069, "step": 69 }, { "epoch": 1.1666666666666667, "grad_norm": 0.02669421637100139, "learning_rate": 2.2097677146869242e-05, "loss": 0.0053, "step": 70 }, { "epoch": 1.1833333333333333, "grad_norm": 0.025070674733463198, "learning_rate": 2.1376703517318837e-05, "loss": 0.011, "step": 71 }, { "epoch": 1.2, "grad_norm": 0.03151995798369007, "learning_rate": 2.0658795558326743e-05, "loss": 0.0086, "step": 72 }, { "epoch": 1.2166666666666668, "grad_norm": 0.02673178326782079, "learning_rate": 1.9944560691699057e-05, "loss": 0.0069, "step": 73 }, { "epoch": 1.2333333333333334, "grad_norm": 0.04834068529611499, "learning_rate": 1.9234603231438995e-05, "loss": 0.0124, "step": 74 }, { "epoch": 1.25, "grad_norm": 0.032690938131770333, "learning_rate": 1.852952387243698e-05, "loss": 0.0097, "step": 75 }, { "epoch": 1.2666666666666666, "grad_norm": 0.02250262879831173, "learning_rate": 1.7829919182222752e-05, "loss": 0.0071, "step": 76 }, { "epoch": 1.2833333333333332, "grad_norm": 0.022663730453488885, "learning_rate": 1.7136381096209664e-05, "loss": 0.005, "step": 77 }, { "epoch": 1.3, "grad_norm": 0.04042460539577997, "learning_rate": 1.6449496416858284e-05, "loss": 0.0099, "step": 78 }, { "epoch": 1.3166666666666667, "grad_norm": 0.016943939145619667, "learning_rate": 1.5769846317182893e-05, "loss": 0.0033, "step": 79 }, { "epoch": 1.3333333333333333, "grad_norm": 0.030207079287355817, "learning_rate": 1.509800584902108e-05, "loss": 0.0079, "step": 80 }, { "epoch": 1.35, "grad_norm": 0.052656185365865624, "learning_rate": 1.443454345648252e-05, "loss": 0.027, "step": 81 }, { "epoch": 1.3666666666666667, "grad_norm": 0.0497250362640235, "learning_rate": 1.3780020494988446e-05, "loss": 0.0143, "step": 82 }, { "epoch": 1.3833333333333333, "grad_norm": 0.021663721918114456, "learning_rate": 1.313499075630899e-05, "loss": 0.0054, "step": 83 }, { "epoch": 1.4, "grad_norm": 0.042146167692867276, "learning_rate": 1.2500000000000006e-05, "loss": 0.0086, "step": 84 }, { "epoch": 1.4166666666666667, "grad_norm": 0.017363385328503626, "learning_rate": 1.1875585491636e-05, "loss": 0.0047, "step": 85 }, { "epoch": 1.4333333333333333, "grad_norm": 0.046140550247183644, "learning_rate": 1.126227554822985e-05, "loss": 0.0199, "step": 86 }, { "epoch": 1.45, "grad_norm": 0.11631571582402989, "learning_rate": 1.0660589091223855e-05, "loss": 0.0219, "step": 87 }, { "epoch": 1.4666666666666668, "grad_norm": 0.06934377482076469, "learning_rate": 1.0071035207430352e-05, "loss": 0.0182, "step": 88 }, { "epoch": 1.4833333333333334, "grad_norm": 0.05093725494680462, "learning_rate": 9.494112718293501e-06, "loss": 0.015, "step": 89 }, { "epoch": 1.5, "grad_norm": 0.04493724698985179, "learning_rate": 8.930309757836517e-06, "loss": 0.0168, "step": 90 }, { "epoch": 1.5166666666666666, "grad_norm": 0.06911047964567629, "learning_rate": 8.380103359651553e-06, "loss": 0.0171, "step": 91 }, { "epoch": 1.5333333333333332, "grad_norm": 0.04707044793228012, "learning_rate": 7.843959053281663e-06, "loss": 0.0145, "step": 92 }, { "epoch": 1.55, "grad_norm": 0.028551442066085193, "learning_rate": 7.3223304703363135e-06, "loss": 0.0071, "step": 93 }, { "epoch": 1.5666666666666667, "grad_norm": 0.03087656444597174, "learning_rate": 6.815658960673782e-06, "loss": 0.0082, "step": 94 }, { "epoch": 1.5833333333333335, "grad_norm": 0.012750645976565285, "learning_rate": 6.324373218975105e-06, "loss": 0.0019, "step": 95 }, { "epoch": 1.6, "grad_norm": 0.02449196736617268, "learning_rate": 5.848888922025553e-06, "loss": 0.0036, "step": 96 }, { "epoch": 1.6166666666666667, "grad_norm": 0.017517015560072235, "learning_rate": 5.389608377010608e-06, "loss": 0.004, "step": 97 }, { "epoch": 1.6333333333333333, "grad_norm": 0.01623227924717082, "learning_rate": 4.946920181123904e-06, "loss": 0.0031, "step": 98 }, { "epoch": 1.65, "grad_norm": 0.11257763379879959, "learning_rate": 4.521198892775203e-06, "loss": 0.0434, "step": 99 }, { "epoch": 1.6666666666666665, "grad_norm": 0.060311955245701675, "learning_rate": 4.112804714676594e-06, "loss": 0.0242, "step": 100 }, { "epoch": 1.6833333333333333, "grad_norm": 0.16931823577796679, "learning_rate": 3.7220831890750067e-06, "loss": 0.0203, "step": 101 }, { "epoch": 1.7, "grad_norm": 0.05390891274686803, "learning_rate": 3.3493649053890326e-06, "loss": 0.0099, "step": 102 }, { "epoch": 1.7166666666666668, "grad_norm": 0.07845161240666386, "learning_rate": 2.9949652204972254e-06, "loss": 0.0208, "step": 103 }, { "epoch": 1.7333333333333334, "grad_norm": 0.022188817084095064, "learning_rate": 2.659183991914696e-06, "loss": 0.0021, "step": 104 }, { "epoch": 1.75, "grad_norm": 0.045194097552994555, "learning_rate": 2.3423053240837515e-06, "loss": 0.0145, "step": 105 }, { "epoch": 1.7666666666666666, "grad_norm": 0.04320010676543297, "learning_rate": 2.044597327993153e-06, "loss": 0.007, "step": 106 }, { "epoch": 1.7833333333333332, "grad_norm": 0.03998232231315256, "learning_rate": 1.7663118943294366e-06, "loss": 0.0121, "step": 107 }, { "epoch": 1.8, "grad_norm": 0.02036932629359332, "learning_rate": 1.5076844803522922e-06, "loss": 0.0046, "step": 108 }, { "epoch": 1.8166666666666667, "grad_norm": 0.012776871070684358, "learning_rate": 1.2689339106741527e-06, "loss": 0.0023, "step": 109 }, { "epoch": 1.8333333333333335, "grad_norm": 0.04885025476573013, "learning_rate": 1.0502621921127776e-06, "loss": 0.01, "step": 110 }, { "epoch": 1.85, "grad_norm": 0.013048452680092035, "learning_rate": 8.51854342773295e-07, "loss": 0.0021, "step": 111 }, { "epoch": 1.8666666666666667, "grad_norm": 0.01577143442530727, "learning_rate": 6.738782355044049e-07, "loss": 0.0036, "step": 112 }, { "epoch": 1.8833333333333333, "grad_norm": 0.0239932320615818, "learning_rate": 5.164844558612131e-07, "loss": 0.0052, "step": 113 }, { "epoch": 1.9, "grad_norm": 0.006170123542353716, "learning_rate": 3.7980617469479953e-07, "loss": 0.0006, "step": 114 }, { "epoch": 1.9166666666666665, "grad_norm": 0.020277542430267054, "learning_rate": 2.6395903547638825e-07, "loss": 0.0027, "step": 115 }, { "epoch": 1.9333333333333333, "grad_norm": 0.016294524791986845, "learning_rate": 1.6904105645142444e-07, "loss": 0.0028, "step": 116 }, { "epoch": 1.95, "grad_norm": 0.03362862102640842, "learning_rate": 9.513254770636137e-08, "loss": 0.0057, "step": 117 }, { "epoch": 1.9666666666666668, "grad_norm": 0.003932878635129191, "learning_rate": 4.229604321829561e-08, "loss": 0.0004, "step": 118 }, { "epoch": 1.9833333333333334, "grad_norm": 0.07246901106530362, "learning_rate": 1.0576247944985018e-08, "loss": 0.0284, "step": 119 }, { "epoch": 2.0, "grad_norm": 0.049463984848335224, "learning_rate": 0.0, "loss": 0.014, "step": 120 }, { "epoch": 2.0, "eval_loss": 0.049386005848646164, "eval_runtime": 1.3963, "eval_samples_per_second": 0.716, "eval_steps_per_second": 0.716, "step": 120 }, { "epoch": 2.0, "step": 120, "total_flos": 904636661760.0, "train_loss": 0.023700654555674796, "train_runtime": 290.5243, "train_samples_per_second": 0.826, "train_steps_per_second": 0.413 } ], "logging_steps": 1, "max_steps": 120, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 904636661760.0, "train_batch_size": 2, "trial_name": null, "trial_params": null }