Edit model card

albert-no-variable-items-length

This model is a fine-tuned version of deepseek-ai/deepseek-math-7b-base on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0201

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 3e-06
  • train_batch_size: 16
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 64
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_warmup_steps: 1
  • num_epochs: 3

Training results

Training Loss Epoch Step Validation Loss
0.7887 0.01 1 0.3267
0.8195 0.01 2 0.3220
0.7704 0.02 3 0.3179
0.7745 0.03 4 0.3148
0.7651 0.03 5 0.3115
0.7484 0.04 6 0.3085
0.7621 0.04 7 0.3065
0.7409 0.05 8 0.3033
0.7138 0.06 9 0.3003
0.7204 0.06 10 0.2985
0.6912 0.07 11 0.2952
0.7163 0.08 12 0.2922
0.6911 0.08 13 0.2901
0.6774 0.09 14 0.2878
0.6692 0.1 15 0.2851
0.6055 0.1 16 0.2825
0.4833 0.11 17 0.2801
0.4824 0.12 18 0.2765
0.4753 0.12 19 0.2752
0.4653 0.13 20 0.2722
0.466 0.13 21 0.2696
0.4599 0.14 22 0.2685
0.4484 0.15 23 0.2647
0.4508 0.15 24 0.2615
0.4436 0.16 25 0.2594
0.4526 0.17 26 0.2565
0.4332 0.17 27 0.2551
0.4246 0.18 28 0.2515
0.4241 0.19 29 0.2480
0.4173 0.19 30 0.2453
0.4031 0.2 31 0.2435
0.4122 0.2 32 0.2400
0.408 0.21 33 0.2386
0.3971 0.22 34 0.2361
0.4002 0.22 35 0.2337
0.3881 0.23 36 0.2310
0.3965 0.24 37 0.2272
0.3731 0.24 38 0.2245
0.3743 0.25 39 0.2211
0.3625 0.26 40 0.2191
0.3619 0.26 41 0.2167
0.3557 0.27 42 0.2149
0.3539 0.28 43 0.2107
0.3367 0.28 44 0.2089
0.3427 0.29 45 0.2061
0.333 0.29 46 0.2026
0.308 0.3 47 0.1996
0.2572 0.31 48 0.1969
0.2568 0.31 49 0.1934
0.2452 0.32 50 0.1915
0.2406 0.33 51 0.1874
0.2395 0.33 52 0.1834
0.2337 0.34 53 0.1805
0.2223 0.35 54 0.1767
0.2295 0.35 55 0.1732
0.222 0.36 56 0.1692
0.2174 0.36 57 0.1653
0.2064 0.37 58 0.1637
0.2075 0.38 59 0.1591
0.2014 0.38 60 0.1559
0.1963 0.39 61 0.1519
0.1908 0.4 62 0.1485
0.1963 0.4 63 0.1445
0.1793 0.41 64 0.1408
0.179 0.42 65 0.1377
0.1645 0.42 66 0.1334
0.1651 0.43 67 0.1299
0.1632 0.44 68 0.1264
0.1549 0.44 69 0.1224
0.1479 0.45 70 0.1186
0.1491 0.45 71 0.1153
0.1397 0.46 72 0.1109
0.1384 0.47 73 0.1069
0.1308 0.47 74 0.1025
0.1144 0.48 75 0.0987
0.1191 0.49 76 0.0946
0.1132 0.49 77 0.0910
0.1057 0.5 78 0.0867
0.0911 0.51 79 0.0841
0.1005 0.51 80 0.0812
0.0885 0.52 81 0.0790
0.091 0.52 82 0.0766
0.0841 0.53 83 0.0742
0.0808 0.54 84 0.0728
0.0752 0.54 85 0.0708
0.0717 0.55 86 0.0690
0.0767 0.56 87 0.0676
0.069 0.56 88 0.0658
0.0721 0.57 89 0.0643
0.074 0.58 90 0.0635
0.0633 0.58 91 0.0621
0.0706 0.59 92 0.0609
0.0575 0.6 93 0.0587
0.0641 0.6 94 0.0584
0.0574 0.61 95 0.0572
0.0658 0.61 96 0.0567
0.0696 0.62 97 0.0553
0.0603 0.63 98 0.0544
0.0571 0.63 99 0.0537
0.057 0.64 100 0.0527
0.0569 0.65 101 0.0514
0.0521 0.65 102 0.0511
0.052 0.66 103 0.0501
0.0529 0.67 104 0.0490
0.0523 0.67 105 0.0490
0.0567 0.68 106 0.0480
0.0547 0.68 107 0.0475
0.0509 0.69 108 0.0468
0.0506 0.7 109 0.0462
0.0533 0.7 110 0.0458
0.0544 0.71 111 0.0449
0.0521 0.72 112 0.0442
0.0527 0.72 113 0.0439
0.0495 0.73 114 0.0436
0.0471 0.74 115 0.0430
0.0442 0.74 116 0.0424
0.0432 0.75 117 0.0421
0.0451 0.76 118 0.0420
0.0498 0.76 119 0.0409
0.0468 0.77 120 0.0409
0.0474 0.77 121 0.0403
0.0462 0.78 122 0.0399
0.037 0.79 123 0.0397
0.041 0.79 124 0.0393
0.045 0.8 125 0.0387
0.045 0.81 126 0.0393
0.0416 0.81 127 0.0381
0.0418 0.82 128 0.0383
0.0382 0.83 129 0.0377
0.0444 0.83 130 0.0376
0.0404 0.84 131 0.0373
0.0438 0.84 132 0.0369
0.0411 0.85 133 0.0365
0.041 0.86 134 0.0364
0.0425 0.86 135 0.0362
0.0418 0.87 136 0.0356
0.0407 0.88 137 0.0358
0.04 0.88 138 0.0362
0.0382 0.89 139 0.0358
0.0415 0.9 140 0.0351
0.0374 0.9 141 0.0353
0.0377 0.91 142 0.0350
0.0368 0.92 143 0.0348
0.0389 0.92 144 0.0348
0.035 0.93 145 0.0344
0.0377 0.93 146 0.0346
0.0394 0.94 147 0.0344
0.0349 0.95 148 0.0344
0.0379 0.95 149 0.0341
0.0336 0.96 150 0.0340
0.037 0.97 151 0.0338
0.0338 0.97 152 0.0337
0.0384 0.98 153 0.0337
0.0385 0.99 154 0.0333
0.0345 0.99 155 0.0333
0.0354 1.0 156 0.0330
0.0359 1.0 157 0.0324
0.0372 1.01 158 0.0328
0.0337 1.02 159 0.0321
0.0344 1.02 160 0.0322
0.0351 1.03 161 0.0319
0.0324 1.04 162 0.0324
0.034 1.04 163 0.0320
0.0287 1.05 164 0.0321
0.03 1.06 165 0.0320
0.0314 1.06 166 0.0319
0.0275 1.07 167 0.0315
0.0213 1.08 168 0.0321
0.0277 1.08 169 0.0321
0.0275 1.09 170 0.0319
0.0182 1.09 171 0.0320
0.0236 1.1 172 0.0319
0.0319 1.11 173 0.0312
0.0358 1.11 174 0.0319
0.0328 1.12 175 0.0319
0.0337 1.13 176 0.0318
0.0382 1.13 177 0.0319
0.0315 1.14 178 0.0312
0.0308 1.15 179 0.0320
0.0314 1.15 180 0.0325
0.0312 1.16 181 0.0324
0.0326 1.16 182 0.0327
0.0278 1.17 183 0.0332
0.0264 1.18 184 0.0329
0.0307 1.18 185 0.0334
0.0255 1.19 186 0.0336
0.0284 1.2 187 0.0338
0.029 1.2 188 0.0342
0.0299 1.21 189 0.0343
0.0317 1.22 190 0.0342
0.0319 1.22 191 0.0345
0.0281 1.23 192 0.0344
0.0293 1.24 193 0.0341
0.0256 1.24 194 0.0344
0.0253 1.25 195 0.0345
0.0255 1.25 196 0.0344
0.0238 1.26 197 0.0343
0.0247 1.27 198 0.0338
0.0239 1.27 199 0.0344
0.0248 1.28 200 0.0345
0.0253 1.29 201 0.0343
0.0252 1.29 202 0.0340
0.0275 1.3 203 0.0340
0.0376 1.31 204 0.0336
0.0374 1.31 205 0.0333
0.0397 1.32 206 0.0331
0.0361 1.32 207 0.0322
0.0402 1.33 208 0.0319
0.0307 1.34 209 0.0317
0.0305 1.34 210 0.0309
0.0285 1.35 211 0.0307
0.0301 1.36 212 0.0307
0.0298 1.36 213 0.0306
0.0278 1.37 214 0.0305
0.0283 1.38 215 0.0303
0.0311 1.38 216 0.0304
0.0314 1.39 217 0.0306
0.0301 1.4 218 0.0304
0.0301 1.4 219 0.0303
0.0297 1.41 220 0.0299
0.0298 1.41 221 0.0300
0.0316 1.42 222 0.0299
0.0258 1.43 223 0.0296
0.0297 1.43 224 0.0297
0.0307 1.44 225 0.0289
0.0256 1.45 226 0.0285
0.0291 1.45 227 0.0285
0.0295 1.46 228 0.0286
0.0263 1.47 229 0.0283
0.0301 1.47 230 0.0284
0.0289 1.48 231 0.0285
0.0272 1.48 232 0.0286
0.0297 1.49 233 0.0286
0.0261 1.5 234 0.0286
0.0254 1.5 235 0.0286
0.0298 1.51 236 0.0284
0.0329 1.52 237 0.0278
0.0325 1.52 238 0.0281
0.0297 1.53 239 0.0280
0.0274 1.54 240 0.0281
0.0291 1.54 241 0.0277
0.0271 1.55 242 0.0279
0.0283 1.56 243 0.0278
0.0258 1.56 244 0.0277
0.0271 1.57 245 0.0276
0.0279 1.57 246 0.0273
0.0282 1.58 247 0.0274
0.0286 1.59 248 0.0272
0.0248 1.59 249 0.0268
0.0268 1.6 250 0.0272
0.0239 1.61 251 0.0271
0.0321 1.61 252 0.0268
0.0305 1.62 253 0.0266
0.0307 1.63 254 0.0263
0.0245 1.63 255 0.0266
0.0261 1.64 256 0.0268
0.0264 1.64 257 0.0262
0.0268 1.65 258 0.0264
0.0253 1.66 259 0.0261
0.0267 1.66 260 0.0261
0.0276 1.67 261 0.0262
0.0269 1.68 262 0.0260
0.0265 1.68 263 0.0262
0.0267 1.69 264 0.0262
0.0256 1.7 265 0.0260
0.0285 1.7 266 0.0257
0.0305 1.71 267 0.0259
0.0302 1.72 268 0.0262
0.0294 1.72 269 0.0258
0.0295 1.73 270 0.0255
0.027 1.73 271 0.0255
0.0276 1.74 272 0.0256
0.0256 1.75 273 0.0257
0.0248 1.75 274 0.0257
0.0305 1.76 275 0.0253
0.029 1.77 276 0.0253
0.0296 1.77 277 0.0251
0.0307 1.78 278 0.0250
0.0247 1.79 279 0.0250
0.0235 1.79 280 0.0250
0.0267 1.8 281 0.0250
0.0278 1.8 282 0.0246
0.0277 1.81 283 0.0248
0.0266 1.82 284 0.0242
0.0232 1.82 285 0.0244
0.0288 1.83 286 0.0243
0.0276 1.84 287 0.0243
0.0295 1.84 288 0.0241
0.0253 1.85 289 0.0240
0.0267 1.86 290 0.0244
0.0286 1.86 291 0.0242
0.0272 1.87 292 0.0237
0.0267 1.88 293 0.0240
0.0251 1.88 294 0.0243
0.0257 1.89 295 0.0239
0.0283 1.89 296 0.0237
0.0246 1.9 297 0.0238
0.0241 1.91 298 0.0238
0.0259 1.91 299 0.0241
0.0246 1.92 300 0.0237
0.0253 1.93 301 0.0239
0.0257 1.93 302 0.0237
0.0232 1.94 303 0.0238
0.0241 1.95 304 0.0237
0.0254 1.95 305 0.0237
0.0227 1.96 306 0.0238
0.023 1.96 307 0.0238
0.0232 1.97 308 0.0238
0.0268 1.98 309 0.0234
0.027 1.98 310 0.0237
0.0243 1.99 311 0.0235
0.025 2.0 312 0.0235
0.0185 2.0 313 0.0235
0.0153 2.01 314 0.0234
0.0119 2.02 315 0.0236
0.0094 2.02 316 0.0235
0.0171 2.03 317 0.0237
0.0121 2.04 318 0.0235
0.0135 2.04 319 0.0231
0.0182 2.05 320 0.0235
0.0128 2.05 321 0.0232
0.014 2.06 322 0.0235
0.0142 2.07 323 0.0237
0.0084 2.07 324 0.0236
0.0137 2.08 325 0.0235
0.0144 2.09 326 0.0238
0.0114 2.09 327 0.0237
0.0104 2.1 328 0.0239
0.0205 2.11 329 0.0234
0.0234 2.11 330 0.0233
0.0227 2.12 331 0.0237
0.0217 2.12 332 0.0235
0.025 2.13 333 0.0237
0.0208 2.14 334 0.0245
0.0192 2.14 335 0.0245
0.0195 2.15 336 0.0249
0.0203 2.16 337 0.0253
0.0234 2.16 338 0.0252
0.0176 2.17 339 0.0259
0.018 2.18 340 0.0260
0.0188 2.18 341 0.0265
0.0198 2.19 342 0.0262
0.0172 2.2 343 0.0268
0.0184 2.2 344 0.0271
0.0192 2.21 345 0.0273
0.0203 2.21 346 0.0277
0.0221 2.22 347 0.0283
0.0189 2.23 348 0.0282
0.0196 2.23 349 0.0289
0.0205 2.24 350 0.0288
0.0168 2.25 351 0.0291
0.0176 2.25 352 0.0294
0.0165 2.26 353 0.0295
0.0148 2.27 354 0.0301
0.0178 2.27 355 0.0296
0.0163 2.28 356 0.0301
0.0203 2.28 357 0.0303
0.0163 2.29 358 0.0301
0.0183 2.3 359 0.0301
0.0266 2.3 360 0.0299
0.0295 2.31 361 0.0295
0.0293 2.32 362 0.0291
0.0248 2.32 363 0.0281
0.0285 2.33 364 0.0273
0.0252 2.34 365 0.0262
0.0222 2.34 366 0.0257
0.0208 2.35 367 0.0245
0.0194 2.36 368 0.0239
0.0217 2.36 369 0.0238
0.0183 2.37 370 0.0237
0.0218 2.37 371 0.0238
0.0224 2.38 372 0.0233
0.023 2.39 373 0.0235
0.0205 2.39 374 0.0235
0.0215 2.4 375 0.0237
0.0189 2.41 376 0.0238
0.0233 2.41 377 0.0236
0.0225 2.42 378 0.0238
0.0196 2.43 379 0.0233
0.0224 2.43 380 0.0232
0.0214 2.44 381 0.0234
0.0187 2.44 382 0.0233
0.0199 2.45 383 0.0231
0.0227 2.46 384 0.0231
0.0199 2.46 385 0.0231
0.0248 2.47 386 0.0231
0.0196 2.48 387 0.0231
0.0214 2.48 388 0.0231
0.022 2.49 389 0.0230
0.0201 2.5 390 0.0232
0.0205 2.5 391 0.0233
0.0221 2.51 392 0.0231
0.0255 2.52 393 0.0233
0.0235 2.52 394 0.0232
0.0235 2.53 395 0.0231
0.0237 2.53 396 0.0232
0.0216 2.54 397 0.0236
0.0229 2.55 398 0.0232
0.0191 2.55 399 0.0231
0.0211 2.56 400 0.0231
0.02 2.57 401 0.0232
0.0217 2.57 402 0.0228
0.0228 2.58 403 0.0228
0.0222 2.59 404 0.0230
0.0197 2.59 405 0.0226
0.0195 2.6 406 0.0225
0.0208 2.6 407 0.0227
0.0238 2.61 408 0.0226
0.0247 2.62 409 0.0222
0.0229 2.62 410 0.0223
0.0208 2.63 411 0.0222
0.0197 2.64 412 0.0220
0.0215 2.64 413 0.0222
0.0216 2.65 414 0.0221
0.0194 2.66 415 0.0221
0.0223 2.66 416 0.0220
0.022 2.67 417 0.0220
0.0204 2.68 418 0.0218
0.0211 2.68 419 0.0219
0.0205 2.69 420 0.0218
0.021 2.69 421 0.0213
0.0206 2.7 422 0.0216
0.0261 2.71 423 0.0215
0.0234 2.71 424 0.0216
0.0246 2.72 425 0.0215
0.0242 2.73 426 0.0217
0.0204 2.73 427 0.0217
0.0214 2.74 428 0.0215
0.0235 2.75 429 0.0216
0.0196 2.75 430 0.0213
0.0223 2.76 431 0.0213
0.0239 2.76 432 0.0211
0.0224 2.77 433 0.0210
0.025 2.78 434 0.0210
0.0228 2.78 435 0.0210
0.0182 2.79 436 0.0207
0.0214 2.8 437 0.0208
0.022 2.8 438 0.0212
0.0233 2.81 439 0.0205
0.0209 2.82 440 0.0208
0.0194 2.82 441 0.0206
0.0215 2.83 442 0.0205
0.0242 2.84 443 0.0204
0.0219 2.84 444 0.0205
0.0217 2.85 445 0.0205
0.0237 2.85 446 0.0205
0.0214 2.86 447 0.0205
0.0224 2.87 448 0.0201
0.0199 2.87 449 0.0206
0.0219 2.88 450 0.0202
0.022 2.89 451 0.0202
0.0224 2.89 452 0.0204
0.0214 2.9 453 0.0200
0.0185 2.91 454 0.0201
0.0219 2.91 455 0.0202
0.0204 2.92 456 0.0203
0.0198 2.92 457 0.0201
0.0214 2.93 458 0.0202
0.0184 2.94 459 0.0203
0.0191 2.94 460 0.0200
0.0221 2.95 461 0.0205
0.0192 2.96 462 0.0204
0.0186 2.96 463 0.0204
0.0176 2.97 464 0.0201
0.0209 2.98 465 0.0203
0.0233 2.98 466 0.0200
0.0189 2.99 467 0.0204
0.0214 3.0 468 0.0201

Framework versions

  • Transformers 4.37.2
  • Pytorch 2.1.0a0+32f93b1
  • Datasets 2.17.1
  • Tokenizers 0.15.2
Downloads last month
15
Safetensors
Model size
6.91B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for woody72/albert-no-variable-items-length

Finetuned
(13)
this model