python run_train.py --C_init=lecun_normal --activation_fn=half_glu2 --batchnorm=True \ | |
--bidirectional=True --blocks=8 --bsz=50 --d_model=128 --dataset=listops-classification \ | |
--epochs=40 --jax_seed=6554595 --lr_factor=3 --n_layers=8 --opt_config=BfastandCdecay \ | |
--p_dropout=0 --ssm_lr_base=0.001 --ssm_size_base=16 --warmup_end=1 --weight_decay=0.04 |