mech-interp
/

clusters-jr-target-l0-pythia-160m-deduped

Model card Files Files and versions Community

belerico commited on Dec 4, 2024

Commit

eb9bf0d

verified ·

1 Parent(s): fa8001c

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

config.json +1 -0
k1-c0/cfg.json +1 -0
k1-c0/sae.safetensors +3 -0
k2-c0/cfg.json +1 -0
k2-c0/sae.safetensors +3 -0
k2-c1/cfg.json +1 -0
k2-c1/sae.safetensors +3 -0
k3-c0/cfg.json +1 -0
k3-c0/sae.safetensors +3 -0
k3-c1/cfg.json +1 -0
k3-c1/sae.safetensors +3 -0
k4-c2/cfg.json +1 -0
k4-c2/sae.safetensors +3 -0
k4-c3/cfg.json +1 -0
k4-c3/sae.safetensors +3 -0
k5-c1/cfg.json +1 -0
k5-c1/sae.safetensors +3 -0
k5-c2/cfg.json +1 -0
k5-c2/sae.safetensors +3 -0
l1_scheduler.pt +3 -0
lr_scheduler.pt +3 -0
optimizer.pt +3 -0
scaling_factors.pt +3 -0
state.pt +3 -0

config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"sae": {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false}, "batch_size": 4, "max_seq_len": 1024, "num_training_tokens": 1000000000, "cycle_iterator": true, "grad_acc_steps": 1, "micro_acc_steps": 1, "adam_8bit": false, "adam_epsilon": 1e-08, "adam_betas": [0.0, 0.999], "lr": 0.0007, "lr_scheduler_name": "cosine", "lr_warmup_steps": 0.01, "l1_coefficient": 0.5, "l1_warmup_steps": 0.1, "use_l2_loss": true, "auxk_alpha": 0.0, "dead_feature_threshold": 10000000, "hookpoints": ["layers.0", "layers.1", "layers.2", "layers.3", "layers.4", "layers.5", "layers.6", "layers.7", "layers.8", "layers.9", "layers.10"], "layers": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "layer_stride": 1, "distribute_modules": false, "save_every": 10000, "normalize_activations": 1, "num_norm_estimation_tokens": 2000000, "clusters": {"k1-c0": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "k2-c0": [0, 1, 2, 3, 4, 5, 6], "k2-c1": [7, 8, 9, 10], "k3-c0": [0, 1, 2], "k3-c1": [3, 4, 5, 6], "k4-c2": [7, 8], "k4-c3": [9, 10], "k5-c1": [3, 4], "k5-c2": [5, 6]}, "cluster_hookpoints": {"k1-c0": ["layers.0", "layers.1", "layers.2", "layers.3", "layers.4", "layers.5", "layers.6", "layers.7", "layers.8", "layers.9", "layers.10"], "k2-c0": ["layers.0", "layers.1", "layers.2", "layers.3", "layers.4", "layers.5", "layers.6"], "k2-c1": ["layers.7", "layers.8", "layers.9", "layers.10"], "k3-c0": ["layers.0", "layers.1", "layers.2"], "k3-c1": ["layers.3", "layers.4", "layers.5", "layers.6"], "k4-c2": ["layers.7", "layers.8"], "k4-c3": ["layers.9", "layers.10"], "k5-c1": ["layers.3", "layers.4"], "k5-c2": ["layers.5", "layers.6"]}, "hook": null, "log_to_wandb": true, "run_name": "checkpoints-clusters/EleutherAI/pythia-160m-deduped-1024-jr-lambda-0.5-target-L0-128-lr-0.0007", "wandb_log_frequency": 1}

k1-c0/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k1-c0/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb503264368512679983cd74391ddfe8b58b1ae986c91ff7cb79001f8a891d62
+size 75599264

k2-c0/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k2-c0/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc202a13bfb294e54e865168316cd1eb47e59e4288ab7916b78aebe089a036ca
+size 75599264

k2-c1/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k2-c1/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0a182aa13f655c02f4d9152913c0e2706609292206e4c4ef99766f4ee53aeee
+size 75599264

k3-c0/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k3-c0/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c8c82585fc28ee8c86d43ba841b94a662e8cab1d1d1e3da868c898c72b81221
+size 75599264

k3-c1/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k3-c1/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a36a4389221021014aaebd8b63ca0f594f9a04434abf7def2d4260c00b4d59c
+size 75599264

k4-c2/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k4-c2/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:395ffcc70ffa9a5cd40dc9d26aede623d34ecb02328c219d19f3111718f24b6a
+size 75599264

k4-c3/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k4-c3/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:436f202747097ea903d0b145859cdae65319e68c484c3120ea11d2c962d59cf8
+size 75599264

k5-c1/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k5-c1/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eae7160658550d64739f317fb6a7e819a40b408a0d76b0849e61e5f055ea7baa
+size 75599264

k5-c2/cfg.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"expansion_factor": 16, "normalize_decoder": true, "num_latents": 0, "k": -1, "multi_topk": false, "jumprelu": true, "jumprelu_init_threshold": 0.001, "jumprelu_bandwidth": 0.001, "jumprelu_target_l0": 128, "init_enc_as_dec_transpose": true, "init_b_dec_as_zeros": false, "d_in": 768}

k5-c2/sae.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fb1bed1f6f5cdfe51d881aad4fa5328825f26cef3b595dcbf266a15b07e16f2
+size 75599264

l1_scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b65a1da38bd98d7a0d104974297f22732ef81173f3007e03c87122eb52697b88
+size 1012

lr_scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c14ae07d67b649fedf7b48d1fb44789a1ac0de6e241b2155a55cddca0aa04be9
+size 1204

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfba59b4e8e27731f5951f9dec4c84f488d32545a3e5a808ecbe594616e692d6
+size 1360818170

scaling_factors.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab340e0ad15fcf8b2a1f7034b75d69ab695311629f4c22f46791cde35cab3d43
+size 1152

state.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae323d22fd37d1832de1773a38df62b63eac3fb45af870e3f120d4a9e83e7f0a
+size 887458