mali6
/

autocap

Model card Files Files and versions Community

mali6 commited on Jun 24, 2024

Commit

537aa7f

verified ·

1 Parent(s): 3555c0a

Upload genau-full-s.yaml with huggingface_hub

Browse files

Files changed (1) hide show

genau-full-s.yaml +25 -23

genau-full-s.yaml CHANGED Viewed

@@ -5,14 +5,14 @@ training:
 logging:
-  project_name: "audioldm-snap"
-  wandb_key: 48955513a8a3387ed6a17f75021431035150e1fe
   log_directory: "./run_logs/genau/train"
-  # Saving Checkpoints
-  # if s3 path is speicified, checkpoints be saved at S3_FOLDED/log_directory and deleted from the local folder (except the last checkpoint). Otherwise, checkpointwill be save locally indefinitely
-  S3_BUCKET: "snap-genvid"
-  S3_FOLDER: 'mali6/audioldm'
   save_checkpoint_every_n_steps: 1500
   save_top_k: -1
@@ -33,8 +33,8 @@ variables:
 data:
   train: ['vggsounds', 'audiocaps', 'caption_audioset', 'wavcaps_audioset_strong', 'wavcaps_bbcsound', 'wavcaps_freesound', 'wavcaps_soundbible', 'clotho', 'fsd50k']
-  val: "autocap"
-  test: "autocap"
   class_label_indices: "audioset_eval_subset"
   dataloader_add_ons: []
   augment_p : 0.0
@@ -86,14 +86,14 @@ augmentation:
   mixup: 0.0
 model:
-  target: audioldm_train.modules.latent_diffusion.ddpm.LatentDiffusion
   params:
     # dataset token
     dataset_embed_dim: 32
     # logging
-    log_uncond: False
-    validation_wo_ema: True
     num_val_sampled_timestamps: 10
     # # evaluation
@@ -106,7 +106,7 @@ model:
     # Optimizer
     optimizer_config:
       # Which optimizer to use
-      target: !module audioldm_train.modules.snapvideo.training.optimizers.lamb.Lamb
       # Which LR to use
       lr: *lr
       # The weight decay to use
@@ -129,10 +129,11 @@ model:
     # Autoencoder
     first_stage_config:
       base_learning_rate: 8.0e-06
-      target: audioldm_train.modules.latent_encoder.autoencoder_1d.AutoencoderKL1D
       params:
         # reload_from_ckpt: "data/checkpoints/vae_mel_16k_64bins.ckpt"
-        reload_from_ckpt: "/fsx/mali6/repos/AudioLDM2-training/log/vae_checkpoints/vae_64hdcheckpoint-344999.ckpt"
         sampling_rate: *sampling_rate
         batchsize: *bs # TODO: chagne
         monitor: val/rec_loss
@@ -140,8 +141,9 @@ model:
         subband: 1
         embed_dim: *latent_embed_dim
         time_shuffle: 1
         lossconfig:
-          target: audioldm_train.losses.LPIPSWithDiscriminator
           params:
             disc_start: 50001
             kl_weight: 1000.0
@@ -188,14 +190,14 @@ model:
     backbone_type : fit
     unet_config:
-      target: audioldm_train.modules.snapvideo.models.vision.backbones.fit_audio.FIT
       params:
         weight_initializer:
-          target: !module audioldm_train.modules.snapvideo.models.initializers.rin_weight_scaler_initializer.RINWeightScalerInitializer
           scale: 0.57735026919 # 1/sqrt(3) from Yuwei's findings
-        fit_block_module: !module audioldm_train.modules.snapvideo.models.vision.layers.fit_block_v5.FITBlockV5
         context_channels: 1024
         summary_text_embeddings_channels: 1536 # text embedding (e.g CLAP) size
@@ -231,8 +233,8 @@ model:
         self_conditioning_ff_config: {}
         fit_block_config:
-          attention_class: !module audioldm_train.modules.snapvideo.models.vision.layers.rin_layers.Attention
-          ff_class: !module audioldm_train.modules.snapvideo.models.vision.layers.rin_layers.FeedForward
           # Dropout parameters
           drop_units: 0.1
@@ -300,16 +302,16 @@ model:
       film_clap_cond1:
         cond_stage_key: text
         conditioning_key: film
-        target: audioldm_train.conditional_models.CLAPAudioEmbeddingClassifierFreev2
         params:
-          pretrained_path: data/checkpoints/clap_htsat_tiny.pt
           sampling_rate: 16000
           embed_mode: text # or text
           amodel: HTSAT-tiny
       film_flan_t5_cond2:
         cond_stage_key: text
         conditioning_key: film
-        target: audioldm_train.conditional_models.FlanT5HiddenState
         params:
           text_encoder_name: google/flan-t5-large # google/flan-t5-xxl
           freeze_text_encoder: True

 logging:
+  project_name: "genau"
+  wandb_key: YOUR_WANDB_KEY (check wandb.ai/authorize)
   log_directory: "./run_logs/genau/train"
+  # (optional) if s3 path is speicified, checkpoints be saved at S3_FOLDED/log_directory and deleted from the local folder (except the last checkpoint). Otherwise, checkpointwill be save locally indefinitely
+  # S3_BUCKET: "YOUR_S3_BUCKET"
+  # S3_FOLDER: 'YOUR_S3_FOLDER'
   save_checkpoint_every_n_steps: 1500
   save_top_k: -1
 data:
   train: ['vggsounds', 'audiocaps', 'caption_audioset', 'wavcaps_audioset_strong', 'wavcaps_bbcsound', 'wavcaps_freesound', 'wavcaps_soundbible', 'clotho', 'fsd50k']
+  val: "audioset"
+  test: "audioset"
   class_label_indices: "audioset_eval_subset"
   dataloader_add_ons: []
   augment_p : 0.0
   mixup: 0.0
 model:
+  target: src.models.genau_ddpm.GenAu
   params:
     # dataset token
     dataset_embed_dim: 32
     # logging
+    validate_uncond: False
+    validate_wo_ema: True
     num_val_sampled_timestamps: 10
     # # evaluation
     # Optimizer
     optimizer_config:
       # Which optimizer to use
+      target: !module src.modules.optimizers.lamb.Lamb
       # Which LR to use
       lr: *lr
       # The weight decay to use
     # Autoencoder
     first_stage_config:
       base_learning_rate: 8.0e-06
+      target: src.modules.latent_encoder.autoencoder_1d.AutoencoderKL1D
       params:
         # reload_from_ckpt: "data/checkpoints/vae_mel_16k_64bins.ckpt"
+        reload_from_ckpt: "1dvae_64ch_16k_64bins"
         sampling_rate: *sampling_rate
         batchsize: *bs # TODO: chagne
         monitor: val/rec_loss
         subband: 1
         embed_dim: *latent_embed_dim
         time_shuffle: 1
         lossconfig:
+          target: src.losses.LPIPSWithDiscriminator
           params:
             disc_start: 50001
             kl_weight: 1000.0
     backbone_type : fit
     unet_config:
+      target: src.modules.fit.fit_audio.FIT
       params:
         weight_initializer:
+          target: !module src.modules.initializers.initializers.RINWeightScalerInitializer
           scale: 0.57735026919 # 1/sqrt(3) from Yuwei's findings
+        fit_block_module: !module src.modules.fit.layers.fit_layers.FITBlockV5
         context_channels: 1024
         summary_text_embeddings_channels: 1536 # text embedding (e.g CLAP) size
         self_conditioning_ff_config: {}
         fit_block_config:
+          attention_class: !module src.modules.fit.layers.rin_layers.Attention
+          ff_class: !module src.modules.fit.layers.rin_layers.FeedForward
           # Dropout parameters
           drop_units: 0.1
       film_clap_cond1:
         cond_stage_key: text
         conditioning_key: film
+        target: src.modules.conditional.conditional_models.CLAPAudioEmbeddingClassifierFreev2
         params:
+          pretrained_path: clap_htsat_tiny
           sampling_rate: 16000
           embed_mode: text # or text
           amodel: HTSAT-tiny
       film_flan_t5_cond2:
         cond_stage_key: text
         conditioning_key: film
+        target: src.modules.conditional.conditional_models.FlanT5HiddenState
         params:
           text_encoder_name: google/flan-t5-large # google/flan-t5-xxl
           freeze_text_encoder: True