Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

winglian commited on Jan 17, 2024

Commit

7570446

unverified ·

1 Parent(s): ece0211

Preprocess dataset size fix (#1131)

Browse files

* overwrite cache on preprocess step
* don't cache the TokenizedPromptDataset at all
* load_from_cache_file no longer needed

Files changed (4) hide show

src/axolotl/cli/preprocess.py +1 -0
src/axolotl/datasets.py +5 -1
src/axolotl/utils/data.py +30 -10
src/axolotl/utils/trainer.py +17 -5

src/axolotl/cli/preprocess.py CHANGED Viewed

@@ -25,6 +25,7 @@ def do_cli(config: Path = Path("examples/"), **kwargs):
     # pylint: disable=duplicate-code
     print_axolotl_text_art()
     parsed_cfg = load_cfg(config, **kwargs)
     check_accelerate_default_config()
     check_user_token()
     parser = transformers.HfArgumentParser((PreprocessCliArgs))

     # pylint: disable=duplicate-code
     print_axolotl_text_art()
     parsed_cfg = load_cfg(config, **kwargs)
+    parsed_cfg.is_preprocess = True
     check_accelerate_default_config()
     check_user_token()
     parser = transformers.HfArgumentParser((PreprocessCliArgs))

src/axolotl/datasets.py CHANGED Viewed

@@ -35,7 +35,10 @@ class TokenizedPromptDataset(Dataset):
     ):
         self.prompt_tokenizer = prompt_tokenizer
         self.process_count = process_count
-        super().__init__(self.process(dataset).data, **kwargs)
     def process(self, dataset):
         features = dataset.features.keys()
@@ -52,6 +55,7 @@ class TokenizedPromptDataset(Dataset):
             self.prompt_tokenizer.tokenize_prompt,
             num_proc=num_proc,
             remove_columns=features,
             **map_kwargs,
         )

     ):
         self.prompt_tokenizer = prompt_tokenizer
         self.process_count = process_count
+        super().__init__(
+            self.process(dataset).data,
+            **kwargs,
+        )
     def process(self, dataset):
         features = dataset.features.keys()
             self.prompt_tokenizer.tokenize_prompt,
             num_proc=num_proc,
             remove_columns=features,
+            keep_in_memory=True,
             **map_kwargs,
         )

src/axolotl/utils/data.py CHANGED Viewed

@@ -594,12 +594,16 @@ def get_dataset_wrapper(
         )
         dataset_prompter = UnsupportedPrompter()
         dataset_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
     elif ds_strategy := load(config_dataset.type, tokenizer, cfg, config_dataset):
         dataset_prompter = UnsupportedPrompter()
         dataset_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
     elif d_base_type == "alpaca":
         dataset_prompter = AlpacaPrompter(d_prompt_style)
@@ -610,7 +614,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "explainchoice":
@@ -622,7 +628,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "concisechoice":
@@ -634,7 +642,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "summarizetldr":
@@ -646,7 +656,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "jeopardy":
@@ -658,7 +670,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "oasst":
@@ -670,7 +684,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "gpteacher":
@@ -682,7 +698,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "reflection":
@@ -694,7 +712,9 @@ def get_dataset_wrapper(
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
-            ds_strategy, dataset, process_count=cfg.dataset_processes
         )
         dataset_wrapper = ds_wrapper
     else:

         )
         dataset_prompter = UnsupportedPrompter()
         dataset_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
     elif ds_strategy := load(config_dataset.type, tokenizer, cfg, config_dataset):
         dataset_prompter = UnsupportedPrompter()
         dataset_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
     elif d_base_type == "alpaca":
         dataset_prompter = AlpacaPrompter(d_prompt_style)
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "explainchoice":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "concisechoice":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "summarizetldr":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "jeopardy":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "oasst":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "gpteacher":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     elif d_base_type == "reflection":
             cfg.sequence_len,
         )
         ds_wrapper = TokenizedPromptDataset(
+            ds_strategy,
+            dataset,
+            process_count=cfg.dataset_processes,
         )
         dataset_wrapper = ds_wrapper
     else:

src/axolotl/utils/trainer.py CHANGED Viewed

@@ -111,27 +111,39 @@ def process_datasets_for_packing(cfg, train_dataset, eval_dataset, tokenizer):
     with zero_first(is_main_process()):
         if cfg.group_by_length:
             train_dataset = train_dataset.map(
-                add_length, num_proc=cfg.dataset_processes
             )
         if cfg.sample_packing:
             train_dataset = train_dataset.map(
-                add_position_ids, num_proc=cfg.dataset_processes
             )
             if cfg.eval_sample_packing is not False:
                 if eval_dataset:
                     eval_dataset = eval_dataset.map(
-                        add_position_ids, num_proc=cfg.dataset_processes
                     )
         if cfg.group_by_length or cfg.sample_packing:
             max_input_len = np.max(get_dataset_lengths(train_dataset))
             LOG.debug(f"max_input_len: {max_input_len}", main_process_only=True)
-        train_dataset = train_dataset.filter(drop_long, num_proc=cfg.dataset_processes)
         if eval_dataset:
             eval_dataset = eval_dataset.filter(
-                drop_long, num_proc=cfg.dataset_processes
             )
         # Phi doesn't want the attention_mask feature when training

     with zero_first(is_main_process()):
         if cfg.group_by_length:
             train_dataset = train_dataset.map(
+                add_length,
+                num_proc=cfg.dataset_processes,
+                load_from_cache_file=not cfg.is_preprocess,
             )
         if cfg.sample_packing:
             train_dataset = train_dataset.map(
+                add_position_ids,
+                num_proc=cfg.dataset_processes,
+                load_from_cache_file=not cfg.is_preprocess,
             )
             if cfg.eval_sample_packing is not False:
                 if eval_dataset:
                     eval_dataset = eval_dataset.map(
+                        add_position_ids,
+                        num_proc=cfg.dataset_processes,
+                        load_from_cache_file=not cfg.is_preprocess,
                     )
         if cfg.group_by_length or cfg.sample_packing:
             max_input_len = np.max(get_dataset_lengths(train_dataset))
             LOG.debug(f"max_input_len: {max_input_len}", main_process_only=True)
+        train_dataset = train_dataset.filter(
+            drop_long,
+            num_proc=cfg.dataset_processes,
+            load_from_cache_file=not cfg.is_preprocess,
+        )
         if eval_dataset:
             eval_dataset = eval_dataset.filter(
+                drop_long,
+                num_proc=cfg.dataset_processes,
+                load_from_cache_file=not cfg.is_preprocess,
             )
         # Phi doesn't want the attention_mask feature when training