flax-community
/

t5-base-dutch

Text2Text Generation

text-generation-inference

Model card Files Files and versions Metrics Training metrics Community

t5-base-dutch / streaming_dataset_filter_test.py

yhavinga's picture

Saving weights and logs of step 1200

1d4a13a about 3 years ago

No virus

408 Bytes

	from clean import clean_text

	from datasets import load_dataset

	dataset_v0 = load_dataset('oscar', "unshuffled_deduplicated_nl", split='train', streaming=True)


	def f(obj):
	obj["text"] = clean_text(obj["text"])
	return obj


	dataset_v1 = dataset_v0.map(f)
	it = iter(dataset_v0)

	print(next(it))
	print(next(it))
	print(next(it))

	it = iter(dataset_v1)

	print(next(it))
	print(next(it))
	print(next(it))