jacktol
/

whisper-medium.en-fine-tuned-for-ATC

Automatic Speech Recognition

Model card Files Files and versions Community

jacktol commited on Oct 9

Commit

8e04c74

•

1 Parent(s): 41832a6

Update README.md

Files changed (1) hide show

README.md +6 -5

README.md CHANGED Viewed

@@ -63,13 +63,14 @@ The fine-tuned Whisper model is designed for:
 You can test the model online using the [ATC Transcription Assistant](https://huggingface.co/spaces/jacktol/ATC-Transcription-Assistant), which lets you upload audio files and generate transcriptions.
-## Dataset
-The dataset used for fine-tuning includes:
-- **ATCO2**: An air traffic control dataset featuring real-world communications, including a freely available 1-hour test subset.
-- **UWB-ATCC**: A manually transcribed ATC corpus containing thousands of hours of recordings, focusing on air traffic communications.
-For more details on the dataset, refer to the **[ATC Dataset page](https://huggingface.co/datasets/jacktol/atc-dataset)**.
 ## Training Procedure

 You can test the model online using the [ATC Transcription Assistant](https://huggingface.co/spaces/jacktol/ATC-Transcription-Assistant), which lets you upload audio files and generate transcriptions.
+## Model Description
+Whisper Medium EN fine-tuned for ATC is optimized to handle short, distinct transmissions between pilots and air traffic controllers. It is fine-tuned using data from the **[ATC Dataset](https://huggingface.co/datasets/jacktol/atc-dataset)**, a combined and cleaned dataset sourced from the following:
+- **[ATCO2 corpus](https://huggingface.co/datasets/Jzuluaga/atco2_corpus_1h)** (1-hour test subset)
+- **[UWB-ATCC corpus](https://huggingface.co/datasets/Jzuluaga/uwb_atcc)**
+The **ATC Dataset** merges these two original sources, filtering and refining the data to enhance transcription accuracy for domain-specific ATC communications.
 ## Training Procedure