NexaAIDev
/

OmniAudio-2.6B

@@ -20,6 +20,7 @@ On a 2024 Mac Mini M4 Pro using Q4_K_M quantized GGUF model, **Qwen2-Audio-7B**
 1. Interactive Demo in our [HuggingFace Space]().
 2. [Quickstart for local setup]()
 3. Learn more in our [Blogs]()
 ## Use Cases
 * **Voice QA without Internet**: Process offline voice queries like "I am at camping, how do I start a fire without fire starter?" OmniAudio provides practical guidance even without network connectivity.
@@ -40,12 +41,16 @@ nexa run omniaudio -st
 ## Training
 We developed OmniAudio through a three-stage training pipeline:
-**Pretraining:** The initial stage focuses on core audio-text alignment using MLS English 10k transcription dataset. We introduced a special <|transcribe|> token to enable the model to distinguish between transcription and completion tasks, ensuring consistent performance across use cases.
-**Supervised Fine-tuning (SFT):** We enhance the model's conversation capabilities using synthetic datasets derived from MLS English 10k transcription. This stage leverages a proprietary model to generate contextually appropriate responses, creating rich audio-text pairs for effective dialogue understanding.
-**Direct Preference Optimization (DPO):** The final stage refines model quality using GPT-4o API as a reference. The process identifies and corrects inaccurate responses while maintaining semantic alignment. We additionally leverage Gemma2's text responses as a gold standard to ensure consistent quality across both audio and text inputs.
 ## What's Next for OmniAudio?
 OmniAudio is in active development and we are working to advance its capabilities:
 * Building direct audio generation for two-way voice communication
 * Implementing function calling support via [Octopus_v2](https://huggingface.co/NexaAIDev/Octopus-v2) integration
-In the long term, we aim to establish OmniAudio as a comprehensive solution for edge-based audio-language processing.

 1. Interactive Demo in our [HuggingFace Space]().
 2. [Quickstart for local setup]()
 3. Learn more in our [Blogs]()
+4. **Feedback**: Send questions or suggestions about the model in our [Discord](https://discord.gg/nexa-ai)
 ## Use Cases
 * **Voice QA without Internet**: Process offline voice queries like "I am at camping, how do I start a fire without fire starter?" OmniAudio provides practical guidance even without network connectivity.
 ## Training
 We developed OmniAudio through a three-stage training pipeline:
+* **Pretraining:** The initial stage focuses on core audio-text alignment using MLS English 10k transcription dataset. We introduced a special <|transcribe|> token to enable the model to distinguish between transcription and completion tasks, ensuring consistent performance across use cases.
+* **Supervised Fine-tuning (SFT):** We enhance the model's conversation capabilities using synthetic datasets derived from MLS English 10k transcription. This stage leverages a proprietary model to generate contextually appropriate responses, creating rich audio-text pairs for effective dialogue understanding.
+* **Direct Preference Optimization (DPO):** The final stage refines model quality using GPT-4o API as a reference. The process identifies and corrects inaccurate responses while maintaining semantic alignment. We additionally leverage Gemma2's text responses as a gold standard to ensure consistent quality across both audio and text inputs.
 ## What's Next for OmniAudio?
 OmniAudio is in active development and we are working to advance its capabilities:
 * Building direct audio generation for two-way voice communication
 * Implementing function calling support via [Octopus_v2](https://huggingface.co/NexaAIDev/Octopus-v2) integration
+In the long term, we aim to establish OmniAudio as a comprehensive solution for edge-based audio-language processing.
+## Join Community
+[Discord](https://discord.gg/nexa-ai) | [X(Twitter)](https://x.com/nexa_ai)