primeline
/

gerqwen-audio

Model card Files Files and versions Community

flozi00 commited on Aug 19

Commit

a42fd84

•

1 Parent(s): 3147114

Update README.md

Files changed (1) hide show

README.md +64 -1

README.md CHANGED Viewed

@@ -2,4 +2,67 @@
 license: apache-2.0
 language:
 - de
----

 license: apache-2.0
 language:
 - de
+---
+# primeline/gerqwen-audio
+## Einführung
+Das Modell "primeline/gerqwen-audio" ist eine Weiterentwicklung der Qwen2-Audio-Serie, speziell angepasst und weitertrainiert für die deutsche Sprache. Dieses Modell ist darauf ausgelegt, verschiedene Audioeingaben zu akzeptieren und detaillierte Audioanalysen durchzuführen oder direkte textuelle Antworten auf Sprachanweisungen zu geben. Es unterstützt insbesondere:
+* Analyse der Sprecher nach Altersgruppen und Geschlecht
+* Spracherkennung
+* Bewertung und Korrektur von Transkripten
+Das Modell wurde von der Primeline Gruppe gesponsert und auf dem Just Add AI GenAI Meetup 2 vorgestellt.
+Für weitere Details verweisen wir auf die [Original-Blogbeiträge](https://qwenlm.github.io/blog/qwen2-audio/) und [GitHub-Repositories](https://github.com/QwenLM/Qwen2-Audio) der Qwen-Modelle.
+## Anforderungen
+Das Modell "primeline/gerqwen-audio" basiert auf den neuesten Hugging Face Transformers. Wir empfehlen, die Bibliothek direkt aus der Quelle zu installieren mit dem Befehl `pip install git+https://github.com/huggingface/transformers`, um mögliche Fehler zu vermeiden.
+## Schnellstart
+Hier ein Codebeispiel, das zeigt, wie der Prozessor und das Modell geladen werden, um das vortrainierte "primeline/gerqwen-audio" Modell für die Generierung von Inhalten zu verwenden:
+```python
+from io import BytesIO
+from urllib.request import urlopen
+import librosa
+from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
+model = Qwen2AudioForConditionalGeneration.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)
+processor = AutoProcessor.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)
+prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generiere die Transkription auf Deutsch:"
+url = "https://beispiel-audio-url.de/audio.mp3"
+audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
+inputs = processor(text=prompt, audios=audio, return_tensors="pt")
+generated_ids = model.generate(**inputs, max_length=256)
+generated_ids = generated_ids[:, inputs.input_ids.size(1):]
+response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+```
+## Zitation
+Wenn Sie unsere Arbeit nützlich finden, zitieren Sie uns gerne. Beachten Sie, dass dieses Modell eine Weiterentwicklung der ursprünglichen Arbeiten von Qwen ist.
+```BibTeX
+@article{primeline-gerqwen-audio,
+  title={primeline/gerqwen-audio: Fortsetzung des Trainings für spezifische Audioanalyse-Aufgaben},
+  author={Originalautoren: Chu, Yunfei et al.},
+  journal={arXiv preprint arXiv:2407.10759, Weiterentwicklung für spezifische Aufgaben},
+  year={2024}
+}
+```
+```BibTeX
+@article{Qwen-Audio,
+  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
+  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
+  journal={arXiv preprint arXiv:2311.07919},
+  year={2023}
+}
+```