05. Audio (TTS, Transkription, Musik)

Siehe auch: Transkription

Überblick

KI-Modelle für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen.

Typische Einsatzfelder:

Text-to-Speech (TTS): Inhalte als gesprochene Sprache ausgeben
Transkription: Gespräche, Meetings, Interviews automatisch verschriftlichen
Sprachsynthese & Voice Cloning: Natürliche Stimmen oder bekannte Sprecher:innen imitieren
Musikkomposition & Sounddesign: Melodien, Loops, Soundeffekte
Audiobearbeitung mit KI: Rauschunterdrückung, Stimmen entfernen oder ersetzen

Aufbau eines Audio-Prompts

Ein zielführender Audio-Prompt enthält:

Ziel (z. B. „Sprich diesen Text in ruhigem Ton ein“)
Stimmlage / Stil (freundlich, sachlich, dramatisch …)
Geschlecht / Sprache / Akzent (sofern wählbar)
Format (z. B. Audioclip, Podcast-Einleitung, Musik-Loop)
Länge / Sprechgeschwindigkeit / Pausen
Optionale Hinweise zur Betonung

→ Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe.

🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS)

Siehe auch: Text-to-Speech

Prompt 1 – Begrüßung für Anrufbeantworter > Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“ Sprache: Deutsch / Stimme: weiblich / Tempo: normal

Prompt 2 – Text für Erklärvideo > Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung): „Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“

Prompt 3 – Podcast-Intro > Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“

📝 Prompt-Beispiele: Transkription

Siehe auch: Transkription

Prompt 4 – Gespräch transkribieren > Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch. (→ Datei anhängen)

Prompt 5 – Zusammenfassung aus Transkript > Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints.

Prompt 6 – Automatisches Kapitel-Markieren > Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln.

🎶 Prompt-Beispiele: Musik- und Soundgenerierung

Prompt 7 – Hintergrundmusik generieren > Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals.

Prompt 8 – Jingle für Podcast > Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig.

Prompt 9 – Soundeffekt (UI-Feedback) > Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich.

Tipps für Audio-Prompting

Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“)
Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“)
Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben
Output-Format angeben (MP3, WAV, geschnitten, mit Musik?)

Tool-Hinweise: Audio-KI-Tools im Überblick

🧰 Übersicht nützlicher Audio-KI-Tools

ElevenLabs
1. Extrem natürliche Stimmen (TTS)
2. Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning
3. Ideal für Hörbücher, Lerninhalte, Games

Whisper (OpenAI)
1. Hochpräzise Transkription (viele Sprachen)
2. Unterstützt auch Noisy Audio / Dialekte
3. Ideal für Protokolle, Untertitelung, Barrierefreiheit

Descript
1. Audio- & Videobearbeitung mit Textinterface
2. Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen
3. Für Podcasts, Interviews, Clips

Play.ht
1. Webbasierter TTS-Service mit vielen professionellen Stimmen
2. Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.)
3. Export als Audio-Dateien oder Player

AIVA
1. KI-Musikkomponist für Soundtracks, Games, Werbung
2. Steuerung über Musikstile, Emotionen, Strukturvorgaben
3. Erzeugt MIDI und WAV-Dateien

Soundraw
1. Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge
2. Ideal für YouTube, Werbung, Corporate Videos

Voicemod Text to Song / Voice AI
1. Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung
2. Eher experimentell, aber kreativ nutzbar