Inhaltsverzeichnis
05. Audio (TTS, Transkription, Musik)
Siehe auch: Transkription
Überblick
KI-Modelle für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen.
Typische Einsatzfelder:
- Text-to-Speech (TTS): Inhalte als gesprochene Sprache ausgeben
- Transkription: Gespräche, Meetings, Interviews automatisch verschriftlichen
- Sprachsynthese & Voice Cloning: Natürliche Stimmen oder bekannte Sprecher:innen imitieren
- Musikkomposition & Sounddesign: Melodien, Loops, Soundeffekte
- Audiobearbeitung mit KI: Rauschunterdrückung, Stimmen entfernen oder ersetzen
Aufbau eines Audio-Prompts
Ein zielführender Audio-Prompt enthält:
- Ziel (z. B. „Sprich diesen Text in ruhigem Ton ein“)
- Stimmlage / Stil (freundlich, sachlich, dramatisch …)
- Geschlecht / Sprache / Akzent (sofern wählbar)
- Format (z. B. Audioclip, Podcast-Einleitung, Musik-Loop)
- Länge / Sprechgeschwindigkeit / Pausen
- Optionale Hinweise zur Betonung
→ Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe.
🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS)
Siehe auch: Text-to-Speech
Prompt 1 – Begrüßung für Anrufbeantworter > Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“ Sprache: Deutsch / Stimme: weiblich / Tempo: normal
Prompt 2 – Text für Erklärvideo > Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung): „Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“
Prompt 3 – Podcast-Intro > Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“
📝 Prompt-Beispiele: Transkription
Siehe auch: Transkription
Prompt 4 – Gespräch transkribieren > Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch. (→ Datei anhängen)
Prompt 5 – Zusammenfassung aus Transkript > Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints.
Prompt 6 – Automatisches Kapitel-Markieren > Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln.
🎶 Prompt-Beispiele: Musik- und Soundgenerierung
Prompt 7 – Hintergrundmusik generieren > Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals.
Prompt 8 – Jingle für Podcast > Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig.
Prompt 9 – Soundeffekt (UI-Feedback) > Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich.
Tipps für Audio-Prompting
- Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“)
- Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“)
- Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben
- Output-Format angeben (MP3, WAV, geschnitten, mit Musik?)
Tool-Hinweise: Audio-KI-Tools im Überblick
🧰 Übersicht nützlicher Audio-KI-Tools
- ElevenLabs
- Extrem natürliche Stimmen (TTS)
- Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning
- Ideal für Hörbücher, Lerninhalte, Games
- Whisper (OpenAI)
- Hochpräzise Transkription (viele Sprachen)
- Unterstützt auch Noisy Audio / Dialekte
- Ideal für Protokolle, Untertitelung, Barrierefreiheit
- Descript
- Audio- & Videobearbeitung mit Textinterface
- Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen
- Für Podcasts, Interviews, Clips
- Play.ht
- Webbasierter TTS-Service mit vielen professionellen Stimmen
- Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.)
- Export als Audio-Dateien oder Player
- AIVA
- KI-Musikkomponist für Soundtracks, Games, Werbung
- Steuerung über Musikstile, Emotionen, Strukturvorgaben
- Erzeugt MIDI und WAV-Dateien
- Soundraw
- Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge
- Ideal für YouTube, Werbung, Corporate Videos
- Voicemod Text to Song / Voice AI
- Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung
- Eher experimentell, aber kreativ nutzbar
