====== 05. Audio (TTS, Transkription, Musik) ====== Siehe auch: Transkription\\ \\ ==== Überblick ==== [[glossar:model|KI-Modelle]] für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen. Typische Einsatzfelder: * **Text-to-Speech (TTS):** Inhalte als gesprochene Sprache ausgeben * **Transkription:** Gespräche, Meetings, Interviews automatisch verschriftlichen * **Sprachsynthese & Voice Cloning:** Natürliche Stimmen oder bekannte Sprecher:innen imitieren * **Musikkomposition & Sounddesign:** Melodien, Loops, Soundeffekte * **Audiobearbeitung mit KI:** Rauschunterdrückung, Stimmen entfernen oder ersetzen ---- ==== Aufbau eines Audio-Prompts ==== Ein zielführender Audio-Prompt enthält: * **Ziel** (z. B. „Sprich diesen Text in ruhigem Ton ein“) * **Stimmlage / Stil** (freundlich, sachlich, dramatisch …) * **Geschlecht / Sprache / Akzent** (sofern wählbar) * **Format** (z. B. Audioclip, Podcast-Einleitung, Musik-Loop) * **Länge / Sprechgeschwindigkeit / Pausen** * **Optionale Hinweise zur Betonung** → Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe. ---- ==== 🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS) ==== Siehe auch: Text-to-Speech\\ \\ **Prompt 1 – Begrüßung für Anrufbeantworter** > Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“ Sprache: Deutsch / Stimme: weiblich / Tempo: normal **Prompt 2 – Text für Erklärvideo** > Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung): „Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“ **Prompt 3 – Podcast-Intro** > Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“ ---- ==== 📝 Prompt-Beispiele: Transkription ==== Siehe auch: Transkription\\ \\ **Prompt 4 – Gespräch transkribieren** > Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch. (→ Datei anhängen) **Prompt 5 – Zusammenfassung aus Transkript** > Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints. **Prompt 6 – Automatisches Kapitel-Markieren** > Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln. ---- ==== 🎶 Prompt-Beispiele: Musik- und Soundgenerierung ==== **Prompt 7 – Hintergrundmusik generieren** > Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals. **Prompt 8 – Jingle für Podcast** > Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig. **Prompt 9 – Soundeffekt (UI-Feedback)** > Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich. ---- ==== Tipps für Audio-Prompting ==== * Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“) * Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“) * Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben * Output-Format angeben (MP3, WAV, geschnitten, mit Musik?) ---- ==== Tool-Hinweise: Audio-KI-Tools im Überblick ==== === 🧰 Übersicht nützlicher Audio-KI-Tools === * **ElevenLabs** - Extrem natürliche Stimmen (TTS) - Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning - Ideal für Hörbücher, Lerninhalte, Games * **Whisper (OpenAI)** - Hochpräzise Transkription (viele Sprachen) - Unterstützt auch Noisy Audio / Dialekte - Ideal für Protokolle, Untertitelung, Barrierefreiheit * **Descript** - Audio- & Videobearbeitung mit Textinterface - Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen - Für Podcasts, Interviews, Clips * **Play.ht** - Webbasierter TTS-Service mit vielen professionellen Stimmen - Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.) - Export als Audio-Dateien oder Player * **AIVA** - KI-Musikkomponist für Soundtracks, Games, Werbung - Steuerung über Musikstile, Emotionen, Strukturvorgaben - Erzeugt MIDI und WAV-Dateien * **Soundraw** - Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge - Ideal für YouTube, Werbung, Corporate Videos * **Voicemod Text to Song / Voice AI** - Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung - Eher experimentell, aber kreativ nutzbar