====== 05. Audio (TTS, Transkription, Musik) ======
Siehe auch: Transkription\\ \\

==== Überblick ====

[[glossar:model|KI-Modelle]] für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen.

Typische Einsatzfelder:
  * **Text-to-Speech (TTS):** Inhalte als gesprochene Sprache ausgeben
  * **Transkription:** Gespräche, Meetings, Interviews automatisch verschriftlichen
  * **Sprachsynthese & Voice Cloning:** Natürliche Stimmen oder bekannte Sprecher:innen imitieren
  * **Musikkomposition & Sounddesign:** Melodien, Loops, Soundeffekte
  * **Audiobearbeitung mit KI:** Rauschunterdrückung, Stimmen entfernen oder ersetzen

----

==== Aufbau eines Audio-Prompts ====

Ein zielführender Audio-Prompt enthält:

  * **Ziel** (z. B. „Sprich diesen Text in ruhigem Ton ein“)
  * **Stimmlage / Stil** (freundlich, sachlich, dramatisch …)
  * **Geschlecht / Sprache / Akzent** (sofern wählbar)
  * **Format** (z. B. Audioclip, Podcast-Einleitung, Musik-Loop)
  * **Länge / Sprechgeschwindigkeit / Pausen**
  * **Optionale Hinweise zur Betonung**

→ Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe.

----

==== 🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS) ====
Siehe auch: Text-to-Speech\\ \\

**Prompt 1 – Begrüßung für Anrufbeantworter**  
> Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“  
Sprache: Deutsch / Stimme: weiblich / Tempo: normal

**Prompt 2 – Text für Erklärvideo**  
> Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung):  
„Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“

**Prompt 3 – Podcast-Intro**  
> Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“

----

==== 📝 Prompt-Beispiele: Transkription ====
Siehe auch: Transkription\\ \\

**Prompt 4 – Gespräch transkribieren**  
> Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch.  
(→ Datei anhängen)

**Prompt 5 – Zusammenfassung aus Transkript**  
> Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints.

**Prompt 6 – Automatisches Kapitel-Markieren**  
> Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln.

----

==== 🎶 Prompt-Beispiele: Musik- und Soundgenerierung ====

**Prompt 7 – Hintergrundmusik generieren**  
> Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals.

**Prompt 8 – Jingle für Podcast**  
> Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig.

**Prompt 9 – Soundeffekt (UI-Feedback)**  
> Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich.

----

==== Tipps für Audio-Prompting ====

  * Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“)
  * Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“)
  * Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben
  * Output-Format angeben (MP3, WAV, geschnitten, mit Musik?)

----

==== Tool-Hinweise: Audio-KI-Tools im Überblick ====

=== 🧰 Übersicht nützlicher Audio-KI-Tools ===

  * **ElevenLabs**  
    - Extrem natürliche Stimmen (TTS)  
    - Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning  
    - Ideal für Hörbücher, Lerninhalte, Games

  * **Whisper (OpenAI)**  
    - Hochpräzise Transkription (viele Sprachen)  
    - Unterstützt auch Noisy Audio / Dialekte  
    - Ideal für Protokolle, Untertitelung, Barrierefreiheit

  * **Descript**  
    - Audio- & Videobearbeitung mit Textinterface  
    - Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen  
    - Für Podcasts, Interviews, Clips

  * **Play.ht**  
    - Webbasierter TTS-Service mit vielen professionellen Stimmen  
    - Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.)  
    - Export als Audio-Dateien oder Player

  * **AIVA**  
    - KI-Musikkomponist für Soundtracks, Games, Werbung  
    - Steuerung über Musikstile, Emotionen, Strukturvorgaben  
    - Erzeugt MIDI und WAV-Dateien

  * **Soundraw**  
    - Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge  
    - Ideal für YouTube, Werbung, Corporate Videos

  * **Voicemod Text to Song / Voice AI**  
    - Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung  
    - Eher experimentell, aber kreativ nutzbar