Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- praxis:audio [2025/05/20 08:03] – gelöscht 20.171.207.105
+++ praxis:audio [2025/05/22 19:09] (aktuell) – angelegt - Externe Bearbeitung 127.0.0.1
@@ Zeile 1: / Zeile 1: @@
+====== 05. Audio (TTS, Transkription, Musik) ======
+Siehe auch: Transkription\\ \\
+==== Überblick ====
+[[glossar:model|KI-Modelle]] für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen.
+Typische Einsatzfelder:
+  * **Text-to-Speech (TTS):** Inhalte als gesprochene Sprache ausgeben
+  * **Transkription:** Gespräche, Meetings, Interviews automatisch verschriftlichen
+  * **Sprachsynthese & Voice Cloning:** Natürliche Stimmen oder bekannte Sprecher:innen imitieren
+  * **Musikkomposition & Sounddesign:** Melodien, Loops, Soundeffekte
+  * **Audiobearbeitung mit KI:** Rauschunterdrückung, Stimmen entfernen oder ersetzen
+----
+==== Aufbau eines Audio-Prompts ====
+Ein zielführender Audio-Prompt enthält:
+  * **Ziel** (z. B. „Sprich diesen Text in ruhigem Ton ein“)
+  * **Stimmlage / Stil** (freundlich, sachlich, dramatisch …)
+  * **Geschlecht / Sprache / Akzent** (sofern wählbar)
+  * **Format** (z. B. Audioclip, Podcast-Einleitung, Musik-Loop)
+  * **Länge / Sprechgeschwindigkeit / Pausen**
+  * **Optionale Hinweise zur Betonung**
+→ Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe.
+----
+==== 🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS) ====
+Siehe auch: Text-to-Speech\\ \\
+**Prompt 1 – Begrüßung für Anrufbeantworter**
+> Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“
+Sprache: Deutsch / Stimme: weiblich / Tempo: normal
+**Prompt 2 – Text für Erklärvideo**
+> Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung):
+„Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“
+**Prompt 3 – Podcast-Intro**
+> Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“
+----
+==== 📝 Prompt-Beispiele: Transkription ====
+Siehe auch: Transkription\\ \\
+**Prompt 4 – Gespräch transkribieren**
+> Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch.
+(→ Datei anhängen)
+**Prompt 5 – Zusammenfassung aus Transkript**
+> Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints.
+**Prompt 6 – Automatisches Kapitel-Markieren**
+> Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln.
+----
+==== 🎶 Prompt-Beispiele: Musik- und Soundgenerierung ====
+**Prompt 7 – Hintergrundmusik generieren**
+> Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals.
+**Prompt 8 – Jingle für Podcast**
+> Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig.
+**Prompt 9 – Soundeffekt (UI-Feedback)**
+> Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich.
+----
+==== Tipps für Audio-Prompting ====
+  * Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“)
+  * Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“)
+  * Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben
+  * Output-Format angeben (MP3, WAV, geschnitten, mit Musik?)
+----
+==== Tool-Hinweise: Audio-KI-Tools im Überblick ====
+=== 🧰 Übersicht nützlicher Audio-KI-Tools ===
+  * **ElevenLabs**
+    - Extrem natürliche Stimmen (TTS)
+    - Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning
+    - Ideal für Hörbücher, Lerninhalte, Games
+  * **Whisper (OpenAI)**
+    - Hochpräzise Transkription (viele Sprachen)
+    - Unterstützt auch Noisy Audio / Dialekte
+    - Ideal für Protokolle, Untertitelung, Barrierefreiheit
+  * **Descript**
+    - Audio- & Videobearbeitung mit Textinterface
+    - Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen
+    - Für Podcasts, Interviews, Clips
+  * **Play.ht**
+    - Webbasierter TTS-Service mit vielen professionellen Stimmen
+    - Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.)
+    - Export als Audio-Dateien oder Player
+  * **AIVA**
+    - KI-Musikkomponist für Soundtracks, Games, Werbung
+    - Steuerung über Musikstile, Emotionen, Strukturvorgaben
+    - Erzeugt MIDI und WAV-Dateien
+  * **Soundraw**
+    - Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge
+    - Ideal für YouTube, Werbung, Corporate Videos
+  * **Voicemod Text to Song / Voice AI**
+    - Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung
+    - Eher experimentell, aber kreativ nutzbar