ThinkWi-KI

Künstliche Intelligenz erklärt – verständlich und praxisnah

Benutzer-Werkzeuge

Webseiten-Werkzeuge


praxis:audio

05. Audio (TTS, Transkription, Musik)

Siehe auch: Transkription

Überblick

KI-Modelle für Audio sind in der Lage, Sprache zu erzeugen (Text-to-Speech), gesprochene Inhalte zu verschriftlichen (Transkription) oder sogar Musik zu komponieren. Je nach Anwendungsfall helfen sie dabei, Inhalte barrierefreier, interaktiver oder kreativer umzusetzen.

Typische Einsatzfelder:

  • Text-to-Speech (TTS): Inhalte als gesprochene Sprache ausgeben
  • Transkription: Gespräche, Meetings, Interviews automatisch verschriftlichen
  • Sprachsynthese & Voice Cloning: Natürliche Stimmen oder bekannte Sprecher:innen imitieren
  • Musikkomposition & Sounddesign: Melodien, Loops, Soundeffekte
  • Audiobearbeitung mit KI: Rauschunterdrückung, Stimmen entfernen oder ersetzen

Aufbau eines Audio-Prompts

Ein zielführender Audio-Prompt enthält:

  • Ziel (z. B. „Sprich diesen Text in ruhigem Ton ein“)
  • Stimmlage / Stil (freundlich, sachlich, dramatisch …)
  • Geschlecht / Sprache / Akzent (sofern wählbar)
  • Format (z. B. Audioclip, Podcast-Einleitung, Musik-Loop)
  • Länge / Sprechgeschwindigkeit / Pausen
  • Optionale Hinweise zur Betonung

→ Je klarer du das gewünschte Ergebnis beschreibst, desto natürlicher klingt die Audioausgabe.


🎧 Prompt-Beispiele: Audio-Text-to-Speech (TTS)

Siehe auch: Text-to-Speech

Prompt 1 – Begrüßung für Anrufbeantworter > Sprich folgenden Text in freundlichem, neutralem Ton auf Deutsch ein: „Willkommen bei der Agentur Müller. Leider sind wir momentan nicht erreichbar. Bitte hinterlassen Sie eine Nachricht.“ Sprache: Deutsch / Stimme: weiblich / Tempo: normal

Prompt 2 – Text für Erklärvideo > Erzeuge eine Sprachaufnahme dieses Textes im Stil einer YouTube-Erklärung (informativ, leicht motivierend, jung): „Heute sprechen wir über künstliche Intelligenz – und warum sie deinen Arbeitsalltag erleichtern kann.“

Prompt 3 – Podcast-Intro > Erstelle ein Podcast-Intro mit einer markanten, ruhigen männlichen Stimme. Sprache: Deutsch. Text: „Willkommen bei Zukunft Jetzt – deinem Podcast über Technologie, Wandel und Visionen.“


📝 Prompt-Beispiele: Transkription

Siehe auch: Transkription

Prompt 4 – Gespräch transkribieren > Transkribiere diese MP3-Datei in Textform. Sprichende Personen bitte kennzeichnen („Person A: …“, „Person B: …“). Sprache: Deutsch. (→ Datei anhängen)

Prompt 5 – Zusammenfassung aus Transkript > Fasse die wichtigsten Punkte dieses Gesprächsprotokolls stichpunktartig zusammen. Max. 5 Bulletpoints.

Prompt 6 – Automatisches Kapitel-Markieren > Erkenne Themenblöcke im folgenden Transkript und erstelle passende Kapitelmarken mit Zeitstempeln.


🎶 Prompt-Beispiele: Musik- und Soundgenerierung

Prompt 7 – Hintergrundmusik generieren > Erzeuge ein 30-sekündiges Musikstück im LoFi-Stil mit entspannter Atmosphäre, geeignet für ein Lernvideo. Tempo: 70 BPM, keine Vocals.

Prompt 8 – Jingle für Podcast > Komponiere einen 5-Sekunden-Jingle für einen Technologie-Podcast. Stil: futuristisch, inspirierend, Synthesizer-lastig.

Prompt 9 – Soundeffekt (UI-Feedback) > Erzeuge einen kurzen Ton für eine Bestätigung in einer App (z. B. wenn ein Formular erfolgreich abgeschickt wurde). Stil: dezent, positiv, nicht aufdringlich.


Tipps für Audio-Prompting

  • Stimme und Stil so präzise wie möglich beschreiben (z. B. „junger Sprecher mit leichtem Berliner Akzent“)
  • Tempo, Pausen und Tonlage bewusst steuern („langsam und klar“, „schnell und energisch“)
  • Bei längeren Texten: in Abschnitte aufteilen oder Gliederung vorgeben
  • Output-Format angeben (MP3, WAV, geschnitten, mit Musik?)

Tool-Hinweise: Audio-KI-Tools im Überblick

🧰 Übersicht nützlicher Audio-KI-Tools

  • ElevenLabs
    1. Extrem natürliche Stimmen (TTS)
    2. Unterstützt Mehrsprachigkeit, Emotionen und Voice Cloning
    3. Ideal für Hörbücher, Lerninhalte, Games
  • Whisper (OpenAI)
    1. Hochpräzise Transkription (viele Sprachen)
    2. Unterstützt auch Noisy Audio / Dialekte
    3. Ideal für Protokolle, Untertitelung, Barrierefreiheit
  • Descript
    1. Audio- & Videobearbeitung mit Textinterface
    2. Overdub (Stimme klonen), Umformulierungen, Füllwörter entfernen
    3. Für Podcasts, Interviews, Clips
  • Play.ht
    1. Webbasierter TTS-Service mit vielen professionellen Stimmen
    2. Möglichkeit zur Feinsteuerung (Pausen, Tonhöhe etc.)
    3. Export als Audio-Dateien oder Player
  • AIVA
    1. KI-Musikkomponist für Soundtracks, Games, Werbung
    2. Steuerung über Musikstile, Emotionen, Strukturvorgaben
    3. Erzeugt MIDI und WAV-Dateien
  • Soundraw
    1. Generiert lizenzfreie Hintergrundmusik nach Stimmung und Länge
    2. Ideal für YouTube, Werbung, Corporate Videos
  • Voicemod Text to Song / Voice AI
    1. Spaßige Tools zur Musikgenerierung oder Stimmenverfremdung
    2. Eher experimentell, aber kreativ nutzbar
praxis/audio.txt · Zuletzt geändert: 2025/05/22 19:09 von 127.0.0.1

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki
Chat
WiKiBot ×
Laden...