ThinkWi-KI

Künstliche Intelligenz erklärt – verständlich und praxisnah

Benutzer-Werkzeuge

Webseiten-Werkzeuge


handbook:formate:synthetic-data

Dies ist eine alte Version des Dokuments!


Synthetic Data (Testdaten, Modelltraining)

Überblick

*Synthetische Daten* sind künstlich erzeugte, aber realistisch wirkende Datensätze. Sie dienen dazu, reale Daten zu ersetzen oder zu ergänzen – besonders in Bereichen, in denen Datenschutz, Skalierbarkeit oder Trainingsdatenmangel eine Rolle spielen.

Typische Einsatzbereiche:

  • Testdaten für Software & Systeme
  • Training von KI- oder ML-Modellen
  • Simulation realistischer Szenarien (z. B. Kundendaten, Verkehr, Medizin)
  • Datenschutzfreundliche Alternativen zu echten Nutzerdaten
  • Edge Cases gezielt erzeugen

Aufbau eines Prompts zur Generierung synthetischer Daten

Ein strukturierter Prompt sollte enthalten:

  • Ziel des Datensatzes (z. B. Tests, Modelltraining, Demo)
  • Struktur & Format (CSV, JSON, SQL-Tabelle etc.)
  • Anzahl der Datensätze
  • Felder & Regeln (z. B. Name, Geburtsdatum, E-Mail, Wertebereich)
  • Optional: Variationen, Ausreißer, Korrelationen
  • Datenschutzanforderungen (z. B. keine echten Namen, keine Kombinationen, die rückverfolgbar sind)

🧪 Beispiel-Prompts für synthetische Daten

📋 Beispiel 1 – Kundendaten für Tests

Prompt: > Generiere einen CSV-Datensatz mit 100 fiktiven Kund:innen. Die Spalten sollen enthalten: Vorname, Nachname, E-Mail-Adresse, Land, Registrierungsdatum. Keine realen Namen oder Domains verwenden.

Beispielausgabe:

Vorname,Nachname,E-Mail,Land,Registriert_Am
Lina,Schwarz,lina.s@demo.com,Deutschland,2023-02-14
Aron,Müller,aron.mu@demo.org,Österreich,2023-05-22
...

🏥 Beispiel 2 – Medizinische Trainingsdaten

Prompt: > Erstelle einen Datensatz mit 500 fiktiven Patient:innen für ein ML-Modell. Felder: Alter (18–90), Geschlecht, Blutdruck, Herzfrequenz, Raucherstatus (Ja/Nein), Diagnose (aus Liste). Format: JSON. Achte darauf, realistische Zusammenhänge (z. B. Rauchen → höherer Blutdruck) zu simulieren.

💼 Beispiel 3 – Personaldaten für HR-Systeme

Prompt: > Generiere Testdaten für ein Bewerbermanagement-System. 50 Einträge im CSV-Format. Spalten: Name, Geburtsjahr, Ausbildungsgrad, Jahre Berufserfahrung, gewünschte Position, Gehaltsvorstellung (€/Jahr). Streue gezielt ein paar Extremwerte ein (z. B. unrealistisch hohes Gehalt).

🔍 Beispiel 4 – Anomalie-Erkennung trainieren

Prompt: > Erstelle einen synthetischen Datensatz zur Schulung eines Modells zur Anomalie-Erkennung im Netzwerkverkehr. 1000 Zeilen mit IP-Adresse, Port, Bytes gesendet, Zeitstempel, Anomalie (True/False). Füge 5 % echte Ausreißer ein.

📦 Beispiel 5 – E-Commerce-Transaktionen

Prompt: > Simuliere 200 Bestellungen aus einem Online-Shop mit folgenden Spalten: Bestellnummer, Artikelname, Kategorie, Stückzahl, Preis pro Stück, Gesamtsumme, Datum, Zahlungsmethode. Nutze realistische Preisbereiche (5–200 €), verschiedene Produktkategorien.


Tipps für synthetische Daten-Prompts

  • Definiere klare Regeln und Bereiche (z. B. Alter 18–90, feste Länderliste etc.)
  • Gib Datenformate explizit an (z. B. „ISO-Datum“, „CSV mit UTF-8“)
  • Für Modelltraining: Erwähne, ob Korrelationen gewünscht sind
  • Baue gezielt Edge Cases / Ausreißer / Lücken ein (für Testrobustheit)
  • Gib einen Verwendungszweck an – Test, Training, Visualisierung, Validierung

Tool-Hinweise: KI-Tools für synthetische Daten

🧰 Übersicht empfehlenswerter Tools

  • MOSTLY AI
    1. KI-generierte synthetische Daten mit realistischer Verteilung
    2. Unterstützt Tabellen, Relationen, Szenarien
    3. Ideal für Datenschutz & Modelltraining
  • Gretel.ai
    1. API-basierte Plattform zur Erstellung & Prüfung synthetischer Daten
    2. Gute Dokumentation, auch für DevOps einsetzbar
    3. Unterstützt JSON, CSV, relational
  • Synthea
    1. Open-Source-Tool zur Simulation realistischer Gesundheitsdaten
    2. Ideal für Forschung, MedTech, eHealth
    3. Konfigurierbare Szenarien (Krankheiten, Behandlungen etc.)
  • DataGen
    1. Fokus auf visuelle & sensorgestützte 3D-Daten (z. B. für Robotik, Fahrzeuge)
    2. Simulation für KI-Modelle im Bereich Computer Vision
  • YData
    1. Generiert qualitativ hochwertige strukturierte Daten für ML-Training
    2. Mit Fokus auf Fairness, Qualität und Augmentation
    3. Kombinierbar mit Data-Centric-AI-Workflows
  • Faker (Python-Bibliothek)
    1. Erzeugt schnell zufällige Testdaten (Namen, Adressen, IBAN etc.)
    2. Ideal für Entwickler:innen, lokal ausführbar
    3. Leicht integrierbar in Pipelines oder Tests

→ Weiter mit: 3D-Modellierung (Text-to-3D, NeRF)

handbook/formate/synthetic-data.1743667333.txt.gz · Zuletzt geändert: 2025/04/03 10:02 von rene

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki
Chat
WiKiBot ×
Laden...