handbook:formate:synthetic-data
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
| handbook:formate:synthetic-data [2025/04/03 10:10] – [🧪 Beispiel-Prompts für synthetische Daten] rene | handbook:formate:synthetic-data [2025/05/08 14:55] (aktuell) – gelöscht 104.238.10.57 | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| - | ====== 3.7. Synthetic Data (Testdaten, Modelltraining) ====== | ||
| - | |||
| - | ==== Überblick ==== | ||
| - | |||
| - | *Synthetische Daten* sind künstlich erzeugte, aber realistisch wirkende Datensätze. Sie dienen dazu, reale Daten zu ersetzen oder zu ergänzen – besonders in Bereichen, in denen Datenschutz, | ||
| - | |||
| - | Typische Einsatzbereiche: | ||
| - | * **Testdaten für Software & Systeme** | ||
| - | * **Training von KI- oder ML-Modellen** | ||
| - | * **Simulation realistischer Szenarien (z. B. Kundendaten, | ||
| - | * **Datenschutzfreundliche Alternativen zu echten Nutzerdaten** | ||
| - | * **Edge Cases gezielt erzeugen** | ||
| - | |||
| - | ---- | ||
| - | |||
| - | ==== Aufbau eines Prompts zur Generierung synthetischer Daten ==== | ||
| - | |||
| - | Ein strukturierter Prompt sollte enthalten: | ||
| - | |||
| - | * **Ziel des Datensatzes** (z. B. Tests, Modelltraining, | ||
| - | * **Struktur & Format** (CSV, JSON, SQL-Tabelle etc.) | ||
| - | * **Anzahl der Datensätze** | ||
| - | * **Felder & Regeln** (z. B. Name, Geburtsdatum, | ||
| - | * **Optional: Variationen, | ||
| - | * **Datenschutzanforderungen** (z. B. keine echten Namen, keine Kombinationen, | ||
| - | |||
| - | ---- | ||
| - | |||
| - | ==== 🧪 Beispiel-Prompts für synthetische Daten ==== | ||
| - | |||
| - | === 📋 Beispiel 1 – Kundendaten für Tests === | ||
| - | |||
| - | **Prompt: | ||
| - | > Generiere einen CSV-Datensatz mit 100 fiktiven Kund:innen. Die Spalten sollen enthalten: Vorname, Nachname, E-Mail-Adresse, | ||
| - | |||
| - | Beispielausgabe: | ||
| - | <code csv> | ||
| - | Vorname, | ||
| - | Lina, | ||
| - | Aron, | ||
| - | ...</ | ||
| - | |||
| - | --- | ||
| - | |||
| - | === 🏥 Beispiel 2 – Medizinische Trainingsdaten === | ||
| - | |||
| - | **Prompt: | ||
| - | > Erstelle einen Datensatz mit 500 fiktiven Patient: | ||
| - | Achte darauf, realistische Zusammenhänge (z. B. Rauchen → höherer Blutdruck) zu simulieren. | ||
| - | |||
| - | --- | ||
| - | |||
| - | === 💼 Beispiel 3 – Personaldaten für HR-Systeme === | ||
| - | |||
| - | **Prompt: | ||
| - | > Generiere Testdaten für ein Bewerbermanagement-System. 50 Einträge im CSV-Format. Spalten: Name, Geburtsjahr, | ||
| - | |||
| - | Beispielausgabe: | ||
| - | <code csv> | ||
| - | Name, | ||
| - | Sophie Schmidt, | ||
| - | Tom Wagner, | ||
| - | Lea Koch, | ||
| - | Max Wagner, | ||
| - | ...</ | ||
| - | |||
| - | --- | ||
| - | |||
| - | === 🔍 Beispiel 4 – Anomalie-Erkennung trainieren === | ||
| - | |||
| - | **Prompt: | ||
| - | > Erstelle einen synthetischen Datensatz zur Schulung eines Modells zur Anomalie-Erkennung im Netzwerkverkehr. 1000 Zeilen mit IP-Adresse, Port, Bytes gesendet, Zeitstempel, | ||
| - | |||
| - | --- | ||
| - | |||
| - | === 📦 Beispiel 5 – E-Commerce-Transaktionen === | ||
| - | |||
| - | **Prompt: | ||
| - | > Simuliere 200 Bestellungen aus einem Online-Shop mit folgenden Spalten: Bestellnummer, | ||
| - | Nutze realistische Preisbereiche (5–200 €), | ||
| - | |||
| - | Beispielausgabe: | ||
| - | |||
| - | <code csv> | ||
| - | Bestellnummer, | ||
| - | ORD-1000, | ||
| - | ORD-1001, | ||
| - | ORD-1002, | ||
| - | ORD-1003, | ||
| - | ORD-1004, | ||
| - | ORD-1005, | ||
| - | ORD-1006, | ||
| - | ORD-1007, | ||
| - | ORD-1008, | ||
| - | ...</ | ||
| - | |||
| - | ---- | ||
| - | |||
| - | ==== Tipps für synthetische Daten-Prompts ==== | ||
| - | |||
| - | * Definiere klare **Regeln und Bereiche** (z. B. Alter 18–90, feste Länderliste etc.) | ||
| - | * Gib **Datenformate explizit an** (z. B. „ISO-Datum“, | ||
| - | * Für Modelltraining: | ||
| - | * Baue gezielt **Edge Cases / Ausreißer / Lücken** ein (für Testrobustheit) | ||
| - | * Gib einen **Verwendungszweck** an – Test, Training, Visualisierung, | ||
| - | |||
| - | ---- | ||
| - | |||
| - | ==== Tool-Hinweise: | ||
| - | |||
| - | === 🧰 Übersicht empfehlenswerter Tools === | ||
| - | |||
| - | * **MOSTLY AI** | ||
| - | - KI-generierte synthetische Daten mit realistischer Verteilung | ||
| - | - Unterstützt Tabellen, Relationen, Szenarien | ||
| - | - Ideal für Datenschutz & Modelltraining | ||
| - | |||
| - | * **Gretel.ai** | ||
| - | - API-basierte Plattform zur Erstellung & Prüfung synthetischer Daten | ||
| - | - Gute Dokumentation, | ||
| - | - Unterstützt JSON, CSV, relational | ||
| - | |||
| - | * **Synthea** | ||
| - | - Open-Source-Tool zur Simulation realistischer Gesundheitsdaten | ||
| - | - Ideal für Forschung, MedTech, eHealth | ||
| - | - Konfigurierbare Szenarien (Krankheiten, | ||
| - | |||
| - | * **DataGen** | ||
| - | - Fokus auf visuelle & sensorgestützte 3D-Daten (z. B. für Robotik, Fahrzeuge) | ||
| - | - Simulation für KI-Modelle im Bereich Computer Vision | ||
| - | |||
| - | * **YData** | ||
| - | - Generiert qualitativ hochwertige strukturierte Daten für ML-Training | ||
| - | - Mit Fokus auf Fairness, Qualität und Augmentation | ||
| - | - Kombinierbar mit Data-Centric-AI-Workflows | ||
| - | |||
| - | * **Faker (Python-Bibliothek)** | ||
| - | - Erzeugt schnell zufällige Testdaten (Namen, Adressen, IBAN etc.) | ||
| - | - Ideal für Entwickler: | ||
| - | - Leicht integrierbar in Pipelines oder Tests | ||
| - | |||
| - | ---- | ||
| - | |||
| - | → Weiter mit: [[handbook: | ||
handbook/formate/synthetic-data.1743667809.txt.gz · Zuletzt geändert: 2025/04/03 10:10 von rene
