ThinkWi-KI

Künstliche Intelligenz erklärt – verständlich und praxisnah

Benutzer-Werkzeuge

Webseiten-Werkzeuge


handbook:formate:synthetic-data

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
handbook:formate:synthetic-data [2025/04/03 10:10] – [🧪 Beispiel-Prompts für synthetische Daten] renehandbook:formate:synthetic-data [2025/05/08 14:55] (aktuell) – gelöscht 104.238.10.57
Zeile 1: Zeile 1:
-====== 3.7. Synthetic Data (Testdaten, Modelltraining) ====== 
- 
-==== Überblick ==== 
- 
-*Synthetische Daten* sind künstlich erzeugte, aber realistisch wirkende Datensätze. Sie dienen dazu, reale Daten zu ersetzen oder zu ergänzen – besonders in Bereichen, in denen Datenschutz, Skalierbarkeit oder Trainingsdatenmangel eine Rolle spielen. 
- 
-Typische Einsatzbereiche: 
-  * **Testdaten für Software & Systeme** 
-  * **Training von KI- oder ML-Modellen** 
-  * **Simulation realistischer Szenarien (z. B. Kundendaten, Verkehr, Medizin)** 
-  * **Datenschutzfreundliche Alternativen zu echten Nutzerdaten** 
-  * **Edge Cases gezielt erzeugen** 
- 
----- 
- 
-==== Aufbau eines Prompts zur Generierung synthetischer Daten ==== 
- 
-Ein strukturierter Prompt sollte enthalten: 
- 
-  * **Ziel des Datensatzes** (z. B. Tests, Modelltraining, Demo) 
-  * **Struktur & Format** (CSV, JSON, SQL-Tabelle etc.) 
-  * **Anzahl der Datensätze** 
-  * **Felder & Regeln** (z. B. Name, Geburtsdatum, E-Mail, Wertebereich) 
-  * **Optional: Variationen, Ausreißer, Korrelationen** 
-  * **Datenschutzanforderungen** (z. B. keine echten Namen, keine Kombinationen, die rückverfolgbar sind) 
- 
----- 
- 
-==== 🧪 Beispiel-Prompts für synthetische Daten ==== 
- 
-=== 📋 Beispiel 1 – Kundendaten für Tests === 
- 
-**Prompt:**   
-> Generiere einen CSV-Datensatz mit 100 fiktiven Kund:innen. Die Spalten sollen enthalten: Vorname, Nachname, E-Mail-Adresse, Land, Registrierungsdatum. Keine realen Namen oder Domains verwenden. 
- 
-Beispielausgabe:   
-<code csv> 
-Vorname,Nachname,E-Mail,Land,Registriert_Am 
-Lina,Schwarz,lina.s@demo.com,Deutschland,2023-02-14 
-Aron,Müller,aron.mu@demo.org,Österreich,2023-05-22 
-...</code> 
- 
---- 
- 
-=== 🏥 Beispiel 2 – Medizinische Trainingsdaten === 
- 
-**Prompt:**   
-> Erstelle einen Datensatz mit 500 fiktiven Patient:innen für ein ML-Modell. Felder: Alter (18–90), Geschlecht, Blutdruck, Herzfrequenz, Raucherstatus (Ja/Nein), Diagnose (aus Liste). Format: JSON.   
-Achte darauf, realistische Zusammenhänge (z. B. Rauchen → höherer Blutdruck) zu simulieren. 
- 
---- 
- 
-=== 💼 Beispiel 3 – Personaldaten für HR-Systeme === 
- 
-**Prompt:**   
-> Generiere Testdaten für ein Bewerbermanagement-System. 50 Einträge im CSV-Format. Spalten: Name, Geburtsjahr, Ausbildungsgrad, Jahre Berufserfahrung, gewünschte Position, Gehaltsvorstellung (€/Jahr). Streue gezielt ein paar Extremwerte ein (z. B. unrealistisch hohes Gehalt). 
- 
-Beispielausgabe: 
-<code csv> 
-Name,Geburtsjahr,Ausbildungsgrad,Berufserfahrung,Position,Gehaltsvorstellung 
-Sophie Schmidt,1979,Abitur,1,Softwareentwickler:in,35000 
-Tom Wagner,1995,Abitur,9,Support,110000 
-Lea Koch,1980,Bachelor,30,Softwareentwickler:in,42000 
-Max Wagner,1996,Ausbildung,0,Projektmanager:in,35000 
-...</code> 
- 
---- 
- 
-=== 🔍 Beispiel 4 – Anomalie-Erkennung trainieren === 
- 
-**Prompt:**   
-> Erstelle einen synthetischen Datensatz zur Schulung eines Modells zur Anomalie-Erkennung im Netzwerkverkehr. 1000 Zeilen mit IP-Adresse, Port, Bytes gesendet, Zeitstempel, Anomalie (True/False). Füge 5 % echte Ausreißer ein. 
- 
---- 
- 
-=== 📦 Beispiel 5 – E-Commerce-Transaktionen === 
- 
-**Prompt:**   
-> Simuliere 200 Bestellungen aus einem Online-Shop mit folgenden Spalten: Bestellnummer, Artikelname, Kategorie, Stückzahl, Preis pro Stück, Gesamtsumme, Datum, Zahlungsmethode.   
-Nutze realistische Preisbereiche (5–200 €), verschiedene Produktkategorien. 
- 
-Beispielausgabe: 
- 
-<code csv> 
-Bestellnummer,Artikel,Kategorie,Menge,Einzelpreis,Gesamtsumme,Datum,Zahlungsmethode 
-ORD-1000,Wasserkocher,Elektronik,1,27.66,27.66,2023-08-06,Kreditkarte 
-ORD-1001,Wasserkocher,Haushalt,5,69.54,347.7,2023-08-29,PayPal 
-ORD-1002,Tischlampe,Büro,2,32.74,65.48,2023-12-10,Sofortüberweisung 
-ORD-1003,T-Shirt,Elektronik,1,94.95,94.95,2023-12-11,Kreditkarte 
-ORD-1004,Wanduhr,Büro,4,19.85,79.4,2023-10-14,Rechnung 
-ORD-1005,Bluetooth-Kopfhörer,Bekleidung,4,82.13,328.52,2023-12-09,PayPal 
-ORD-1006,Kaffeemaschine,Elektronik,4,194.15,776.6,2023-01-13,Kreditkarte 
-ORD-1007,Tischlampe,Büro,4,102.76,411.04,2023-08-04,PayPal 
-ORD-1008,Gaming-Maus,Haushalt,1,23.86,23.86,2023-04-20,Sofortüberweisung 
-...</code> 
- 
----- 
- 
-==== Tipps für synthetische Daten-Prompts ==== 
- 
-  * Definiere klare **Regeln und Bereiche** (z. B. Alter 18–90, feste Länderliste etc.) 
-  * Gib **Datenformate explizit an** (z. B. „ISO-Datum“, „CSV mit UTF-8“) 
-  * Für Modelltraining: Erwähne, ob **Korrelationen** gewünscht sind 
-  * Baue gezielt **Edge Cases / Ausreißer / Lücken** ein (für Testrobustheit) 
-  * Gib einen **Verwendungszweck** an – Test, Training, Visualisierung, Validierung 
- 
----- 
- 
-==== Tool-Hinweise: KI-Tools für synthetische Daten ==== 
- 
-=== 🧰 Übersicht empfehlenswerter Tools === 
- 
-  * **MOSTLY AI**   
-    - KI-generierte synthetische Daten mit realistischer Verteilung   
-    - Unterstützt Tabellen, Relationen, Szenarien   
-    - Ideal für Datenschutz & Modelltraining 
- 
-  * **Gretel.ai**   
-    - API-basierte Plattform zur Erstellung & Prüfung synthetischer Daten   
-    - Gute Dokumentation, auch für DevOps einsetzbar   
-    - Unterstützt JSON, CSV, relational 
- 
-  * **Synthea**   
-    - Open-Source-Tool zur Simulation realistischer Gesundheitsdaten   
-    - Ideal für Forschung, MedTech, eHealth   
-    - Konfigurierbare Szenarien (Krankheiten, Behandlungen etc.) 
- 
-  * **DataGen**   
-    - Fokus auf visuelle & sensorgestützte 3D-Daten (z. B. für Robotik, Fahrzeuge)   
-    - Simulation für KI-Modelle im Bereich Computer Vision 
- 
-  * **YData**   
-    - Generiert qualitativ hochwertige strukturierte Daten für ML-Training   
-    - Mit Fokus auf Fairness, Qualität und Augmentation   
-    - Kombinierbar mit Data-Centric-AI-Workflows 
- 
-  * **Faker (Python-Bibliothek)**   
-    - Erzeugt schnell zufällige Testdaten (Namen, Adressen, IBAN etc.)   
-    - Ideal für Entwickler:innen, lokal ausführbar   
-    - Leicht integrierbar in Pipelines oder Tests 
- 
----- 
- 
-→ Weiter mit: [[handbook:formate:3d-modellierung|3D-Modellierung (Text-to-3D, NeRF)]] 
  
handbook/formate/synthetic-data.1743667809.txt.gz · Zuletzt geändert: 2025/04/03 10:10 von rene

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki
Chat
WiKiBot ×
Laden...