verarbeitung_erzeugung_daten – Grundlagen der Künstlichen Intelligenz (GKI)

Verarbeitung und Erzeugen von Daten

Motivation und Problemstellung

reale Daten sind oft verrauscht, unvollständig oder inkonsistent
Ziel: Datenqualität verbessern, damit ML-Algorithmen effektiv lernen
typische Probleme: fehlende Werte, Ausreißer, falsches Format, Rauschen
Merkmale (Features) = Eingabegrößen für das Modell

Datenbereinigung

Ziel: Korrektur oder Entfernung fehlerhafter Einträge
Methoden:
- fehlende Werte ignorieren oder durch Mittelwert, Regression o. Ä. ersetzen
- Rauschentfernung durch Binning, Regression oder Clustering
- Ausreißerbehandlung mittels Clustering oder Entfernung

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Integration, Transformation und Reduktion

Datenintegration

Zusammenführung verschiedener Datenquellen in eine einheitliche Struktur
typische Probleme:
- Schemaintegration (uneinheitliche Formate)
- redundante Attribute
- Datenwertkonflikte (z. B. unterschiedliche Einheiten)

Datentransformation

Ziel: Daten vereinheitlichen, um Verarbeitbarkeit zu verbessern
Techniken: Normalisierung, Aggregation, Generalisierung, Attributbildung

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Datenreduktion

Reduktion des Datenvolumens bei Erhalt der Analysequalität
Verfahren: Datenkompression, Dimensionsreduktion, Diskretisierung
Ziel: schnellere Verarbeitung bei geringem Informationsverlust

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Datenerweiterung: klassische Augmentation

Motivation und Prinzip

Ziel: künstliche Vergrößerung von Trainingsdatensätzen
hilfreich bei kleinen Datenbasen oder zur Erhöhung der Robustheit
neue Datenpunkte entstehen durch gezielte Veränderungen bestehender Beispiele
besonders verbreitet bei visuellen Daten

typische Bildtransformationen

Drehen, Spiegeln, Zoomen, Zuschneiden, Verschieben (Translation)
Farbänderung, Helligkeit/Kontrast anpassen, Rauschen hinzufügen
Graustufenumwandlung, zufälliges Löschen (Cutout)

Datenerzeugung mit Deep Learning

GANs und neuronale Stilübertragung

Generative Adversarial Networks (GAN):
- bestehen aus Generator und Diskriminator im Wettstreit
- erzeugen neue Datenpunkte, die echten Daten ähneln
Neuronale Stilübertragung:
- kombiniert Inhaltsbild und Stilbild zu synthetischem Output
- Output enthält die Inhalte des ersten Bilds im Stil des zweiten

Datenerweiterung: Vor- und Nachteile

Datenerweiterung kann Genauigkeit und Robustheit von KI verbessern
sie ersetzt jedoch keine hochwertigen Originaldaten
Risiken: Reproduktion von Verzerrungen, mangelhafte Qualität künstlicher Daten
besonders kritisch bei ethischen oder sensiblen Anwendungen

Potentiell Klausurrelevant: aber noch nie abgefragt

Simulation als künstliche Datenquelle

Prinzip und Zielsetzung

Simulation = virtuelle Nachbildung realer Prozesse auf Basis mathematischer Modelle
Ziel: Erzeugung realistischer, aber kontrollierter Daten ohne physische Durchführung
zentrale Bestandteile:
- Modell des Systems (z. B. physikalisch, ökonomisch, biologisch)
- Eingabeparameter, die Systemverhalten definieren
- Ausgabevariablen, die analysiert und als Trainingsdaten genutzt werden

Vorteile gegenüber realer Datenerhebung

keine Risiken für Personen, Geräte oder Infrastruktur
flexibel skalierbar, auch für seltene/extreme Szenarien
vollständige Kontrolle über Ground Truth und Umweltvariablen
geeignet bei Datenschutzproblemen oder nicht zugänglichen Szenarien

Anwendungsfelder

Reinforcement Learning (RL):
- Training von Agenten via Trial & Error in sicherer Simulationsumgebung
- spätere Übertragung des Verhaltens in reale Systeme (z. B. Roboter)
Forecasting (z. B. Energie, Logistik), Anomaliedetektion, Risikobewertung
Simulation synthetischer Bilddaten (z. B. für medizinische Diagnostik)