Verarbeitung und Erzeugen von Daten

Motivation und Problemstellung

  • reale Daten sind oft verrauscht, unvollständig oder inkonsistent
  • Ziel: Datenqualität verbessern, damit ML-Algorithmen effektiv lernen
  • typische Probleme: fehlende Werte, Ausreißer, falsches Format, Rauschen
  • Merkmale (Features) = Eingabegrößen für das Modell

Datenbereinigung

  • Ziel: Korrektur oder Entfernung fehlerhafter Einträge
  • Methoden:
    • fehlende Werte ignorieren oder durch Mittelwert, Regression o. Ä. ersetzen
    • Rauschentfernung durch Binning, Regression oder Clustering
    • Ausreißerbehandlung mittels Clustering oder Entfernung

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Integration, Transformation und Reduktion

Datenintegration

  • Zusammenführung verschiedener Datenquellen in eine einheitliche Struktur
  • typische Probleme:
    • Schemaintegration (uneinheitliche Formate)
    • redundante Attribute
    • Datenwertkonflikte (z. B. unterschiedliche Einheiten)

Datentransformation

  • Ziel: Daten vereinheitlichen, um Verarbeitbarkeit zu verbessern
  • Techniken: Normalisierung, Aggregation, Generalisierung, Attributbildung

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Datenreduktion

  • Reduktion des Datenvolumens bei Erhalt der Analysequalität
  • Verfahren: Datenkompression, Dimensionsreduktion, Diskretisierung
  • Ziel: schnellere Verarbeitung bei geringem Informationsverlust

Klausurrelevant: schonmal abgefragt (s. Altklausuren)

Datenerweiterung: klassische Augmentation

Motivation und Prinzip

  • Ziel: künstliche Vergrößerung von Trainingsdatensätzen
  • hilfreich bei kleinen Datenbasen oder zur Erhöhung der Robustheit
  • neue Datenpunkte entstehen durch gezielte Veränderungen bestehender Beispiele
  • besonders verbreitet bei visuellen Daten

typische Bildtransformationen

  • Drehen, Spiegeln, Zoomen, Zuschneiden, Verschieben (Translation)
  • Farbänderung, Helligkeit/Kontrast anpassen, Rauschen hinzufügen
  • Graustufenumwandlung, zufälliges Löschen (Cutout)

Datenerzeugung mit Deep Learning

GANs und neuronale Stilübertragung

  • Generative Adversarial Networks (GAN):
    • bestehen aus Generator und Diskriminator im Wettstreit
    • erzeugen neue Datenpunkte, die echten Daten ähneln
  • Neuronale Stilübertragung:
    • kombiniert Inhaltsbild und Stilbild zu synthetischem Output
    • Output enthält die Inhalte des ersten Bilds im Stil des zweiten

Datenerweiterung: Vor- und Nachteile

  • Datenerweiterung kann Genauigkeit und Robustheit von KI verbessern
  • sie ersetzt jedoch keine hochwertigen Originaldaten
  • Risiken: Reproduktion von Verzerrungen, mangelhafte Qualität künstlicher Daten
  • besonders kritisch bei ethischen oder sensiblen Anwendungen

Potentiell Klausurrelevant: aber noch nie abgefragt

Simulation als künstliche Datenquelle

Prinzip und Zielsetzung

  • Simulation = virtuelle Nachbildung realer Prozesse auf Basis mathematischer Modelle
  • Ziel: Erzeugung realistischer, aber kontrollierter Daten ohne physische Durchführung
  • zentrale Bestandteile:
    • Modell des Systems (z. B. physikalisch, ökonomisch, biologisch)
    • Eingabeparameter, die Systemverhalten definieren
    • Ausgabevariablen, die analysiert und als Trainingsdaten genutzt werden

Vorteile gegenüber realer Datenerhebung

  • keine Risiken für Personen, Geräte oder Infrastruktur
  • flexibel skalierbar, auch für seltene/extreme Szenarien
  • vollständige Kontrolle über Ground Truth und Umweltvariablen
  • geeignet bei Datenschutzproblemen oder nicht zugänglichen Szenarien

Anwendungsfelder

  • Reinforcement Learning (RL):
    • Training von Agenten via Trial & Error in sicherer Simulationsumgebung
    • spätere Übertragung des Verhaltens in reale Systeme (z. B. Roboter)
  • Forecasting (z. B. Energie, Logistik), Anomaliedetektion, Risikobewertung
  • Simulation synthetischer Bilddaten (z. B. für medizinische Diagnostik)
Back to top