Anwendung: Computer Vision

Grundlagen und Abgrenzung

  • Computer Vision (CV) ist ein Teilgebiet der KI zur automatisierten Auswertung visueller Informationen wie Bilder oder Videos
  • Ziel: Interpretation visueller Daten auf einem Niveau, das menschlichem Sehen vergleichbar ist – für Klassifikation, Analyse, Steuerung
  • zentrale Aufgabenbereiche:
    • Bildklassifikation: z. B. Diagnoseverfahren, Qualitätssicherung
    • Objekterkennung: z. B. autonome Systeme, Sicherheitstechnik
    • Segmentierung und Rekonstruktion: z. B. in Medizin und Robotik
  • wichtige Unterscheidungen:
    • Bildverarbeitung: technische Modifikation von Bilddaten
    • Bilderkennung: interpretative Einordnung – entscheidungsrelevant
  • Deep Learning ermöglicht z. B. automatische Klassifikation & visuelle Synthese

Anwendung: Computer Vision

Andwendungsfälle aus Bildverarbeitung/-erkennung

Anwendung: Natural Language Processing (NLP)

Grundlagen und Anwendungsfelder

  • NLP ermöglicht Maschinen das Verstehen, Interpretieren und Generieren menschlicher Sprache (Text & Audio)
  • typische Aufgaben:
    • maschinelle Übersetzung, Autokorrektur, Autovervollständigung
    • Stimmungsanalyse, Spracherkennung, Chatbots
  • Sprachverarbeitung = Kombination aus Linguistik, Statistik und KI
  • moderne NLP-Systeme basieren auf Deep Learning, v. a. Transformer-Architekturen
  • Sprachmodelle (z. B. GPT, LaMDA, Megatron) ermöglichen kontextsensitives Verstehen und Generieren ganzer Absätze

Anwendung: Natural Language Processing (NLP)

Anwendungsfelder

Anwendung: Natural Language Processing (NLP)

Anwendungsfelder

NLP: Entwicklung großer Sprachmodelle

Entwicklung Parameter Zahl der Modelle

NLP: Entwicklung großer Sprachmodelle

Neueste Entwicklungen (bis 2024)

  • moderne Sprachmodelle basieren auf Transformer-Architekturen
  • stetiger Anstieg der Parameteranzahl seit 2018 (GPT-2: 0,1 Mrd. \(\ra\) GPT-4: $$1 Bio. geschätzt)
  • wichtige Meilensteine:
    • GPT-3 (2020): 175 Mrd. Parameter
    • GPT-4 (2023): multimodal, deutlich robuster, genaue Architektur nicht veröffentlicht
    • GPT-4 Turbo (2023): kosteneffizientere Variante mit gleichem Verhalten
    • Claude 2 (Anthropic), Gemini (Google), LLaMA 2 (Meta) als offene Alternativen
  • Trends: multimodale Fähigkeiten, Tool-Integration (z. B. Code, Bilder, Audio), RLHF
  • Herausforderungen: Bias, Halluzination, Energiebedarf, Erklärbarkeit

Anwendung: Biologie – AlphaFold

Proteinfaltung und Strukturvorhersage

  • Proteine: Ketten aus Aminosäuren, deren 3D-Struktur ihre Funktion bestimmt
  • Problem: experimentelle Strukturbestimmung ist teuer & langsam
  • Ziel: Strukturvorhersage allein aus Sequenzinformationen
  • AlphaFold (DeepMind):
    • verwendet neuronale Netze mit Attention & evolutionären Features
    • Vorhersage von Abständen & Winkeln zwischen Aminosäuren
    • trainiert auf 100.000+ bekannte Proteinstrukturen (PDB)
  • Validierung durch CASP14 (2020):
    • GDT (Global Distance Test): Metrik zur Strukturähnlichkeit (0–100)
    • AlphaFold erreichte GDT-Werte $$90 – nahe experimenteller Genauigkeit

AlphaFold: Ergebnisse im CASP14-Wettbewerb

Anwendung: Autonomes Fahren

KI in selbstfahrenden Fahrzeugen

  • autonome Fahrzeuge (AVs) nutzen KI zur:
    • Wahrnehmung der Umgebung (Kameras, Lidar, Radar)
    • Lokalisierung & Kartierung (SLAM, GPS)
    • Entscheidungsfindung (Routenplanung, Verhalten)
    • Kontrolle (Lenkung, Beschleunigung, Bremsen)
  • zentrale Rolle von Deep Learning bei:
    • Objekterkennung, Segmentierung, Fußgängerprognose
    • Szenenverständnis, Vorausschau, Gefahrenerkennung
  • Vorreiter: Waymo, hervorgegangen aus dem Google-Auto-Projekt
    • nutzt DNNs für Fußgängererkennung, Planung & Simulation
    • 10 Mio reale Kilometer + >10 Mrd Simulationskilometer

  • Herausforderungen:
    • komplexe urbane Szenarien, rare edge cases, ethische Entscheidungen
    • Rechenleistung (Edge), Latenz, Zertifizierung & Sicherheit
Back to top