Was ist Computer Vision?
Computer Vision ist ein Teilgebiet der Künstlichen Intelligenz. Dem Computer wird quasi das Sehen beigebracht. Der Computer analysiert (wie das menschliche Gehirn auch) visuelle Daten, versteht sie und trifft darauf basierend Entscheidungen.
Die Modelle werden dabei auf verschiedene Aufgaben optimiert, z.B. der Erkennung von Objekten in Bildern oder Videos, dabei können auch mehrere Objekte erkannt werden oder die genauen Pixel des Objekts. Des Weiteren können die Modelle die Bilder auch klassifizieren oder segmentieren.
Microsoft Azure ist ein bekanntes Tool zur simplen Einbindung in eigene Anwendungen, ohne, dass hohe Programmierkenntnisse erforderlich sind.
Wie funktioniert Computer Vision?
Algorithmen analysieren große Datenmengen, erkennen Muster und verarbeiten diese. CNNs, Convolutional Neural Networks, sind Neuronale Netzwerke, die visuelle Merkmale extrahieren und damit die Grundlage bilden. Im Rahmen des Feature Engineering kann man manuell Merkmale extrahieren und in Modellen verwenden. Modelle, die verschiedene Schichten von Neuronen hintereinander reihen, nennt man Deep Learning.
Anwendungsbereiche
Ein der größten Anwendungsbereich ist das Autonomes Fahren. In dynamischen Umgebungen wie bei Autonomen Fahrzeugen verwendet man CNNs häufig in Kombination mit Reinforcement Learning. Reinforcement Learning verwendet keine vorgegebenen Daten, sondern erreicht die Lösung durch gesteuertes Ausprobieren.
Es wird aber nicht nur beim Autonomen Fahren verwendet. Auch in der Medizinischen Bildgebung zur Analyse von Röntgen-, CT- oder MRT-Bildern findet maschinelles Sehen Anwendung. Im E-Commerce kann man mittels Augmented-Reality Kleider anprobieren oder Möbel im eigenen zu Hause ausprobieren. Auch zur Prävention von Kriminalität kommen Tools in Form von Gesichtserkennungssystemen und Überwachungskameras zum Einsatz.
Die größte Herausforderungen in einem Projekt ist dabei häufig die benötigte Datenvielfalt, um die Modelle zuverlässig zu trainieren. Bei kleinen oder zu ähnlichen Datensätzen können Abweichungen, sowie Vorurteile entstehen. Parallel zu jedem Sample entstehen datenschutzrechtliche Probleme.
Karriere
Wenn man sich beruflich im Bereich des Machine Learning auf Sehen spezialisieren möchte, gibt es verschiedene Berufsfelder, die infrage kommen. Neben den Rollen als „Computer Vision Engineer“, als „Deep Learning Specialist“ oder als „Robotics Engineer“ gibt es weitere interessante Möglichkeiten, sich fachlich zu spezialisieren. Kenntnisse in Python, TensorFlow, OpenCV und Keras sowie ein theoretisches Verständnis von Neuronalen Netzen sind häufig geforderte Fähigkeiten in allen genannten Berufen.