Was ist Computer Vision?
Vom Entsperren per Gesicht bis zum selbstfahrenden Auto: Computer Vision lässt Maschinen sehen und verstehen. Wie die Technik funktioniert und wo sie im Alltag steckt, erklärt dieser Ratgeber.
Ein Smartphone, das sich per Gesichtserkennung entsperrt, eine App, die Pflanzen anhand eines Fotos bestimmt, oder ein Auto, das Verkehrsschilder erkennt: All das beruht auf einer Technik namens Computer Vision. Übersetzt bedeutet der Begriff "maschinelles Sehen" und beschreibt die Fähigkeit von Computern, Bilder und Videos zu verstehen. In diesem Artikel erklären wir verständlich, was Computer Vision ist, wie sie funktioniert, wo sie eingesetzt wird und wo ihre Grenzen liegen.
Was Computer Vision bedeutet
Computer Vision ist ein Teilgebiet der künstlichen Intelligenz, das sich damit beschäftigt, wie Maschinen visuelle Informationen aufnehmen und auswerten können. Das Ziel ist, Computern beizubringen, aus Bildern oder Videos sinnvolle Informationen zu gewinnen, also etwa zu erkennen, was zu sehen ist, wo sich Objekte befinden oder was gerade passiert.
Für einen Menschen ist Sehen scheinbar mühelos. Für einen Computer ist ein Bild jedoch zunächst nur eine riesige Tabelle aus Zahlen, denn jedes Bild besteht aus vielen einzelnen Bildpunkten (Pixeln) mit Farbwerten. Die Herausforderung besteht darin, aus diesen Zahlen Bedeutung herauszulesen: Ist auf dem Foto ein Hund, ein Auto oder ein Gesicht zu sehen?
Wie Computer Vision funktioniert
Moderne Computer Vision beruht überwiegend auf Deep Learning, also auf tiefen neuronalen Netzen. Besonders wichtig sind dabei sogenannte Faltungsnetze (englisch Convolutional Neural Networks, kurz CNN). Diese Netze sind darauf spezialisiert, Muster in Bildern zu erkennen.
Vereinfacht läuft die Erkennung in Stufen ab:
- Frühe Schichten des Netzes erkennen einfache Merkmale wie Kanten, Ecken und Farbverläufe.
- Mittlere Schichten setzen diese zu komplexeren Formen zusammen, etwa Augen, Räder oder Buchstaben.
- Spätere Schichten erkennen ganze Objekte oder Szenen, zum Beispiel ein Gesicht oder eine Straße.
Damit das funktioniert, wird das Netz mit sehr vielen beschrifteten Bildern trainiert. Zeigt man ihm etwa tausende Bilder, die korrekt mit "Katze" oder "Hund" gekennzeichnet sind, lernt es nach und nach, die typischen Merkmale dieser Tiere zu unterscheiden.
Typische Aufgaben
Computer Vision umfasst verschiedene Aufgabenarten. Zu den wichtigsten gehören:
- Bildklassifizierung: Das System ordnet einem Bild eine Kategorie zu, etwa "Strandfoto".
- Objekterkennung: Es findet und markiert einzelne Objekte im Bild, zum Beispiel mehrere Personen.
- Segmentierung: Es bestimmt für jeden Bildpunkt, zu welchem Objekt er gehört.
- Texterkennung (OCR): Es liest geschriebenen Text aus Bildern aus.
- Bewegungs- und Gesichtserkennung: Es analysiert Videos oder identifiziert Gesichter.
Wo Computer Vision im Alltag steckt
Diese Technik ist heute weit verbreitet, oft ohne dass man es bewusst wahrnimmt. Typische Beispiele sind:
- Smartphones: Entsperren per Gesicht, Sortieren von Fotos nach Personen oder Orten.
- Medizin: Unterstützung von Ärzten bei der Auswertung von Röntgen-, CT- oder MRT-Bildern.
- Fahrzeuge: Erkennung von Fahrspuren, Schildern und Hindernissen bei Assistenzsystemen.
- Industrie: Automatische Qualitätskontrolle, etwa das Aufspüren von Fehlern an Bauteilen.
- Handel: Kassenlose Geschäfte oder die Analyse von Regalbeständen.
- Landwirtschaft: Erkennung von Unkraut oder Pflanzenkrankheiten per Kamera.
Grenzen und Herausforderungen
So leistungsfähig Computer Vision ist, sie ist nicht unfehlbar. Schlechte Lichtverhältnisse, ungewohnte Blickwinkel oder verdeckte Objekte können die Erkennung erschweren. Außerdem ist ein System immer nur so gut wie seine Trainingsdaten. Sind diese einseitig, kann es bestimmte Gruppen oder Situationen schlechter erkennen. Das ist besonders bei der Gesichtserkennung ein viel diskutiertes Problem.
Hinzu kommen wichtige Fragen des Datenschutzes. Kameras, die Personen erkennen und auswerten, greifen tief in die Privatsphäre ein. Der Einsatz solcher Technik wirft daher rechtliche und ethische Fragen auf, die sorgfältig abgewogen werden müssen.
Fazit
Computer Vision ist die Technik, mit der Computer Bilder und Videos auswerten und verstehen lernen. Auf Basis von Deep Learning erkennt sie Objekte, Gesichter, Text und ganze Szenen und ist heute aus Smartphones, Medizin, Industrie und Verkehr kaum noch wegzudenken. Bei allem Nutzen sollte man jedoch ihre Grenzen sowie die Fragen rund um Datenschutz und Fairness im Blick behalten.
Mehr zum Thema findest du in unserer Übersicht: Künstliche Intelligenz: Alle Artikel im Überblick.