HOME
ABOUT
KI
BERATUNG
BLOG
Featured Posts

Was ist Computer Vision überhaupt?

November 21, 2018
Künstliche Intelligenz

Es ist offiziell: Maschinen die sehen (und fahren) können, sind jetzt unter uns. Waymo kündigte an, dass seine selbstfahrenden Autos auf der Straße in Arizona sind und das selbstfahrende Startup Embark hat autonome Lastwagen, die Waren von Texas nach LA transportieren. Die Computervision war ein Traum der 1950er Jahre (als die ernsthafte Forschung begann). Der KI-Pionier Marvin Minsky versuchte sie 1966 zum Erfolg zu führen, indem er einen Doktoranden sagte: „Schließen Sie eine Kamera an einen Computer an und lassen Sie sich beschreiben, was sie sieht“. Armer Kerl, 50 Jahre später und wir kratzen nur an der Oberfläche.

Warum war Computervision so eine hart zu knackende Nuss? Erstens, weil der Prozess einer der komplexesten ist, den wir je zu verstehen versucht haben. Zweitens, sind wir bis jetzt nicht in der Lage die Prozesse des Körpers im Ganzen zu verstehen.

Wie funktioniert dann Computer Vision überhaupt?

Indem wir den Prozess des “Sehens” in 3 Schlüsselaspekte zerlegen.

  • Visuelle Objekte wahrnehmen
  • Identifikation des Visuell wahrgenommenen
  • Kategorisierung der visuellen Eindrücke

„Sehen“ - was ist das wirklich?

Bevor wir einen Ball fangen können passiert folgendes in unserem Körper. Das Bild des Balles trifft auf unsere Netzhaut wo bereits einige vorläufige Analysen erfolgen. Danach wird das ganze ans Gehirn weitergeleitet. Die erste Station ist der visuelle Kortex, der das Bild genauer analysiert. Sobald es vom visuellen Kortex abgebaut wurde, vergleicht der Rest des Kortex das Bild mit allem was er bereits weiß. Dazu gehört die Klassifizierung der Objekte in Bild, Größe und Dimension, die Verarbeitung des Geschehens in den Kontext usw. bis das Gehirn über eine Vorgehensweise entscheidet: den Arm heben und den Ball fangen.

Aus Sicht der Informatik ist jeder dieser drei Prozesse eine große Herausforderung. Das Replizieren des Auges ist hart, das Replizieren des visuellen Kortex ist noch härter, und das Replizieren und Verstehen des bisherigen Verständnisses (d. h. des Kontextes) ist möglicherweise eine der komplexesten Aufgaben der wir uns je angenommen haben.


Mit der Nachbildung des Auges waren wir am erfolgreichsten. Kameras, Sensoren und Bildprozessoren haben das menschliche Auge nicht nur erreicht, sondern in vielerlei Hinsicht übertroffen. Wir können in deutlich verbesserten Abständen mit größerer Klarheit sehen, als wir es je für möglich gehalten haben. Sogar im Dunkeln oder bei anderen Lichtarten sehen, Kameras mittlerweile Dinge, die für das menschliche Auge nicht sichtbar sind. Mit immer größeren und besseren Objektiven kombiniert mit Subpixeln im Nanometerbereich können wir Tausende von Bildern pro Sekunde aufnehmen und mehr sehen als je zuvor.

Doch trotz der Qualität und Größe ihres Erzeugnisses können selbst die Teleskope, mit denen wir andere Galaxien beobachten, ohne Hilfe nicht sagen was für Bilder sie sehen. Es ist die Software hinter der Linse, welche die schwere Arbeit übernimmt.
Was ist in einem Bild?

Hierbei stellt sich nun die Frage: Wie fangen Entwickler an eine Software zu schreiben, die den visuellen Kortex repliziert? Die erste Herausforderung besteht darin, Objekte zu unterscheiden und Muster im desorganisierten Rauschen eines Bildes zu finden. Unser Gehirn erreicht dies durch Neuronen die sich gegenseitig aktivieren, wenn sie einen Kontrast entlang einer Linie oder eine schnelle Bewegung in eine bestimmte Richtung wahrnehmen. Die nächste Ebene der Netzwerke fügt diese kleinen Anomalien zu einem größeren Gesamtbild zusammen. Dieser Prozess wiederholt sich für Farben, Texturen, Bewegungen und Richtungen. Wenn mehr Informationen überlagert werden, beginnt sich ein Bild aus dem Durcheinander der komplementären Beschreibungen zu bilden.

Im Gehirn funktioniert das ganze sehr ähnlich.



Da wir nun die einzelnen Elemente eines Bildes verstehen können, stellt sich die nächste Frage: „Was ist das Objekt?“.

Den ersten Kontakt mit dieser Frage hatten Forscher während des Kalten Krieges. Einen Panzer identifizieren zu können entschied damals über Leben und Tod. Die ersten Schritte bestanden darin, dem Computer zu beschreiben wie ein Panzer normalerweise aussieht. Ein Panzer sieht “so” aus, bewegt sich “so”, außer man betrachtet ihn von dieser Seite wo er dann wiederum “so” aussieht. Wenn sich der Geschützturm dreht, sieht er jedoch eher “so” aus…
Sie merken, dass Ganze ist eine sehr Komplexe Aufgabe.


Für ausgewählte Objekte in kontrollierter Umgebung funktionierte dieser Brute-Force-Ansatz ganz gut. Das Problem ist, dass für ein skaliertes Arbeiten jedes Objekt aus jedem möglichen Blickwinkel betrachtet werden muss, wobei Variationen für Beleuchtung, Bewegung und alle anderen denkbaren Faktoren berücksichtigt werden müssen. Schnell wurde klar, dass die Daten die zur korrekten Identifizierung benötigt werden, unglaublich viel Speicherplatz verbrauchen.

Glücklicherweise hat sich der Bottom-up-Ansatz unseres Gehirns als praktischer erwiesen. Durch die Anwendung einer Reihe von Transformationsalgorithmen zum Erkennen von Kanten, zum Identifizieren von Objekten und zum Finden von Perspektiven und Bewegungen über mehrere Bilder hinweg können Computer trainiert werden, die Dinge so zu sehen, wie sie unser Gehirn wahrnimmt. Fortschritte in der KI und der Verarbeitung großer Datenmengen waren der Schlüssel, um das Niveau der komplexen Mathematik zu erreichen, das notwendig ist, um diese präzisen Aussagen machen zu können. Das Ergebnis hat die Bilderkennung Lichtjahre vorangebracht, sodass Computer Tausende von Objekten ziemlich genau erkennen können.

Verstehen und noch mehr:

Nun, da wir ein System haben das viele Varianten und Verhaltensweisen von Objekten aus verschiedenen Blickwinkeln und in vielen Situationen erkennen kann, kommen wir schließlich zu unserer größten Herausforderung: Computern beizubringen und verstehen zu geben, was sie sehen.
Nur weil Computer eine Banane in allen Situationen richtig identifizieren können, bedeutet das nicht, dass sie weiß was Bananen sind. Ob sie essbar sind oder ob sie aus tropischen Klimazonen stammen.

Bei der Lösung dieser Aufgabe treffen Spezialisten aus der Informatik, der allgemeinen KI, der Psychologie, der Neurowissenschaften und der Philosophie aufeinander. Sie versuchen den menschlichen Verstand auf einer funktionalen Ebene zu verstehen, um diese Systeme in Maschinen nachbilden zu können.

Doch unser Gehirn arbeitet auf eine Art und Weise, die wir kaum verstehen, es ist in einer Sprache kodiert, die wir noch nicht entschlüsseln können und basiert auf einem Netzwerk von Neuronen, welches Komplexer ist, als alles was wir je versucht haben nachzuvollziehen (außer vielleicht Teilchenphysik und Stringtheorie).

Im Moment machen wir jedoch unglaubliche Fortschritte in den Bereichen selbstfahrende Autos, Gesichtserkennung und sichere sowie effiziente Fabrikroboter. Barron’s schätzt, dass bis 2021 der Wert der Computervision für KI über 3 Milliarden Dollar liegen wird und weiterhin mit einer jährlichen Wachstumsrate von 30 % wächst. Das schafft einen großen Anreiz, die tieferen Probleme von Kontext und Intention anzugehen. Es ist noch ein langer Weg und die komplexesten Probleme liegen noch vor uns, aber angesichts des Umfangs dieser Aufgabe ist es unglaublich, dass wir bereits so weit gekommen sind. Das Kind, das dort spielt.

Related Posts