Prof. Dr. Michael Möller

Mithilfe von Künstlicher Intelligenz (KI) wird man künftig immer mehr Informationen aus Bilddaten herauslesen. Herkömmliche Kamerasensoren sind allerdings oft nicht optimal auf die Entwicklungen im Bereich KI abgestimmt. Im Projekt »Learning to Sense« entwickelt eine Forschungsgruppe aus sieben Arbeitsgruppen an der Universität Siegen jetzt erstmals beides gemeinsam: neuartige Bildsensoren und dazu passende KI-Software – für die Kameras, Scanner und Mikroskope der Zukunft

Ganz gleich, wie hochwertig ein Smartphone oder ein Fotoapparat ist, kein Bildsensor kann es derzeit mit dem Auge aufnehmen, weil das Auge und die Bildverarbeitung im Gehirn eine Einheit bilden, die genial einfach funktioniert. Das fängt bei der Netzhaut an. Auf ihr sitzen Tausende von Sinneszellen, die unterschiedlich verteilt sind. Im Punkt des schärfsten Sehens finden sich dicht an dicht sehr viele kleine Sinneszellen. Entsprechend hoch ist die Bildauflösung, wenn wir Menschen einen Gegenstand fokussieren. Am Rand der Netzhaut sind die Sinneszellen größer und weniger dicht gepackt, dadurch ist hier das Bild weniger hoch aufgelöst. Bewegungen nehmen wir trotzdem noch sehr gut wahr.

In der Frühzeit des Menschen war das eine Lebensversicherung. Unsere Vorfahren konnten angreifende Tiere rechtzeitig erkennen. Heute bewahrt uns das periphere Sehen davor, auf die Straße zu treten, wenn sich ein Auto nähert. Das Sinneszellen-Design der Netzhaut erleichtert die Verarbeitung der Bilddaten im Gehirn enorm. Da der Punkt des schärfsten Sehens sehr klein ist, muss das Gehirn nur wenige hochaufgelöste Daten verarbeiten. Die niedriger aufgelösten Informationen vom Rand der Netzhaut sind meist weniger wichtig und benötigen weniger Rechenaufwand.

Optische Bildsensoren sind bisher ganz anders aufgebaut. Ihre Sinneszellen, die Sensor-Pixel, sind in einem rechteckigen Raster stets im selben Abstand zueinander angeordnet. »Dieser Aufbau macht die automatische Bildauswertung heute in vielen Anwendungsgebieten immer schwieriger«, sagt Margret Keuper, Professorin für Visual Computing an der Universität Siegen. Eine Vielzahl von Anwendungen, die mit einer fixen Kameraposition arbeiten, benötigen hochauflösende Daten lediglich in einem kleinen Bildausschnitt, obwohl ein größerer Kontext durchaus von Relevanz ist.

Diese Anwendungen würden von einem neuen Chipdesign sehr profitieren – zum Beispiel bei der Qualitätskontrolle in Fabriken oder bei der Verkehrsüberwachung in selbstfahrenden Autos. Das Problem bei einem herkömmlichen Megapixel-Chip besteht darin, dass er das gesamte Bild sehr hoch aufgelöst aufnimmt und damit eine riesige Menge an Bilddaten liefert, die eine Software dann verarbeiten muss. Und das, obwohl in den meisten Fällen nur ein kleiner Teil des Bildausschnitts relevant ist – etwa ein defektes Teil auf einem Fließband oder eine signifikante Veränderung in der Verkehrssituation.

Diese Datenflut wird heute zum Problem, weil bei der Bildauswertung immer komplexere Künstliche Intelligenz (KI) zum Einsatz kommt – insbesondere neuronale Netze, die Information in mehreren Schritten, in sogenannten Schichten, verarbeiten. Je mehr Bildinformation man in ein solches Netz gießt, desto größer ist der Rechenaufwand und desto länger dauert es, bis das neuronale Netz ein Ergebnis ausgibt. »Es ist eine Vielzahl von Anwendungen vorstellbar, bei denen Bildverarbeitungssysteme eine immense Effektivitätssteigerung erfahren würden, wenn die Sensoren auf eine unkonventionelle Weise so gestaltet würden, dass sie sich besser für die Datenverarbeitung der KI eignen«, sagt Michael Möller, Professor für Computer Vision und Kollege von Margret Keuper.

Im Grunde seien beide Welten bisher voneinander getrennt gewesen: die Elektrotechnik, die die Bildsensoren nach klassischem Muster immer weiter optimiert habe, und die Informatik, die ihre ganz eigenen Werkzeuge entwickelt habe. Bis heute wurden diese Werkzeuge kaum je so entwickelt, dass sie auf die Bedürfnisse der jeweils anderen Disziplin abgestimmt wären. »In unserem Projekt »Learning to Sense« wollen wir jetzt diese Welten systematisch miteinander verschmelzen – die Entwicklung der Sensoren und die automatische Analyse der gewonnenen Daten«, sagt Michael Möller, der Sprecher des Projektes ist.

Gemeinsam mit Möller arbeiten am Projekt Prof.’in Dr. Margret Keuper, Prof. Dr. Volker Blanz und Prof. Dr. Andreas Kolb aus dem Fachgebiet der Informatik sowie Prof. Dr. Bhaskar Choubey, Prof. Dr. Peter Haring Bolívar und Prof. Dr. Ivo Ihrke aus der Sensorik der Universität Siegen. »Gemeinsam mit unseren Doktorandinnen und Doktoranden wollen wir neue Sensorchips designen und perfekt darauf zugeschnittene Verfahren des maschinellen Lernens entwickeln«, erklärt Möller. Die sieben Arbeitsgruppen arbeiten gemeinsam an der Entwicklung neuer Techniken, mit denen einerseits die bildgebenden Systeme und zugleich die Ansätze der Datenanalyse durch Künstliche Intelligenz optimiert werden. Jenseits von konkreten Anwendungen ist der Hauptfokus des Projekts Grundlagenforschung zur Möglichkeit, das Design zukünftiger Sensorsysteme so zu »lernen«, wie Künstliche Intelligenz bereits heute »lernt«, unsere Welt zu verstehen.

Um dies zu erreichen, sollen die Ergebnisse der Gruppe auf drei Hauptfeldern erprobt und validiert werden: Zum einen das Feld der Terahertz-Bildgebung, einer Technik, bei der Lichtfrequenzen gemessen werden, die für das menschliche Auge unsichtbar sind. Mithilfe dieser Technologie können beispielsweise Defekte an Werkstücken sichtbar gemacht werden, die unter der Oberfläche verborgen liegen.

Das zweite Feld beschäftigt sich mit 3-D-Mikroskopie, bei der beispielsweise die Beleuchtung so optimiert wird, dass die Zellgeometrie auf eine Weise dargestellt werden kann, die besonders in der Krebsforschung relevant ist. Das dritte Feld beschäftigt sich mit der Weiterentwicklung von CMOS-Sensoren für sichtbares Licht. Hierbei werden nicht mehr Werte für rotes, grünes und blaues Licht in gleich großen und gleichmäßig verteilten Pixeln aufgezeichnet, so dass z.B. auch in Anwendungen mit sehr schwierigen Beleuchtungssituationen Informationen extrahiert werden können.