Prof. Dr. Michael Möller

Mithilfe von Künstlicher Intelligenz (KI) wird man künftig immer mehr Informationen aus Bilddaten herauslesen. Herkömmliche Kamerasensoren sind allerdings oft nicht optimal auf die Entwicklungen im Bereich KI abgestimmt. Im Projekt »Learning to Sense« entwickelt eine Forschungsgruppe aus sieben Arbeitsgruppen an der Universität Siegen jetzt erstmals beides gemeinsam: neuartige Bildsensoren und dazu passende KI-Software – für die Kameras, Scanner und Mikroskope der Zukunft.

Ganz gleich, wie hochwertig ein Smartphone oder ein Fotoapparat ist, kein Bildsensor kann es derzeit mit dem Auge aufnehmen, weil das Auge und die Bildverarbeitung im Gehirn eine Einheit bilden, die genial einfach funktioniert. Das fängt bei der Netzhaut an. Auf ihr sitzen Tausende von Sinneszellen, die unterschiedlich verteilt sind. Im Punkt des schärfsten Sehens finden sich dicht an dicht sehr viele kleine Sinneszellen. Entsprechend hoch ist die Bildauflösung, wenn wir Menschen einen Gegenstand fokussieren. Am Rand der Netzhaut sind die Sinneszellen größer und weniger dicht gepackt, dadurch ist hier das Bild weniger hoch aufgelöst. Bewegungen nehmen wir trotzdem noch sehr gut wahr.
Evolutionärer Vorteil: Peripheres Sehen
In der Frühzeit des Menschen war das eine Lebensversicherung. Unsere Vorfahren konnten angreifende Tiere rechtzeitig erkennen. Heute bewahrt uns das periphere Sehen davor, auf die Straße zu treten, wenn sich ein Auto nähert. Das Sinneszellen-Design der Netzhaut erleichtert die Verarbeitung der Bilddaten im Gehirn enorm. Da der Punkt des schärfsten Sehens sehr klein ist, muss das Gehirn nur wenige hochaufgelöste Daten verarbeiten. Die niedriger aufgelösten Informationen vom Rand der Netzhaut sind meist weniger wichtig und benötigen weniger Rechenaufwand.
Weniger Info ist mehr
Optische Bildsensoren sind bisher ganz anders aufgebaut. Ihre Sinneszellen, die Sensor-Pixel, sind in einem rechteckigen Raster stets im selben Abstand zueinander angeordnet. »Dieser Aufbau macht die automatische Bildauswertung heute in vielen Anwendungsgebieten immer schwieriger«, sagt Margret Keuper,Professorin für Machine Learning an der Universität Mannheim und Teilprojektleiterin der Forschungsgruppe »Learning to Sense«. Eine Vielzahl von Anwendungen, die mit einer fixen Kameraposition arbeiten, benötigen hochauflösende Daten lediglich in einem kleinen Bildausschnitt, obwohl ein größerer Kontext durchaus von Relevanz ist.
Diese Anwendungen würden von einem neuen Chipdesign sehr profitieren – zum Beispiel bei der Qualitätskontrolle in Fabriken oder bei der Verkehrsüberwachung in selbstfahrenden Autos. Das Problem bei einem herkömmlichen Megapixel-Chip besteht darin, dass er das gesamte Bild sehr hoch aufgelöst aufnimmt und damit eine riesige Menge an Bilddaten liefert, die eine Software dann verarbeiten muss. Und das, obwohl in den meisten Fällen nur ein kleiner Teil des Bildausschnitts relevant ist – etwa ein defektes Teil auf einem Fließband oder eine signifikante Veränderung in der Verkehrssituation.
Diese Datenflut wird heute zum Problem, weil bei der Bildauswertung immer komplexere Künstliche Intelligenz (KI) zum Einsatz kommt – insbesondere neuronale Netze, die Information in mehreren Schritten, in sogenannten Schichten, verarbeiten. Je mehr Bildinformation man in ein solches Netz gießt, desto größer ist der Rechenaufwand und desto länger dauert es, bis das neuronale Netz ein Ergebnis ausgibt. »Es ist eine Vielzahl von Anwendungen vorstellbar, bei denen Bildverarbeitungssysteme eine immense Effektivitätssteigerung erfahren würden, wenn die Sensoren auf eine unkonventionelle Weise so gestaltet würden, dass sie sich besser für die Datenverarbeitung der KI eignen«, sagt Michael Möller, Professor für Computer Vision und Sprecher der KI-Forschungsgruppe »Learning to Sense«.
Im Grunde seien beide Welten bisher voneinander getrennt gewesen: die Elektrotechnik, die die Bildsensoren nach klassischem Muster immer weiter optimiert habe, und die Informatik, die ihre ganz eigenen Werkzeuge entwickelt habe. Bis heute wurden diese Werkzeuge kaum je so entwickelt, dass sie auf die Bedürfnisse der jeweils anderen Disziplin abgestimmt wären. »In unserem Projekt »Learning to Sense« wollen wir jetzt diese Welten systematisch miteinander verschmelzen – die Entwicklung der Sensoren und die automatische Analyse der gewonnenen Daten«, sagt Michael Möller.
»Learning to Sense«

Gemeinsam mit Möller arbeiten am Projekt aus dem Fachgebiet der Informatik Prof. Dr. Volker Blanz. Prof. Dr. Andreas Kolb (beide Universität Siegen) und Prof.’in Dr. Margret Keuper (Universität Mannheim), sowie aus der Sensorik Prof. Dr. Bhaskar Choubey, Prof. Dr. Peter Haring Bolívar und Prof. Dr. Ivo Ihrke (alle Universität Siegen). »Gemeinsam mit unseren Doktorandinnen und Doktoranden wollen wir neue Sensorchips designen und perfekt darauf zugeschnittene Verfahren des maschinellen Lernens entwickeln«, erklärt Möller. Die sieben Arbeitsgruppen arbeiten gemeinsam an der Entwicklung neuer Techniken, mit denen einerseits die bildgebenden Systeme und zugleich die Ansätze der Datenanalyse durch Künstliche Intelligenz optimiert werden. Jenseits von konkreten Anwendungen ist der Hauptfokus des Projekts Grundlagenforschung zu leisten, damit das Design zukünftiger Sensorsysteme so »lernt«, wie Künstliche Intelligenz bereits heute »lernt«, unsere Welt zu verstehen.
Um dies zu erreichen, sollen die Ergebnisse der Gruppe auf drei Hauptfeldern erprobt und validiert werden: Zum einen das Feld der Terahertz-Bildgebung, einer Technik, bei der Lichtfrequenzen gemessen werden, die für das menschliche Auge unsichtbar sind. Mithilfe dieser Technologie können beispielsweise Defekte an Werkstücken sichtbar gemacht werden, die unter der Oberfläche verborgen liegen. Das zweite Feld beschäftigt sich mit 3-D-Mikroskopie, bei der beispielsweise die Beleuchtung so optimiert wird, dass die Zellgeometrie auf eine Weise dargestellt werden kann, die besonders in der Krebsforschung relevant ist. Das dritte Feld beschäftigt sich mit der Weiterentwicklung von CMOS-Sensoren für sichtbares Licht.
Neuronale Netze und andere KI-Software sind heute so komplex, dass selbst die Fachleute, die sie entwerfen, kaum nachvollziehen können, wie die Netze die Daten im Einzelnen analysieren. Die KI-Software wird mit Trainingsdaten gefüttert – etwa mit Bildern, die typische Schäden an Bauteilen zeigen. Das Neuronale Netz lernt mit der Zeit, wie Schäden aussehen. Sein Innenleben aber bleibt eine Black Box. Solange man Neuronale Netze mit herkömmlichen Bildinformationen füttert, die auch ein Mensch erkennt, kann man am Ende kontrollieren, ob das Neuronale Netz korrekt gearbeitet hat; ob ein Fehler, den die Software gefunden hat, tatsächlich ein Loch in einem Bauteil ist. Wenn man aber ganz neue Sensoren entwirft, die keine herkömmlichen Bildinformationen liefern, wird es schwierig. Neuronale Netze könnten dann ganz andere Bildmerkmale erlernen, etwa die Helligkeitsdifferenz zwischen benachbarten Pixeln, die wir Menschen nicht erkennen können. »Bei der Entwicklung unserer KI-Lösungen müssen wir daher sicherstellen, dass die Ergebnisse plausibel sind, dass die Algorithmen am Ende tatsächlich die gewünschte Information ausgeben«, sagt Margret Keuper.
Das Projekt »Learning to Sense« ist eins von acht renommierten Projekten, die von der Deutschen Forschungsgemeinschaft im Rahmen der KI-Initiative gefördert werden. Mit ihrem besonderen, auf Künstliche Intelligenz optimierten Design dürften sie die Bildverarbeitung ein gutes Stück voranbringen.
Dieser erschien zuerst im Forschungsmagazin Future der Universität Siegen:
Future 2023: Ich sehe was, was du nicht siehst (Autor: Tim Schröder)