Wie lernen neuronale Netze? Eine mathematische Formel erklärt, wie sie relevante Muster erkennen

Neuronale Netze haben zu Durchbrüchen in der künstlichen Intelligenz beigetragen, z. B. zu den großen Sprachmodellen, die heute in einer Vielzahl von Anwendungen eingesetzt werden, vom Finanzwesen über das Personalwesen bis hin zum Gesundheitswesen. Aber diese Netzwerke bleiben eine Blackbox, deren Innenleben Ingenieure und Wissenschaftler nur schwer verstehen können. Jetzt hat ein Team von Daten- und Computerwissenschaftlern an der University of California San Diego neuronale Netze geröntgt, um herauszufinden, wie sie eigentlich lernen.

„Wir versuchen, neuronale Netze von Grund auf zu verstehen“

Die Forscherinnen und Forscher fanden heraus, dass eine Formel aus der statistischen Analyse eine vereinfachte mathematische Beschreibung dafür liefert, wie neuronale Netze wie GPT-2, ein Vorläufer von ChatGPT, relevante Muster in Daten, so genannte Features, lernen. Diese Formel erklärt auch, wie neuronale Netze diese relevanten Muster nutzen, um Vorhersagen zu treffen.

„Wir versuchen, neuronale Netze von Grund auf zu verstehen“, sagt Daniel Beaglehole, Doktorand am UC San Diego Department of Computer Science and Engineering und Mitautor der Studie. „Mit unserer Formel kann man einfach interpretieren, welche Merkmale das Netz für seine Vorhersagen verwendet.

Das Team stellte seine Ergebnisse in der Ausgabe vom 7. März der Zeitschrift Science vor.

Warum ist das wichtig? KI-gestützte Tools sind heute im Alltag allgegenwärtig. Banken nutzen sie, um Kredite zu bewilligen. Krankenhäuser nutzen sie, um medizinische Daten wie Röntgenbilder und MRTs zu analysieren. Unternehmen nutzen sie, um Bewerber/innen zu prüfen. Derzeit ist es jedoch schwierig, die Mechanismen zu verstehen, mit denen neuronale Netze Entscheidungen treffen, und die Verzerrungen in den Trainingsdaten, die sich darauf auswirken könnten.

Wie lernen neuronale Netze?

„Wenn man nicht versteht, wie neuronale Netze lernen, ist es sehr schwer festzustellen, ob neuronale Netze zuverlässige, genaue und angemessene Antworten geben“, sagt Mikhail Belkin, korrespondierender Autor der Studie und Professor am UC San Diego Halicioglu Data Science Institute. „Dies ist besonders wichtig, da die Technologie des maschinellen Lernens und der neuronalen Netze in letzter Zeit rasant gewachsen ist“.

Die Studie ist Teil einer größeren Anstrengung von Belkins Forschungsgruppe, eine mathematische Theorie zu entwickeln, die erklärt, wie neuronale Netze funktionieren. „Die Technologie hat die Theorie weit hinter sich gelassen“, sagt er. „Wir müssen aufholen.“

Neuronale Netze sind computergestützte Werkzeuge, um Beziehungen zwischen Datenmerkmalen zu lernen

Das Team hat auch gezeigt, dass die statistische Formel, die sie verwendet haben, um zu verstehen, wie neuronale Netze lernen, bekannt als Average Gradient Outer Product (AGOP), dazu verwendet werden kann, die Leistung und Effizienz anderer Arten von maschinellen Lernarchitekturen zu verbessern, die keine neuronalen Netze beinhalten.

„Wenn wir die zugrundeliegenden Mechanismen verstehen, die neuronale Netze antreiben, sollten wir in der Lage sein, maschinelle Lernmodelle zu erstellen, die einfacher, effizienter und besser interpretierbar sind“, so Belkin. „Wir hoffen, dass dies zur Demokratisierung der KI beitragen wird.

Die maschinellen Lernsysteme, die Belkin sich vorstellt, würden weniger Rechenleistung und damit weniger Strom aus dem Netz benötigen, um zu funktionieren. Diese Systeme wären auch weniger komplex und daher leichter zu verstehen.

Die neuen Erkenntnisse werden anhand eines Beispiels veranschaulicht

(Künstliche) neuronale Netze sind computergestützte Werkzeuge, um Beziehungen zwischen Datenmerkmalen zu lernen (z. B. bestimmte Objekte oder Gesichter in einem Bild zu erkennen). Ein Beispiel für eine solche Aufgabe ist die Feststellung, ob eine Person auf einem neuen Bild eine Brille trägt oder nicht. Das maschinelle Lernen geht an dieses Problem heran, indem es dem neuronalen Netzwerk viele Beispielbilder (Trainingsbilder) liefert, die als Bilder von „einer Person mit Brille“ oder „einer Person ohne Brille“ gekennzeichnet sind. Das neuronale Netzwerk lernt die Beziehung zwischen den Bildern und ihren Bezeichnungen und extrahiert Datenmuster oder Merkmale, auf die es sich konzentrieren muss, um eine Entscheidung zu treffen. Einer der Gründe, warum KI-Systeme als Blackbox gelten, ist, dass es oft schwierig ist, mathematisch zu beschreiben, nach welchen Kriterien die Systeme ihre Vorhersagen treffen, einschließlich möglicher Verzerrungen. Die neue Arbeit liefert eine einfache mathematische Erklärung dafür, wie die Systeme diese Merkmale lernen.

Merkmale sind relevante Muster in den Daten. Im obigen Beispiel gibt es eine ganze Reihe von Merkmalen, die das neuronale Netz erlernt und dann verwendet, um festzustellen, ob eine Person auf einem Foto eine Brille trägt oder nicht. Ein Merkmal, auf das es bei dieser Aufgabe achten muss, ist der obere Teil des Gesichts. Andere Merkmale könnten das Auge oder der Nasenbereich sein, auf dem die Brille oft liegt. Das Netzwerk achtet selektiv auf die Merkmale, von denen es lernt, dass sie relevant sind, und verwirft dann die anderen Teile des Bildes, z. B. den unteren Teil des Gesichts, die Haare und so weiter.

Merkmalslernen ist die Fähigkeit, relevante Muster in Daten zu erkennen

Merkmalslernen ist die Fähigkeit, relevante Muster in Daten zu erkennen und diese Muster dann für Vorhersagen zu nutzen. Im Beispiel der Brille lernt das Netzwerk, auf den oberen Teil des Gesichts zu achten. In dem neuen Science Paper haben die Forscher/innen eine statistische Formel gefunden, die beschreibt, wie die neuronalen Netze Merkmale lernen.

Alternative neuronale Netzwerkarchitekturen: Die Forscherinnen und Forscher haben gezeigt, dass diese Formel in Computersystemen, die nicht auf neuronalen Netzen basieren, eingesetzt werden kann, damit diese Systeme schneller und effizienter lernen.

„Wie kann ich ignorieren, was nicht notwendig ist? Menschen sind gut darin“, sagt Belkin. „Maschinen machen das Gleiche. Große Sprachmodelle zum Beispiel implementieren diese ’selektive Aufmerksamkeit‘ und wir wussten bisher nicht, wie sie das machen. In unserem Science Paper stellen wir einen Mechanismus vor, der zumindest teilweise erklärt, wie die neuronalen Netze ’selektiv aufpassen‘.“

Materialien bereitgestellt von der University of California – San Diego