Künstliche Intelligenz verwandelt Hirnaktivität in Sprache

Künstliche Intelligenz verwandelt Hirnaktivität in Sprache

Für viele Menschen, die gelähmt sind und nicht sprechen können, verbergen sich im Gehirn Signale dessen, was sie gerne sagen würden. Niemand war bisher in der Lage, diese Signale direkt zu entschlüsseln. Aber drei Forschungsteams haben kürzlich Fortschritte bei der Umwandlung von Daten von chirurgisch am Gehirn angebrachten Elektroden in computergenerierte Sprache gemacht. Mit Hilfe von Computermodellen, die als neuronale Netze bekannt sind, rekonstruierten sie Wörter und Sätze, die in einigen Fällen für menschliche Zuhörer verständlich waren.

Keine der Bemühungen, die in den letzten Monaten in Veröffentlichungen auf dem Preprint-Server bioRxiv beschrieben wurden, schaffte es, Sprache zu rekonstruieren, die sich die Menschen nur eingebildet hatten. Stattdessen überwachten die Forscher Teile des Gehirns, während die Menschen entweder laut vorlasen, mit leisem Mund sprechen oder Aufnahmen anhörten. Aber die rekonstruierte Sprache verständlich zu zeigen, sei „definitiv aufregend“, sagt Stephanie Martin, eine Neural-Ingenieurin an der Universität Genf in der Schweiz, die an den neuen Projekten nicht beteiligt war.

Menschen, die nach einem Schlaganfall oder einer Krankheit die Fähigkeit zu sprechen verloren haben, können ihre Augen benutzen oder andere kleine Bewegungen machen, um einen Cursor zu steuern oder Buchstaben auf dem Bildschirm auszuwählen. (Der Kosmologe Stephen Hawking spannte seine Wange an, um einen an seiner Brille angebrachten Schalter auszulösen). Aber wenn eine Schnittstelle zwischen Gehirn und Computer ihre Sprache direkt wiederherstellen könnte, könnten sie viel mehr zurückgewinnen: Kontrolle über Ton und Tonfall zum Beispiel oder die Fähigkeit, sich in ein sich schnell bewegendes Gespräch einzumischen.

Die Hürden sind hoch. „Wir versuchen, das Muster von … Neuronen zu berechnen, die sich zu verschiedenen Zeitpunkten ein- und ausschalten und auf den Sprachklang schließen“, sagt Nima Mesgarani, eine Informatiker an der Columbia University. „Die Zuordnung von einem zum anderen ist nicht sehr einfach.“ Wie diese Signale in Sprachlaute übersetzt werden, ist von Person zu Person unterschiedlich, weshalb Computermodelle an jedem Einzelnen „trainiert“ werden müssen. Und die Modelle kommen am besten mit extrem präzisen Daten aus, was ein Öffnen des Schädels erfordert.

Forscher können solche invasiven Aufnahmen nur in seltenen Fällen durchführen. Einer davon ist die Entfernung eines Hirntumors, wenn elektrische Messwerte aus dem exponierten Gehirn den Chirurgen helfen, wichtige Sprach- und Motorikbereiche zu lokalisieren und zu vermeiden. Ein anderer Fall ist, wenn einer Person mit Epilepsie für mehrere Tage Elektroden implantiert werden, um den Ursprung der Anfälle vor der chirurgischen Behandlung zu bestimmen. „Wir haben maximal 20, vielleicht 30 Minuten Zeit für die Datenerfassung“, sagt Martin. „Wir sind wirklich, wirklich begrenzt.“

Die Gruppen, die hinter den neuen Papieren stehen, machten das Beste aus den wertvollen Daten, indem sie die Informationen in neuronale Netzwerke einspeisten, die komplexe Muster verarbeiten, indem sie Informationen durch Schichten von Rechen-„Knoten“ leiten. Die Netzwerke lernen, indem sie die Verbindungen zwischen den Knoten anpassen. In den Experimenten wurden die Netzwerke Aufnahmen von Sprache, die eine Person produziert oder gehört hat, und Daten über die gleichzeitige Hirnaktivität ausgesetzt.

Mesgaranis Team stützte sich auf Daten von fünf Personen mit Epilepsie. Ihr Netzwerk analysierte Aufzeichnungen aus dem auditorischen Kortex (der sowohl beim Sprechen als auch beim Hören aktiv ist), während diese Patienten Aufzeichnungen von Geschichten und Personen hörten, die Ziffern von null bis neun benannten. Der Computer rekonstruierte dann allein aus den neuralen Daten gesprochene Zahlen; als der Computer die Zahlen „sprach“, benannte eine Gruppe von Zuhörern sie mit einer Genauigkeit von 75%.

Eine Computerrekonstruktion auf der Grundlage der Gehirnaktivität, die aufgezeichnet wurde, während eine Person gesprochene Zahlen hörte. H. AKBARI ET AL., DOI.ORG/10.1101/350124

Ein weiteres Team unter der Leitung der Informatikerin Tanja Schultz von der Universität Bremen stützte sich auf die Daten von sechs Personen, die sich einer Hirntumor-Operation unterzogen. Ein Mikrofon nahm ihre Stimmen auf, während sie einsilbige Wörter laut vorlasen. Währenddessen wurden Elektroden aus den Sprachplanungsgebieten und den motorischen Bereichen des Gehirns aufgezeichnet, die Befehle an den Stimmtrakt senden, um Wörter zu artikulieren. Die Informatiker Miguel Angrick und Christian Herff, die jetzt an der Universität Maastricht tätig sind, trainierten ein Netzwerk, das die Elektrodenablesungen auf die Audioaufnahmen abbildete und dann die Wörter aus zuvor ungesehenen Gehirndaten rekonstruierte. Nach einem computergestützten Bewertungssystem waren etwa 40% der computergenerierten Wörter verständlich.

Original-Audio von einem Studienteilnehmer, gefolgt von einer Computerrekonstruktion jedes Wortes, basierend auf der Aktivität in der Sprachplanung und den motorischen Bereichen des Gehirns. M. ANGRICK ET AL., DOI.ORG/10.1101/478644

Schließlich rekonstruierten der Neurochirurg Edward Chang und sein Team an der Universität von Kalifornien, San Francisco, ganze Sätze aus der Hirnaktivität, die bei drei Epilepsie-Patienten beim Vorlesen von Sprache und motorischen Bereichen aufgenommen wurden. In einem Online-Test hörten 166 Personen einen der Sätze und mussten ihn aus 10 schriftlichen Auswahlen auswählen. Einige Sätze wurden in mehr als 80% der Fälle korrekt identifiziert. Die Forscher trieben das Modell auch weiter voran: Sie benutzten es, um Sätze aus den aufgezeichneten Daten neu zu erstellen, während die Menschen schweigend Worte in den Mund nahmen. Das ist ein wichtiges Ergebnis, sagt Herff – „ein Schritt näher an die Sprachprothese, die wir alle im Sinn haben“.

Doch „Worauf wir wirklich warten, ist, wie sich [diese Methoden] auswirken werden, wenn die Patienten nicht sprechen können“, sagt Stephanie Riès, eine Neurowissenschaftlerin an der San Diego State University in Kalifornien, die die Sprachproduktion untersucht. Die Signale des Gehirns, wenn eine Person schweigend „spricht“ oder ihre Stimme im Kopf „hört“, sind nicht identisch mit Sprach- oder Hörsignalen. Ohne äußere Geräusche, die der Hirnaktivität entsprechen, kann es für einen Computer schwierig sein, selbst herauszufinden, wo die innere Sprache beginnt und endet.

Die Dekodierung imaginärer Sprache erfordert „einen gewaltigen Sprung“, sagt Gerwin Schalk, Neuroingenieur am National Center for Adaptive Neurotechnologies des New Yorker Gesundheitsministeriums in Albany. „Es ist wirklich unklar, wie man das überhaupt machen kann.“

Ein Ansatz, so Herff, könnte darin bestehen, dem Benutzer der Gehirn-Computer-Schnittstelle ein Feedback zu geben: Wenn er die Sprachdolmetschung des Computers in Echtzeit hören kann, kann er vielleicht seine Gedanken anpassen, um das gewünschte Ergebnis zu erhalten. Bei ausreichender Schulung sowohl der Benutzer als auch der neuronalen Netze könnten sich Gehirn und Computer in der Mitte treffen.

Quelle: Science

Auch ansehen

Van Bommel sieht Niederlande bei Entwicklung von Talenten vorne

Wolfsburg (dts Nachrichtenagentur) – Der neue Trainer des VfL Wolfsburg, Mark van Bommel, sieht die …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.