banner
Heim / Blog / Neuronale Kodierung mit unbeaufsichtigtem Spiking-Faltungs-Neuronalen Netzwerk
Blog

Neuronale Kodierung mit unbeaufsichtigtem Spiking-Faltungs-Neuronalen Netzwerk

Dec 10, 2023Dec 10, 2023

Communications Biology Band 6, Artikelnummer: 880 (2023) Diesen Artikel zitieren

2 Altmetrisch

Details zu den Metriken

Die genaue Vorhersage der Gehirnreaktionen auf verschiedene Reize stellt eine große Herausforderung in den Neurowissenschaften dar. Trotz jüngster Durchbrüche bei der neuronalen Kodierung mithilfe von Convolutional Neural Networks (CNNs) in fMRT-Studien bestehen weiterhin kritische Lücken zwischen den Rechenregeln traditioneller künstlicher Neuronen und realer biologischer Neuronen. Um dieses Problem anzugehen, wird in dieser Studie ein auf CNN (SCNN) basierendes Spiking-Framework vorgestellt, um eine biologisch plausiblere neuronale Kodierung zu erreichen. Das Framework nutzt unbeaufsichtigtes SCNN, um visuelle Merkmale von Bildreizen zu extrahieren, und verwendet einen rezeptiven feldbasierten Regressionsalgorithmus, um fMRI-Antworten aus den SCNN-Merkmalen vorherzusagen. Experimentelle Ergebnisse zu handgeschriebenen Zeichen, handgeschriebenen Ziffern und natürlichen Bildern zeigen, dass der vorgeschlagene Ansatz eine bemerkenswert gute Kodierungsleistung erzielen und für „Gehirnlese“-Aufgaben wie Bildrekonstruktion und -identifizierung genutzt werden kann. Diese Arbeit legt nahe, dass SNN als vielversprechendes Werkzeug für die neuronale Kodierung dienen kann.

Das Ziel der neuronalen Kodierung besteht darin, die Reaktion des Gehirns auf äußere Reize vorherzusagen. Dies stellt ein wirksames Mittel zur Erforschung des Mechanismus des Gehirns zur Verarbeitung sensorischer Informationen dar und dient als Grundlage für Gehirn-Computer-Schnittstellensysteme (BCI). Die visuelle Wahrnehmung ist eine der wichtigsten Arten, wie wir externe Informationen empfangen, und war ein Hauptschwerpunkt der Forschung zur neuronalen Kodierung. Mit der Weiterentwicklung nicht-invasiver bildgebender Verfahren des Gehirns wie der funktionellen Magnetresonanztomographie (fMRT) haben Wissenschaftler in den letzten zwei Jahrzehnten bemerkenswerte Fortschritte bei der visionsbasierten neuronalen Kodierung1,2,3,4 gemacht, was sie zu einem heißen Thema in der Welt macht Neurowissenschaften.

Der Prozess der visionsbasierten Kodierung umfasst typischerweise zwei Hauptschritte: Merkmalsextraktion und Antwortvorhersage5. Ziel der Merkmalsextraktion ist es, visuelle Merkmale der Reize durch Stimulierung des visuellen Kortex zu erzeugen. Ein genauer Merkmalsextraktor, der reale visuelle Mechanismen annähert, ist für eine erfolgreiche Kodierung von entscheidender Bedeutung. Ziel der Reaktionsvorhersage ist es, voxelweise fMRT-Reaktionen basierend auf den extrahierten visuellen Merkmalen vorherzusagen. Für diesen Schritt wird üblicherweise die lineare Regression6 verwendet, da die Beziehung zwischen den Merkmalen und Antworten so einfach wie möglich sein sollte. Frühere Studien haben gezeigt, dass der frühe visuelle Kortex Informationen auf ähnliche Weise wie Gabor-Wavelets verarbeitet7,8,9. Aufbauend auf dieser Erkenntnis wurden auf Gabor-Filtern basierende Kodierungsmodelle vorgeschlagen und erfolgreich bei Aufgaben wie der Bildidentifizierung und der Filmrekonstruktion angewendet1,3. In den letzten Jahren haben Convolutional Neural Networks (CNNs) aufgrund ihrer beeindruckenden Erfolge im Bereich Computer Vision große Aufmerksamkeit erregt. In mehreren Studien10,11 wurde eine Repräsentationsähnlichkeitsanalyse12 verwendet, um die Unähnlichkeitsmuster von CNN- und fMRI-Darstellungen zu vergleichen. Dabei wurde festgestellt, dass der menschliche visuelle Kortex ähnliche hierarchische Darstellungen wie CNNs aufweist. Infolgedessen sind CNN-basierte Kodierungsmodelle weit verbreitet und haben eine hervorragende Leistung gezeigt2,4,13,14. Es ist jedoch wichtig zu beachten, dass trotz des Erfolgs von CNNs bei der Kodierung von Anwendungen die Unterschiede zwischen CNNs und dem Gehirn bei der Verarbeitung visueller Informationen nicht übersehen werden können15.

Hinsichtlich der Rechenmechanismen besteht ein grundlegender Unterschied zwischen den künstlichen Neuronen in CNNs und den biologischen Neuronen, wobei erstere kontinuierliche digitale Werte verbreiten, während letztere Aktionspotentiale (Spitzen) verbreiten. Die Einführung von Spiking Neural Networks (SNNs), die als dritte Generation neuronaler Netzwerke gelten16, hat diesen Unterschied deutlich verringert. Im Gegensatz zu herkömmlichen künstlichen neuronalen Netzen (ANNs) übertragen SNNs Informationen durch Spike-Timing. In SNNs integriert jedes Neuron Spitzen aus der vorherigen Schicht und sendet Spitzen an die nächste Schicht, wenn seine interne Spannung den Schwellenwert überschreitet. Der Spike-Timing-Dependent-Plasticity-Algorithmus (STDP)17,18, eine unbeaufsichtigte Methode zur Gewichtsaktualisierung, die im visuellen Kortex von Säugetieren entdeckt wurde19,20,21, ist der am häufigsten verwendete Lernalgorithmus für SNNs. Aktuelle Studien haben STDP-basierte SNNs auf die Objekterkennung angewendet und eine beachtliche Leistung erzielt22,23,24. Die biologische Plausibilität von SNNs verschafft ihnen einen Vorteil bei der neuronalen Kodierung.

In diesem Artikel wurde ein auf einem Spiking Convolutional Neural Network (SCNN) basierendes Codierungsframework vorgeschlagen, um die Lücke zwischen CNNs und dem realistischen visuellen System zu schließen. Der Kodierungsvorgang umfasste drei Schritte. Zunächst wurde ein SCNN mithilfe des STDP-Algorithmus trainiert, um die visuellen Merkmale der Bilder zu extrahieren. Zweitens wurden die Koordinaten des Empfangsfelds jedes Voxels in den SNN-Feature-Maps anhand der topologischen Eigenschaften der Netzhaut des visuellen Kortex annotiert, wobei jedes Voxel visuelle Eingaben von nur einem festen Ort der Feature-Map erhält. Drittens wurden für jedes Voxel lineare Regressionsmodelle erstellt, um deren Reaktionen anhand der entsprechenden SNN-Merkmale vorherzusagen. Das Framework wurde anhand von vier öffentlich verfügbaren Bild-fMRT-Datensätzen bewertet, darunter handgeschriebene Zeichen25, handgeschriebene Ziffern26, natürliche Graustufenbilder1 und farbenfrohe natürliche Bilddatensätze27. Zusätzlich wurden zwei nachgelagerte Dekodierungsaufgaben, nämlich Bildrekonstruktion und Bildidentifizierung, basierend auf den Kodierungsmodellen durchgeführt. Die Kodierungs- und Dekodierungsleistung der vorgeschlagenen Methode wurde mit der früherer Methoden verglichen.

Wir haben SCNN-basierte Kodierungsmodelle (siehe Abb. 1a) auf vier Bild-fMRT-Datensätzen erstellt und Bildrekonstruktions- und Bildidentifizierungsaufgaben basierend auf den vorab trainierten Kodierungsmodellen realisiert (siehe Abb. 1b, c). Tabelle 1 enthält die grundlegenden Informationen zu diesen Datensätzen. Einzelheiten finden Sie unter Methoden. Um die durch handgeschriebene Zeichen hervorgerufenen fMRT-Reaktionen vorherzusagen, wurde das SCNN zunächst unter Verwendung der Bilder im TICH-Datensatz erstellt (mit Ausschluss der Bilder im Testsatz und der Einbeziehung von 14.854 Bildern für die 6 Zeichen). Dies geschah, um die Darstellungsfähigkeit des SCNN zu maximieren. Anschließend wurden voxelweise lineare Regressionsmodelle mit den fMRT-Daten im Trainingssatz für jeden Teilnehmer trainiert. Die Codierungsleistung wurde mithilfe der Pearson-Korrelationskoeffizienten (PCC) zwischen den vorhergesagten und gemessenen Reaktionen auf die Testsatzbilder gemessen. Darüber hinaus wurde das vorgeschlagene Modell mit einem CNN-basierten Codierungsmodell verglichen, bei dem die Netzwerkarchitektur von CNN auf Konsistenz mit der von SCNN beschränkt war (Ergänzungstabelle 1). Das CNN wurde mit dem Adam-Optimierer28 mit einer Lernrate von 0,0001 für 50 Epochen auf dem TICH-Datensatz trainiert und erreichte eine Klassifizierungsgenauigkeit von 99 % auf den Bildern des Testsatzes. Die nachfolgenden Kodierungsverfahren für CNN waren identisch mit denen für SCNN. Um den Einfluss von Rauschvoxeln (unabhängig von der Sehaufgabe) auf das Ergebnis zu eliminieren, wurden für jeden Probanden 500 Voxel mit der höchsten Kodierungsleistung zum Vergleich ausgewählt. Abbildung 2a zeigt die Vorhersagegenauigkeiten für SCNN- und CNN-basierte Codierungsmodelle. Die Ergebnisse zeigen, dass die Genauigkeiten von SCNN bei allen drei Probanden deutlich höher waren als die von CNN (p < \({10}^{-18}\), einseitiger t-Test mit zwei Stichproben). Dieser Befund legt nahe, dass SCNN für Kodierungsaufgaben ein größeres Potenzial als CNN hat.

a Die Abbildung des Kodierungsmodells. Das vorgeschlagene Modell verwendet ein zweischichtiges SCNN, um visuelle Merkmale der Eingabebilder zu extrahieren, und verwendet lineare Regressionsmodelle, um die fMRT-Antworten für jedes Voxel vorherzusagen. b Das Diagramm für die Bildrekonstruktionsaufgabe, die darauf abzielt, die wahrgenommenen Bilder aus der Gehirnaktivität zu rekonstruieren. Die handgeschriebenen Zeichenbilder wurden mit Genehmigung aus dem TICH-Zeichendatensatz47 übernommen. c Das Diagramm für die Bildidentifikationsaufgabe, die darauf abzielt, anhand der fMRT-Antworten zu identifizieren, welches Bild wahrgenommen wird. Die natürlichen Graustufenbilder werden mit Genehmigung von Kay et al.1 reproduziert.

a Die Codierungsgenauigkeiten (n = 500) verschiedener Subjekte im handschriftlichen Zeichendatensatz. b Die mittleren Reizintensitäten im Zugsatz des handschriftlichen Zeichendatensatzes. c Die rezeptiven Feldpositionen der 100 vorhersehbarsten Voxel des handgeschriebenen Zeichendatensatzes. Eine kleinere Transparenz repräsentiert eine größere Anzahl von Voxeln. d Die Kodierungsgenauigkeiten (n = 500) des handschriftlichen Zifferndatensatzes. e Die Codierungsgenauigkeiten (n = 200) verschiedener visueller Bereiche im natürlichen Graustufenbilddatensatz. f Die Kodierungsgenauigkeiten (n = 500) und Rauschobergrenzen (Mittelwert ± Standardabweichung) verschiedener Motive im farbenfrohen natürlichen Bilddatensatz. Die Balkendiagramme stellen den Mittelwert ± SEM (Standardfehler des Mittelwerts) der Codierungsgenauigkeiten dar, und * steht für p < \({10}^{-12}\) für einen einseitigen t-Test mit zwei Stichproben.

Der Grad der Beteiligung eines Voxels an der Sehaufgabe ist ein entscheidender Faktor für seine Vorhersagbarkeit. Insbesondere wenn ein Voxel eine beträchtliche Menge an Reizinformationen empfängt, sind seine fMRT-Aktivitäten vorhersehbarer und umgekehrt. Um diese Hypothese zu validieren, haben wir die Verteilungen der Reizintensitäten und Voxel-Empfangsfelder visualisiert. Durch Annotieren des Empfangsfelds für jedes Voxel durch dreifache Kreuzvalidierung der Zugsatzdaten wurden die obersten 100 Voxel mit dem höchsten \({R}^{2}\) jedes Teilnehmers für die Analyse ausgewählt. Die mittleren Reizintensitäten des Zugsatzes und die Empfangsfelder der ausgewählten Voxel sind in Abb. 2b, c dargestellt. Ihre räumlichen Verteilungsmuster, die in etwa den Gaußschen Verteilungen entlang der x-Achse und gleichmäßigen Verteilungen entlang der y-Achse folgten, erwiesen sich als recht ähnlich. Dies deutet darauf hin, dass sich die Empfangsfelder dieser informativen Voxel tendenziell in Bereichen mit höherer Reizintensität befanden. Dieser Befund liefert einen weiteren Beweis für die Wirksamkeit des in dieser Studie verwendeten rezeptiven feldbasierten Merkmalsauswahlalgorithmus.

Um die Codierungsleistung des vorgeschlagenen Ansatzes für handgeschriebene Ziffernstimuli zu überprüfen, haben wir das SCNN anhand von 2000 früheren Bildern trainiert, die im fMRI-Experiment nicht verwendet wurden. Anschließend wurden auf dem Zugsatz dieses Datensatzes voxelweise Codierungsmodelle erstellt. In ähnlicher Weise wurden CNN-basierte Codierungsmodelle auf dem handgeschriebenen Zifferndatensatz erstellt und die 500 Voxel mit der höchsten Codierungsleistung zum Vergleich ausgewählt. Die Codierungsergebnisse sind in Abb. 2d dargestellt und die Ergebnisse zeigen, dass die Codierungsgenauigkeiten von SCNN deutlich höher waren als die von CNN (\({{{{{\rm{p}}}}}}=6,78\times { 10}^{-18}\, einseitiger t-Test bei zwei Stichproben).

Im Vergleich zu handgeschriebenen Zeichen und Ziffernbildern sind natürliche Bilder komplexer und ähneln stark unseren alltäglichen visuellen Erfahrungen. Um die Machbarkeit des vorgeschlagenen Ansatzes zur Kodierung natürlicher Bildreize zu beurteilen, haben wir das Kodierungsmodell anhand von Graustufen- und Farbdatensätzen natürlicher Bilder trainiert und getestet. Die zur Kodierung verwendeten SCNNs wurden auf den Zugsatzbildern dieser Datensätze trainiert.

Für den natürlichen Graustufenbilddatensatz ist die Verwendung aufgabenoptimierter CNN-basierter Kodierungsmodelle aufgrund des Fehlens von Kategoriebezeichnungen in den visuellen Reizen nicht möglich. Es wurde ein Vergleich zwischen unserem Ansatz und dem von Kay et al.1 vorgeschlagenen Gabor-Wavelet-Pyramide-Modell (GWP) sowie dem gehirnoptimierten CNN (GNet)13,29 durchgeführt. Anstatt die Eingabebilder zu klassifizieren, wurde das CNN in GNet darauf trainiert, die fMRT-Antworten durchgängig vorherzusagen. Die Architektur von GNet finden Sie in der Ergänzungstabelle 2. Unabhängig davon haben wir das GNet für jeden visuellen Bereich in jedem Fach trainiert (insgesamt wurden 6 Modelle trainiert). An diesem Datensatz wurde eine Analyse der Regions of Interest (ROI) durchgeführt, und für jeden visuellen Bereich wurden 200 Voxel mit der höchsten Kodierungsleistung (100 für jedes Subjekt) zum Vergleich ausgewählt. Die Codierungsergebnisse sind in Abb. 2e dargestellt. Es wurde beobachtet, dass die Codierungsgenauigkeiten von V3 geringer waren als die von V1 und V2, was möglicherweise auf das geringere Signal-Rausch-Verhältnis1 zurückzuführen ist. Es wurden signifikante Unterschiede zwischen den Genauigkeiten von SCNN und GWP (p < \({10}^{-24}\), einseitiger t-Test mit zwei Stichproben) für alle visuellen Bereiche beobachtet, wobei es keinen signifikanten Unterschied zwischen SCNN und GNet gab (p > 0,12, zweiseitiger t-Test bei zwei Stichproben) für V2 und V3. Für den farbenfrohen natürlichen Bilddatensatz haben wir die Kodierungsleistung von SCNN mit CNN und GWP verglichen und für jedes Subjekt 500 Voxel mit der höchsten Kodierungsleistung zum Vergleich ausgewählt. Wie in Abb. 2f dargestellt, waren die Genauigkeiten von SCNN für alle Probanden deutlich höher als die von CNN (p < \({10}^{-36}\), einseitiger t-Test mit zwei Stichproben). Darüber hinaus zeigte SCNN vergleichbare Ergebnisse wie GNet für Subjekt1 (SCNN höher als GNet, \({{{{{\rm{p}}}}}}=1,58\times {10}^{-19}\), ein- zweiseitiger t-Test bei zwei Stichproben) und Subjekt4 (kein signifikanter Unterschied, p = 0,725, zweiseitiger t-Test bei zwei Stichproben).

Im Allgemeinen deuten die Codierungsergebnisse der natürlichen Bilddatensätze darauf hin, dass das unbeaufsichtigte SCNN-basierte Codierungsmodell herkömmliche GWP- und CNN-basierte Modelle übertrifft und sogar eine vergleichbare Leistung mit neuronalen Netzen erzielen kann, die mit der Gehirnreaktion als Ziel optimiert sind.

Die Bildrekonstruktionsaufgabe zielt darauf ab, die vom Teilnehmer wahrgenommenen Bilder aus den fMRT-Antworten zu rekonstruieren. Basierend auf den vorab trainierten Kodierungsmodellen haben wir diese Aufgabe mit handgeschriebenen Zeichen, handgeschriebenen Ziffern und farbenfrohen natürlichen Bilddatensätzen gelöst. Der vorherige Bildsatz für den handschriftlichen Zeichendatensatz bestand aus den Bildern von sechs Zeichen im TICH-Datensatz (mit Ausnahme der Testsatzbilder). Für den handschriftlichen Zifferndatensatz umfasste der vorherige Bildsatz 2000 frühere handschriftliche 6er- und 9er-Bilder. Die Bilder im Validierungssatz von ImageNet wurden als vorheriger Bildsatz für den farbenfrohen natürlichen Bilddatensatz verwendet. Bemerkenswert ist, dass für diese Aufgabe nur 200 aus den Zugsatzdaten ausgewählte Voxel verwendet wurden. Um jedes Bild im Testsatz zu rekonstruieren, wurden die 15 besten Bilder des vorherigen Bildsatzes mit der höchsten Wahrscheinlichkeit für beobachtete Reaktionen gemittelt, was zum rekonstruierten Bild führte.

Die Rekonstruktionsergebnisse des handgeschriebenen Zeichendatensatzes zeigten, dass unsere Rekonstruktionen verschiedene Zeichen effektiv unterscheiden und Bilder rekonstruieren können, die zu demselben Zeichen mit unterschiedlichen Schreibstilen gehören (siehe Abb. 3a, b). In ähnlicher Weise lieferte unser Ansatz vielversprechende Rekonstruktionsergebnisse für den handgeschriebenen Zifferndatensatz (siehe Abb. 3c). Die Rekonstruktionsergebnisse des farbenfrohen natürlichen Bilddatensatzes sind in Abb. 3d dargestellt. Obwohl unser Modell nur Graustufenbilder verarbeiten kann, was zum Verlust von Farbinformationen in den Rekonstruktionsergebnissen führte, behielten die Rekonstruktionen die Strukturinformationen wie Form und Position der ursprünglichen Reize bei. Darüber hinaus stellten wir fest, dass die vorherigen Bilder mit der höchsten Wahrscheinlichkeit große strukturelle Ähnlichkeiten mit den realen Reizen aufwiesen (siehe Abb. 3e). Die Rekonstruktionsergebnisse wurden mithilfe von PCC und Structural Similarity Index (SSIM)30 quantitativ ausgewertet und mit anderen Benchmark-Methoden verglichen, darunter CNN, GNet, SMLR31, DCCAE32, DGMM+33 und Denoiser GAN34. Wie in Tabelle 2 dargestellt, erzielte unser Ansatz im Vergleich zu diesen Methoden eine konkurrenzfähige oder überlegene Leistung.

a Die Rekonstruktionen verschiedener handgeschriebener Zeichen (B, R, A, I, N und S). Die Bilder in der ersten Reihe sind die präsentierten Bilder (Grundwahrheit), und die Bilder in der zweiten bis vierten Reihe sind die Rekonstruktionsergebnisse der drei Probanden. b Die Rekonstruktionen desselben Charakters mit unterschiedlichen Schreibstilen. c Die Rekonstruktionen handschriftlicher Ziffern. Die handschriftlichen Ziffernbilder wurden mit Genehmigung aus der MNIST-Datenbank (http://yann.lecun.com/exdb/mnist/) übernommen. d Die Rekonstruktionen natürlicher Bilder. e Beispiele früherer Bilder mit der höchsten Wahrscheinlichkeit der farbenfrohen natürlichen Bilddatensätze. Die farbenfrohen natürlichen Bilder in d und e wurden mit Genehmigung aus der ImageNet-Datenbank52 übernommen.

Die Bildidentifizierungsaufgabe zielt darauf ab, das vom Teilnehmer gesehene Bild anhand der fMRT-Antworten zu identifizieren. Diese Aufgabe wurde anhand des natürlichen Graustufenbilddatensatzes durchgeführt. Das Kodierungsmodell wurde verwendet, um vorhergesagte fMRT-Antworten für alle Bilder im Testsatz zu generieren. Die von den Teilnehmern wahrgenommenen Bilder wurden identifiziert, indem die gemessenen Antworten mit den vorhergesagten Antworten abgeglichen wurden. Laut einer früheren Studie1 wurden für diese Aufgabe 500 Voxel mit der höchsten Vorhersagekraft eingesetzt. Unser Ansatz erreichte Identifikationsgenauigkeiten von 96,67 % (116/120) bzw. 90,83 % (109/120) für die beiden Teilnehmer, die höher waren als die des GWP-Modells (92 % bzw. 72 %) und des GNet-Modells (90 % bzw. 120). 73,33 %). Die Korrelationskarten zwischen gemessenen und vorhergesagten Antworten für die beiden Teilnehmer sind in Abb. 4 dargestellt. Bei den meisten Zeilen in den Korrelationskarten waren die Elemente auf der Diagonale deutlich größer als die anderen, was darauf hinweist, dass unser Ansatz eine hervorragende Identifizierungsfähigkeit aufwies.

Die Korrelationskarten der gemessenen und vorhergesagten fMRT-Antworten auf Testsatzbilder für die beiden Teilnehmer. Das Element in der Spalte \({m}_{{th}}\) und der Zeile \({n}_{{th}}\) stellt die Korrelation zwischen der gemessenen fMRT-Reaktion für die \({m}_{ {th}}\)-Bild und die vorhergesagte fMRT-Reaktion für das \({n}_{{th}}\)-Bild.

Die Auswahl von Hyperparametern wirkt sich direkt auf die Leistung nachgelagerter Dekodierungsaufgaben aus. Um den Einfluss von Hyperparametern auf die Bildrekonstruktionsaufgabe zu bewerten, haben wir die Rekonstruktionsleistung mit zwei Hyperparametern untersucht: der Anzahl ausgewählter Voxel und der Anzahl gemittelter Bilder. Insbesondere untersuchten wir die Rekonstruktionsleistung anhand von 50, 100, 200 und 500 Voxeln und 1, 5, 10, 15, 20, 25 und 30 Bildern im handschriftlichen Zeichendatensatz. Wie in Abb. 5a dargestellt, stieg der PCC-Index mit der Anzahl der Bilder und erreichte seinen Höhepunkt bei der Voxelzahl von 200. Umgekehrt nahm der SSIM-Index mit zunehmender Anzahl der Bilder ab und erreichte seinen Höhepunkt bei der Voxelzahl von 200 und 500. Eine größere Anzahl von Voxeln enthielt mehr Reizinformationen, verursachte aber auch mehr Rauschen. Ebenso machte eine größere Anzahl von Bildern die Rekonstruktion realistischer, verwischte jedoch auch die Rekonstruktion. Um den Einfluss von Hyperparametern auf die Bildidentifikationsaufgabe zu bewerten, haben wir die Identifikationsgenauigkeiten mit 100, 500, 1000 und 2000 Voxeln untersucht. Wie in Abb. 5b dargestellt, erreichte unser Ansatz die höchsten Genauigkeiten, wenn 500 Voxel verwendet wurden.

a Die Rekonstruktionsleistung (PCC und SSIM) verschiedener Hyperparameter (Anzahl ausgewählter Voxel und Anzahl gemittelter Bilder) im handschriftlichen Zeichendatensatz, die Punkte stellen Mittelwerte dar und die Fehlerbalken stellen 95 %-Konfidenzintervalle dar. b Die Identifikationsgenauigkeiten bei unterschiedlicher Anzahl von Voxeln für die beiden Subjekte im natürlichen Graustufenbilddatensatz.

Im vorgeschlagenen Kodierungsmodell wurde das unbeaufsichtigte SCNN verwendet, um Merkmale der visuellen Reize zu extrahieren, und der Trainingsprozess des SCNN wurde durch seine Anfangswerte beeinflusst. Um den Einfluss von Anfangswerten auf die Codierungsleistung zu untersuchen, haben wir ein anderes SCNN mit unterschiedlichen Anfangswerten auf dem natürlichen Graustufenbilddatensatz trainiert und seine Codierungsleistung mit dem Original verglichen. Für jedes Subjekt wurden die 500 besten Voxel mit der höchsten Kodierungsleistung zum Vergleich ausgewählt, und es wurden keine signifikanten Unterschiede zwischen den beiden Kodierungsergebnissen beobachtet (Subjekt 1: p = 0,1, Subjekt 2: p = 0,47, zweiseitige t-Probe mit zwei Stichproben). prüfen).

In dieser Arbeit wurde ein auf SCNN basierendes Kodierungsmodell für die visuelle Wahrnehmung vorgeschlagen, das den SCNN-Merkmalsextraktor und voxelweise Antwortprädiktoren umfasst. Im Gegensatz zu herkömmlichen Gabor- und CNN-basierten Methoden, die eine Realwertberechnung nutzen, nutzte das vorgeschlagene Modell Spike-gesteuertes SCNN, um visuelle Informationen auf biologisch plausiblere Weise zu verarbeiten. Das Modell zeigte bemerkenswerte Erfolge bei der Vorhersage der durch handgeschriebene Zeichen, handgeschriebene Ziffern und natürliche Bilder hervorgerufenen Gehirnaktivität, wobei ein einfaches zweischichtiges, unbeaufsichtigtes SCNN und vier öffentlich verfügbare Datensätze als Testumgebung verwendet wurden. Darüber hinaus wurden mit unseren Kodierungsmodellen vielversprechende Ergebnisse bei Bildrekonstruktions- und Identifizierungsaufgaben erzielt, was auf das Potenzial des Modells bei der Bewältigung praktischer Gehirnleseprobleme schließen lässt.

Neuronale Kodierung kann Modelle der künstlichen Intelligenz und das menschliche Gehirn verbinden. Durch die Erstellung einer linearen Zuordnung von Modellmerkmalen zur Gehirnaktivität kann die Ähnlichkeit der Informationsverarbeitung zwischen Modell und Gehirn quantitativ bewertet werden. Daher ist es vernünftig anzunehmen, dass ein Modell mit hoher biologischer Plausibilität mit größerer Wahrscheinlichkeit eine überlegene Kodierungsleistung erzielt. Vor diesem Hintergrund haben wir ein SCNN-basiertes Kodierungsmodell entwickelt, um Gehirnreaktionen vorherzusagen, die durch verschiedene visuelle Eingaben hervorgerufen werden. Die SCNN-Architektur kombiniert die Netzwerkstruktur von CNN, die sich nachweislich für die neuronale Kodierung2,4,13,14 als effektiv erwiesen hat, mit den Rechenregeln von SNN, die biologisch realistischer sind. Um aussagekräftige visuelle Merkmale zu extrahieren, verwendeten wir ein SCNN, das aus einer DoG-Schicht und einer Faltungsschicht besteht, die die Informationsverarbeitung in der Netzhaut bzw. im visuellen Kortex simulieren. Unser Modell übertraf andere Benchmark-Methoden (Gabor- und CNN-basierte Kodierungsmodelle) hinsichtlich der Kodierungsleistung bei experimentellen Daten und unterstreicht die Überlegenheit von SCNN bei der Kodierung der visuellen Wahrnehmung.

Trotz seiner biologischen Plausibilität simuliert SCNN die Informationsverarbeitung auf der Ebene einzelner Neuronen, während fMRI die Gehirnaktivität in großem Maßstab misst, wobei das Signal jedes Voxels die gemeinsame Aktivität einer großen Anzahl von Neuronen darstellt. Daher sind Regressionsmodelle für die Kodierung auf Voxelebene von entscheidender Bedeutung, da sie die Aktivierungen mehrerer SCNN-Neuronen den Reaktionen einzelner Voxel zuordnen. Frühere Studien haben die Eigenschaften des neuronalen Populationsrezeptionsfelds35,36 von fMRT-Daten gezeigt, was darauf hindeutet, dass jedes Voxel im visuellen Kortex (insbesondere in V1–3) nur visuelle Eingaben aus einem festen Bereich des Gesichtsfelds erhält. Basierend auf dieser Theorie verwendeten wir einen Merkmalsauswahlalgorithmus, der die Position des Empfangsfelds für jedes Voxel anpasste, was besser mit dem tatsächlichen visuellen Mechanismus übereinstimmte und das Risiko einer Überanpassung verringerte.

Die Frage, ob das Gehirn unter überwachten oder unbeaufsichtigten Bedingungen funktioniert, ist Gegenstand von Debatten. Anstatt überwachte CNNs zu verwenden, verwendeten wir in unserem Modell ein unbeaufsichtigtes SCNN, das über STDP trainiert wurde. Die Ergebnisse dieser Studie legen nahe, dass die frühen visuellen Bereiche des visuellen Kortex eher dazu neigen, visuelle Darstellungen unbeaufsichtigt zu erfassen. Darüber hinaus bietet das STDP-basierte SCNN mehrere Vorteile im Hinblick auf die neuronale Kodierung. Erstens ist es aufgrund der bioinspirierten Natur von STDP als Lernregel biologisch plausibel. Zweitens ist es in der Lage, sowohl gekennzeichnete als auch unbeschriftete Daten zu verarbeiten. Schließlich eignet es sich besonders gut für kleine Stichprobendatensätze, wie sie beispielsweise über fMRT gewonnen werden.

Die Realisierung neuronaler Dekodierungsaufgaben dient als Grundlage für zahlreiche Gehirnleseanwendungen, wie z. B. BCI37. Es gibt zwei Arten von Decodierungsmodellen: solche, die von Codierungsmodellen abgeleitet sind, und solche, die direkt durchgängig erstellt wurden. Ersteres bietet Funktionsbeschreibungen auf Voxelebene und erledigt gleichzeitig Dekodierungsaufgaben5. Die jüngsten Durchbrüche bei der Dekodierung wurden jedoch hauptsächlich mit den letztgenannten Modellen erzielt33,38,39. In dieser Studie haben wir nachgelagerte Dekodierungsaufgaben, einschließlich Bildrekonstruktion und -identifizierung, basierend auf dem Kodierungsmodell erfolgreich abgeschlossen. Die Ergebnisse zeigen, dass unser Ansatz bei beiden Dekodierungsaufgaben andere End-to-End-Modelle übertraf. Dieser Befund bestätigt die Wirksamkeit unseres Kodierungsmodells und legt nahe, dass kodierungsbasierte Ansätze ein erhebliches Potenzial für die Lösung von Dekodierungsaufgaben bergen.

Trotz der Fortschritte bei der neuronalen Kodierung mithilfe von SCNN bestehen weiterhin einige Einschränkungen. Erstens sind die Architekturen von SNNs typischerweise flacher als die von Deep-Learning-Netzwerken, was ihre Fähigkeit einschränkt, komplexe und hierarchische visuelle Merkmale zu extrahieren. Neuere Studien haben versucht, dieses Problem anzugehen und haben einige Fortschritte erzielt23,24,40. Die Einbeziehung eines tieferen SCNN in unser Modell würde die Kodierungsleistung weiter verbessern und die Untersuchung der hierarchischen Struktur des visuellen Kortex ermöglichen. Zweitens ist das in unserer Studie verwendete Integrate-and-Fire-Neuron eine Vereinfachung biologischer Neuronen. Die Verwendung realistischerer Neuronen wie Leaky Integrate-and-Fire- und Hodgkin-Huxley-Neuronen41 würde die biologische Plausibilität unseres Kodierungsmodells weiter verbessern. Drittens wurden die Parameter von STDP und Netzwerkarchitektur aus früheren Arbeiten ausgewählt23,24, und die Auswirkungen verschiedener Parameter auf die Codierungsleistung müssen weiter untersucht werden.

Zusammenfassend stellt diese Arbeit ein leistungsstarkes Werkzeug für die neuronale Kodierung dar. Einerseits kombinierten wir die Struktur von CNNs und die Berechnungsregeln von SNNs, um das visuelle System zu modellieren, und konstruierten voxelweise Kodierungsmodelle basierend auf dem Empfangsfeldmechanismus. Andererseits haben wir gezeigt, dass unser Modell zur Durchführung praktischer Dekodierungsaufgaben wie Bildrekonstruktion und -identifizierung verwendet werden kann. Wir gehen davon aus, dass SCNN-basierte Kodierungsmodelle wertvolle Einblicke in den visuellen Mechanismus liefern und zur Lösung von BCI- und Computer-Vision-Aufgaben beitragen werden. Darüber hinaus planen wir, die Verwendung von SNNs in Zukunft auf die Kodierung von Aufgaben anderer kognitiver Funktionen (z. B. Vorstellungskraft und Gedächtnis) auszudehnen.

In dieser Studie wurde ein SCNN-basiertes Kodierungsmodell vorgeschlagen, um fMRI-Aktivitäten vorherzusagen, die durch eingegebene visuelle Reize hervorgerufen werden. Das Kodierungsmodell bestand aus voxelweisen Regressionsmodellen und einem SCNN-Merkmalsextraktor. Ursprünglich wurde das unbeaufsichtigte SCNN verwendet, um die Stimulusmerkmale für jedes Eingabebild zu extrahieren. Anschließend wurden lineare Regressionsmodelle erstellt, um die SCNN-Merkmale in fMRT-Antworten zu projizieren. Die Architektur des Kodierungsmodells ist in Abb. 1a dargestellt.

Um Reizmerkmale zu extrahieren, wurde in dieser Studie ein einfaches zweischichtiges SCNN verwendet. Die erste Schicht, bekannt als „Difference of Gaussians“ (DoG)-Schicht, wurde entwickelt, um die neuronale Verarbeitung in retinalen Ganglienzellen zu emulieren42,43. Die Parametereinstellungen für diese Ebene basierten auf früheren Untersuchungen23,24. Sowohl für handgeschriebene Zeichen als auch für natürliche Bilder wurde jedes Eingabebild einer Faltung mit sechs DoG-Filtern ohne Auffüllung unterzogen. ON- und OFF-Center-DoG-Filter mit den Größen \(3\times 3\), \(7\times 7\) und \(13\times 13\) und Standardabweichungen von \((3/9, \,6/9)\), \((7/9,\,14/9)\) und \((13/9,\,26/9)\) wurden verwendet. Die Polstergröße wurde für diese Studie auf 6 eingestellt. Für handgeschriebene Ziffern wurde jedes Eingabebild mit zwei DoG-Filtern ohne Auffüllung faltet. Es wurden ON- und OFF-Center-DoG-Filter mit einer Größe von \(7\times 7\) und Standardabweichungen von \((1,\,2)\) verwendet. Die Füllgröße wurde auf 3 eingestellt. Anschließend wurden DoG-Merkmale mithilfe der Intensität-zu-Latenz-Kodierung44 mit einer Länge von 30 in Spitzenwellen umgewandelt. Insbesondere wurden DoG-Merkmalswerte größer als 50 in absteigender Reihenfolge sortiert und gleichmäßig auf 30 Bins verteilt erzeugen die Spitzenwellen. Vor der Weitergabe an die nächste Ebene wurden die Ausgabespitzen einem maximalen Pooling mit einer Fenstergröße von \(2\times 2\) und einem Schritt von 2 unterzogen.

Die zweite Schicht des SCNN entspricht der Faltungsschicht, die den Informationsintegrationsmechanismus des visuellen Kortex nachahmen soll. In dieser Schicht wurden 64 Faltungskerne bestehend aus Integrate-and-Fire (IF)-Neuronen verwendet, um die Eingabespitzen zu verarbeiten. Die Fenstergröße der Faltungskerne betrug 5×5 und die Polstergröße betrug 2. Jedes IF-Neuron sammelte Eingabespitzen aus seinem Empfangsfeld und sendete eine Spitze aus, wenn seine Spannung den Schwellenwert erreichte. Dies lässt sich mathematisch wie folgt ausdrücken:

wobei \({v}_{i}\left(t\right)\) die Spannung des \({i}_{{th}}\) IF-Neurons im Zeitschritt t darstellt, während \({w} _{{ij}}\) bezeichnet das synaptische Gewicht zwischen dem \({i}_{{th}}\)-Neuron und den \({j}_{{th}}\)-Eingabespitzen im Empfangsfeld des Neurons . Der Auslöseschwellenwert, der mit \({v}_{{th}}\) bezeichnet wird, ist auf 10 festgelegt. Für jedes Bild dürfen Neuronen maximal einmal feuern. Der Hemmungsmechanismus wird in der Faltungsschicht eingesetzt und ermöglicht nur dem Neuron mit der frühesten Spike-Zeit, an jeder Position in den Feature-Maps zu feuern. Synaptische Gewichte werden durch Spike-Timing-Dependent Plasticity (STDP) aktualisiert, die wie folgt ausgedrückt werden kann:

wobei \(\Delta {w}_{{ij}}\) die Gewichtsänderung bezeichnet, \({a}^{+}\) und \({a}^{-}\) die Lernraten darstellen (set bei 0,004 bzw. −0,003)23 und \({t}_{i}\) und \({t}_{j}\) geben die Spitzenzeiten des \({i}_{{th} }\) Neuron bzw. \({j}_{{th}}\) Eingabespitzen. Die Lernkonvergenz, wie sie von Kheradpisheh et al.23 definiert wurde, wird mithilfe der folgenden Gleichung berechnet:

wobei N die Gesamtzahl der synaptischen Gewichte darstellt. Das Training der Faltungsschicht endet, wenn C unter 0,01 liegt. Die SCNN-Implementierung basiert auf der SpykeTorch-Plattform45. Nach dem Training des SCNN wird die Auslöseschwelle \({v}_{{th}}\) auf unendlich gesetzt und der Spannungswert im letzten Zeitschritt in jedem Neuron als SCNN-Merkmal der visuellen Reize gemessen. Da sich die Spannungen in den Faltungsneuronen mit der Zeit ansammeln und nie zurückgesetzt werden, wenn \({v}_{{th}}\) unendlich ist, spiegeln die endgültigen Spannungswerte (SCNN-Merkmal) die Aktivierung des SCNN als Reaktion auf die visuellen Reize wider.

Mit dem erhaltenen SCNN-Feature \({{{{{\rm{F}}}}}}\in {{{{{{\mathscr{R}}}}}}}^{64\times h\times w }\) wird für jedes Voxel ein lineares Regressionsmodell erstellt, um die fMRI-Antwort Y vorherzusagen. Um das Überanpassungsproblem zu vermeiden, wird der rezeptive Feldmechanismus in die Regressionsmodelle eingeführt, bei dem jedes Voxel die Eingabe nur an einem bestimmten Ort des erhält SCNN-Feature-Map. Um den optimalen Empfangsfeldstandort für jedes Voxel zu ermitteln (verschiedene Voxel können dasselbe bevorzugte Empfangsfeld haben), werden alle Standorte auf den SCNN-Feature-Maps untersucht, um sie an das Regressionsmodell anzupassen, und es wird eine dreifache Kreuzvalidierung der Trainingsdaten durchgeführt. Der Ausdruck und die Zielfunktion des Regressionsmodells sind wie folgt definiert:

wobei \({y}_{v}\) die fMRI-Antwort von Voxel v darstellt, w die Gewichtsparameter im Regressionsmodell bezeichnet und \({f}_{{ij}}\in {{{{{{\ mathscr{R}}}}}}}^{64\times 1}\,(i={{{{\mathrm{1,2}}}}},\ldots ,h,{j}={{{ {\mathrm{1,2}}}}},\ldots ,w)\) bezeichnet den Merkmalsvektor am Ort \((i,j)\) der SCNN-Feature-Maps. Die Regressionsgenauigkeit wird mithilfe des Bestimmtheitskoeffizienten (\({R}^{2}\)) der vorhergesagten und beobachteten Antworten quantifiziert und die Merkmalsposition mit dem höchsten \({R}^{2}\) ausgewählt als Empfangsfeldposition für jedes Voxel. Abschließend wird das Regressionsmodell für jedes Voxel anhand der gesamten Trainingsdaten basierend auf der ermittelten Position des Empfangsfelds neu trainiert.

Basierend auf den Kodierungsmodellen wurden zwei nachgelagerte Dekodierungsaufgaben durchgeführt, nämlich Bildrekonstruktion und Bildidentifizierung. Das Ziel der Bildrekonstruktionsaufgabe besteht darin, das wahrgenommene Bild aus der beobachteten fMRT-Reaktion zu rekonstruieren, während die Bildidentifizierungsaufgabe darauf abzielt, das betrachtete Bild zu bestimmen. Die für diese Aufgaben verwendeten spezifischen Methoden werden im Folgenden erläutert.

Wie in Abb. 1b dargestellt, wurde die Bildrekonstruktionsaufgabe unter Verwendung eines umfangreichen vorherigen Bildsatzes ausgeführt. Zunächst wurde das Kodierungsmodell verwendet, um die erwarteten fMRT-Antworten für alle Bilder im vorherigen Bildsatz zu generieren. Anschließend wurde die Wahrscheinlichkeit der beobachteten fMRT-Reaktion r angesichts der vorherigen Bilder s geschätzt, die mathematisch als multivariate Gaußsche Verteilung dargestellt werden kann:

Wobei \(\hat {{{{{\rm{r}}}}}}({{\mbox{s}}})\) die vorhergesagte fMRT-Reaktion von \({{{{{\rm{s }}}}}}\) und Σ bezeichnet die Rauschkovarianzmatrix für Zugstichproben. Schließlich wurden die vorherigen Bilder, die die höchste Wahrscheinlichkeit hervorriefen, die beobachtete fMRT-Reaktion hervorzurufen, gemittelt, um das Rekonstruktionsergebnis abzuleiten.

Abbildung 1c veranschaulicht die für die Bildidentifizierungsaufgabe verwendete Methodik. Die Bilder des Testsatzes wurden in das Kodierungsmodell eingespeist, um die vorhergesagten fMRT-Antworten zu generieren. Anschließend wurden die Pearson-Korrelationskoeffizienten (PCCs) zwischen den vorhergesagten fMRT-Antworten und der beobachteten fMRT-Antwort berechnet. Das Bild, das die höchste Korrelation zwischen der vorhergesagten fMRT-Reaktion und der beobachteten Reaktion aufwies, wurde als das vom Probanden betrachtete Bild angesehen.

Zur Validierung des Kodierungsmodells wurden vier öffentlich verfügbare Datensätze verwendet, die in früheren Untersuchungen1,25,26,27,33,38,46 umfassend genutzt wurden, nämlich handgeschriebene Zeichen, handgeschriebene Ziffern, natürliche Graustufenbilder und farbenfrohe natürliche Bilddatensätze . Die grundlegenden Merkmale dieser Datensätze sind in Tabelle 1 dargestellt. Nachfolgend finden Sie einen kurzen Überblick über jeden Datensatz.

Dieser Datensatz umfasst fMRT-Daten, die von drei Teilnehmern erhalten wurden, als sie handgeschriebene Charakterbilder betrachteten. Jedem Teilnehmer wurden insgesamt 360 Bilder mit 6 Charakteren (B, R, A, I, N und S) mit der Größe \(56\times 56\) präsentiert, die aus dem TICH-Charakterdatensatz47 stammten. Als Fixierungspunkt wurde jedem Bild ein weißes Quadrat hinzugefügt. Während des Experiments wurde jedes Bild 1 s lang angezeigt (mit 2,5 Hz geblitzt), gefolgt von einem 3 s langen schwarzen Hintergrund, und gleichzeitig wurden 3 T-fMRT-Daten erfasst (TR = 1,74 s, Voxelgröße = \(2\times 2). \times 2\,{{{{{{\rm{mm}}}}}}}^{3}\)). Die fMRT-Reaktionen auf Voxelebene der visuellen Bereiche V1 und V2 für jeden visuellen Reiz wurden mithilfe allgemeiner linearer Modelle geschätzt48. Es wurde die gleiche Zug-/Testsatzaufteilung wie im Originalwerk25 übernommen, das 270 bzw. 90 klassenausgeglichene Beispiele umfasste.

Dieser Datensatz umfasst fMRT-Daten, die von einem Teilnehmer beim Betrachten handgeschriebener Ziffernbilder erhalten wurden26. Während des Experiments wurden dem Teilnehmer 100 handgeschriebene 6er- und 9er-Bilder mit der Größe \(28\times 28\) präsentiert, wobei jedes Bild 12,5 s lang angezeigt und mit 6 Hz geflasht wurde. Die fMRT-Antworten von V1, V2 und V3 wurden mit einem Siemens 3 T MRT-System erfasst (TR = 2,5 s, Voxelgröße = \(2\times 2\times 2\,{{{{{{\rm{mm}) }}}}}}^{3}\)). Die Zug- und Testsätze umfassten 90 bzw. 10 Exemplare. Darüber hinaus lieferte dieser Datensatz 2000 frühere handschriftliche 6- und 9-Bilder, die im fMRI-Experiment für die Bildrekonstruktionsaufgabe nicht verwendet wurden.

Dieser Datensatz umfasst fMRT-Daten, die von zwei Teilnehmern erhalten wurden, als sie natürliche Graustufenbilder betrachteten1. Das Experiment war in Zug- und Testphasen unterteilt. Während der Trainingsphase wurden den Teilnehmern 1750 Bilder präsentiert, die jeweils für eine Dauer von 1 s angezeigt wurden (geblitzt mit 2 Hz), gefolgt von einem 3 s langen grauen Hintergrund. In der Testphase wurden den Teilnehmern 120 Bilder gezeigt, die sich von denen in der Trainingsphase unterschieden. Die fMRT-Daten wurden in beiden Phasen des Experiments gleichzeitig mit einem 3-T-Scanner erfasst (TR = 1 s, Voxelgröße = \(2\times 2\times 2,5\,{{{{{{\rm{mm}}} }}}}^{3}\)). Die fMRT-Reaktionen auf Voxelebene der visuellen Bereiche V1–V3 wurden für jeden visuellen Reiz geschätzt. Um den Rechenaufwand zu verringern, wurden die natürlichen Bilder von \(500\times 500\) auf \(128\times 128\) Pixel heruntergerechnet.

Dieser Datensatz umfasst fMRT-Daten von fünf Teilnehmern, die farbenfrohe natürliche Bilder betrachteten27. Das Experiment bestand aus zwei Sitzungen, nämlich der Trainingsbildsitzung und der Testbildsitzung. Während der Trainingsbildsitzung wurden jedem Teilnehmer 1200 Bilder aus 150 Kategorien präsentiert, wobei jedes Bild nur einmal angezeigt wurde (9 s lang mit 2 Hz geblitzt). In der Testbildsitzung wurden jedem Teilnehmer 50 Bilder aus 50 Kategorien gezeigt, wobei jedes Bild 35 Mal präsentiert wurde. Die fMRT-Antworten mehrerer visueller Bereiche auf der ventralen Sehbahn wurden mit einem 3-T-Siemens-Scanner (TR = 3 s, Voxelgröße = \(3\times 3\times 3\,{{{{{{\rm{mm) erfasst }}}}}}}^{3}\)) und V1, V2 und V3 wurden als interessierende Regionen für diese Studie ausgewählt. Vor der Einspeisung in das SCNN wurden die natürlichen Bilder vom RGB-Format in das Graustufenformat konvertiert und von \(500\times 500\) auf \(128\times 128\) Pixel heruntergesampelt.

Die Codierungsgenauigkeiten des farbenfrohen natürlichen Bilddatensatzes wurden mit Rauschobergrenzen verglichen, die die Obergrenze der Genauigkeiten bei Vorhandensein von Rauschen darstellen. Um die Rauschobergrenze für jedes Voxel zu berechnen, verwendeten wir eine Methode, die häufig in früheren Studien verwendet wurde13,49,50,51. Bei dieser Methode wird davon ausgegangen, dass das Rauschen einer Gaußschen Verteilung mit einem Mittelwert von Null folgt und dass das beobachtete fMRT-Signal gleich der Antwort plus Rauschen ist. Zunächst haben wir die Standardabweichung des Rauschens \({\hat{\sigma }}_{N}\) mithilfe der folgenden Formel geschätzt:

Dabei stellt \({\sigma }_{R}^{2}\) die Varianz der Antworten über 35 wiederholte Sitzungen jedes Testbilds dar. Anschließend haben wir die Varianz der Antwort berechnet, indem wir die Varianz des Rauschens von der Varianz der mittleren Antwort subtrahiert haben:

Dabei stellt \({\mu }_{R}\) die durchschnittlichen Antworten über die wiederholten Sitzungen jedes Testbilds dar. Schließlich haben wir Stichproben aus den Antwort- und Rauschverteilungen gezogen, um deren Simulationen zu erhalten, und das simulierte Signal durch Summieren der simulierten Antwort und des Rauschens erzeugt. Wir haben 1000 Simulationen durchgeführt und in jeder Simulation den PCC zwischen dem simulierten Signal und der Reaktion berechnet. Als Lärmobergrenze wurde der mittlere PCC-Wert herangezogen.

In Abb. 2 haben wir einen einseitigen t-Test mit zwei Stichproben durchgeführt, um die Codierungsgenauigkeiten verschiedener Methoden für jeden Datensatz zu vergleichen, und die Stichprobengrößen wurden in den Bildunterschriften beschrieben. In der Reproduzierbarkeitsanalyse führten wir einen zweiseitigen t-Test mit zwei Stichproben durch, um abzuschätzen, ob die Codierungsgenauigkeiten (n = 500) zwischen den SCNNs mit unterschiedlichen Anfangswerten signifikante statistische Unterschiede aufwiesen; Die entsprechenden p-Werte wurden im Abschnitt „Ergebnisse“ angegeben.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Der handgeschriebene Zeichendatensatz ist öffentlich verfügbar unter http://sciencesanne.com/research/, der handgeschriebene Zifferndatensatz ist öffentlich verfügbar unter http://hdl.handle.net/11633/di.dcc.DSC_2018.00112_485, die Graustufen natürlich Der Bilddatensatz ist öffentlich verfügbar unter https://crcns.org/datasets/vc/vim-1, der farbenfrohe natürliche Bilddatensatz ist öffentlich verfügbar unter https://github.com/KamitaniLab/GenericObjectDecoding. Die Quelldaten, die den Abb. zugrunde liegen. 2, 4 und 5 finden Sie in den Zusatzdaten 1, 2, 3.

Der Code, der die Ergebnisse dieser Studie unterstützt, ist unter https://github.com/wang1239435478/Neural-encoding-with-unsupervised-spiking-convolutional-spiking-neural-networks verfügbar.

Kay, KN, Naselaris, T., Prenger, RJ & Gallant, JL Identifizierung natürlicher Bilder aus der menschlichen Gehirnaktivität. Natur 452, 352–355 (2008).

Artikel CAS PubMed PubMed Central Google Scholar

Güçlü, U. & van Gerven, MA Tiefe neuronale Netze zeigen einen Gradienten in der Komplexität neuronaler Darstellungen über den ventralen Strom. J. Neurosci. 35, 10005–10014 (2015).

Artikel PubMed PubMed Central Google Scholar

Nishimoto, S. et al. Rekonstruktion visueller Erfahrungen aus der Gehirnaktivität, die durch natürliche Filme hervorgerufen wird. Curr. Biol. 21, 1641–1646 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Wen, H. et al. Neuronale Kodierung und Dekodierung mit Deep Learning für dynamisches natürliches Sehen. Großhirn. Cortex 28, 4136–4160 (2018).

Artikel PubMed Google Scholar

Naselaris, T., Kay, KN, Nishimoto, S. & Gallant, JL Kodierung und Dekodierung in der fMRT. NeuroImage 56, 400–410 (2011).

Artikel PubMed Google Scholar

Wu, MCK, David, SV & Gallant, JL Vollständige funktionelle Charakterisierung sensorischer Neuronen durch Systemidentifikation. Annu. Rev. Neurosci. 29, 477–505 (2006).

Artikel CAS PubMed Google Scholar

Adelson, EH & Bergen, JR Raumzeitliche Energiemodelle für die Wahrnehmung von Bewegung. J. Opt. Soc. Bin. A 2, 284–299 (1985).

Artikel CAS PubMed Google Scholar

Jones, JP & Palmer, LA Eine Bewertung des zweidimensionalen Gabor-Filtermodells einfacher rezeptiver Felder im gestreiften Kortex von Katzen. J. Neurophysiol. 58, 1233–1258 (1987).

Artikel CAS PubMed Google Scholar

Carandini, M. et al. Wissen wir, was das frühe visuelle System tut? J. Neurosci. 25, 10577–10597 (2005).

Artikel CAS PubMed PubMed Central Google Scholar

Khaligh-Razavi, SM & Kriegeskorte, N. Tief überwachte, aber nicht unbeaufsichtigte Modelle können die kortikale IT-Repräsentation erklären. PLoS Comput. Biol. 10, e1003915 (2014).

Artikel PubMed PubMed Central Google Scholar

Cichy, RM, Khosla, A., Pantazis, D., Torralba, A. & Oliva, A. Der Vergleich tiefer neuronaler Netze mit der räumlich-zeitlichen kortikalen Dynamik der menschlichen visuellen Objekterkennung zeigt hierarchische Entsprechungen. Wissenschaft. Rep. 6, 27755 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Kriegskorte, N. & Kiewit, RA Repräsentative Geometrie: Integration von Kognition, Berechnung und Gehirn. Trends Cogn. Wissenschaft. 17, 401–412 (2013).

Artikel PubMed PubMed Central Google Scholar

Allen, EJ et al. Ein riesiger 7T-fMRT-Datensatz zur Brücke zwischen kognitiver Neurowissenschaft und künstlicher Intelligenz. Nat. Neurosci. 25, 116–126 (2022).

Artikel CAS PubMed Google Scholar

Khosla, M., Ngo, GH, Jamison, K., Kuceyeski, A. & Sabuncu, MR Die kortikale Reaktion auf naturalistische Reize ist mit tiefen neuronalen Netzen weitgehend vorhersehbar. Wissenschaft. Adv. 7, eabe7547 (2021).

Artikel PubMed PubMed Central Google Scholar

Xu, Y. & Vaziri-Pashkam, M. Grenzen der visuellen Darstellungskorrespondenz zwischen Faltungs-Neuronalen Netzen und dem menschlichen Gehirn. Nat. Komm. 12, 2065 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Maass, W. Netzwerke von Spike-Neuronen: die dritte Generation neuronaler Netzwerkmodelle. Neuronales Netz. 10, 1659–1671 (1997).

Artikel Google Scholar

Gerstner, W., Kempter, R., van Hemmen, JL & Wagner, H. Eine neuronale Lernregel für die zeitliche Kodierung im Submillisekundenbereich. Nature 383, 76–78 (1996).

Artikel CAS PubMed Google Scholar

Bi, G.-Q. & Poo, M.-M. Synaptische Modifikationen in kultivierten Hippocampus-Neuronen: Abhängigkeit vom Spike-Timing, der synaptischen Stärke und dem postsynaptischen Zelltyp. J. Neurosci. 18, 10464 (1998).

Artikel CAS PubMed PubMed Central Google Scholar

Huang, S. et al. Assoziative hebbische synaptische Plastizität im visuellen Kortex von Primaten. J. Neurosci. 34, 7575–7579 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

McMahon, DavidB. T. & Leopold, DavidA. Reizzeitabhängige Plastizität beim Sehvermögen auf hohem Niveau. Curr. Biol. 22, 332–337 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Meliza, CD & Dan, Y. Modifikation des rezeptiven Feldes im visuellen Kortex von Ratten, induziert durch gepaarte visuelle Stimulation und Einzelzell-Spikes. Neuron 49, 183–189 (2006).

Artikel CAS PubMed Google Scholar

Diehl, P. & Cook, M. Unüberwachtes Lernen der Ziffernerkennung mithilfe von Spike-Timing-abhängiger Plastizität. Vorderseite. Berechnen. Neurosci. https://doi.org/10.3389/fncom.2015.00099 (2015).

Kheradpisheh, SR, Ganjtabesh, M., Thorpe, SJ & Masquelier, T. STDP-basierte tiefe Faltungs-Neuronale Netze mit Spikes zur Objekterkennung. Neuronales Netz. 99, 56–67 (2018).

Artikel PubMed Google Scholar

Mozafari, M., Ganjtabesh, M., Nowzari-Dalini, A., Thorpe, SJ & Masquelier, T. Bioinspirierte Ziffernerkennung unter Verwendung belohnungsmodulierter Spike-Timing-abhängiger Plastizität in tiefen Faltungsnetzwerken. Mustererkennung. 94, 87–95 (2019).

Artikel Google Scholar

Schoenmakers, S., Barth, M., Heskes, T. & van Gerven, M. Lineare Rekonstruktion wahrgenommener Bilder aus der menschlichen Gehirnaktivität. Neuroimage 83, 951–961 (2013).

Artikel PubMed Google Scholar

Van Gerven, MA, De Lange, FP & Heskes, T. Neuronale Dekodierung mit hierarchischen generativen Modellen. Neuronale Berechnung. 22, 3127–3142 (2010).

Artikel PubMed Google Scholar

Horikawa, T. & Kamitani, Y. Generische Dekodierung gesehener und vorgestellter Objekte mithilfe hierarchischer visueller Merkmale. Nat. Komm. 8, 15037 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam: eine Methode zur stochastischen Optimierung. Internationale Konferenz über Lernrepräsentationen. https://doi.org/10.48550/arXiv.1412.6980 (2015).

Seeliger, K. et al. Durchgängige Identifizierung neuronaler Systeme mit neuronalem Informationsfluss. PLoS Comput. Biol. 17, e1008558 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Zhou, W., Bovik, AC, Sheikh, HR & Simoncelli, EP Bildqualitätsbewertung: von der Fehlersichtbarkeit bis zur strukturellen Ähnlichkeit. IEEE Trans. Bildprozess. 13, 600–612 (2004).

Artikel Google Scholar

Miyawaki, Y. et al. Visuelle Bildrekonstruktion aus menschlicher Gehirnaktivität mithilfe einer Kombination aus lokalen Multiskalen-Bilddecodern. Neuron 60, 915–929 (2008).

Artikel CAS PubMed Google Scholar

Wang, W., Arora, R., Livescu, K. & Bilmes, J. Über tiefes Multi-View-Repräsentationslernen. Proz. 32. Int. Konf. Mach. Lernen. 37, 1083–1092 (2015).

Du, C., Du, C., Huang, L. & He, H. Rekonstruktion wahrgenommener Bilder aus menschlichen Gehirnaktivitäten mit Bayesian Deep Multiview Learning. IEEE Trans. Neuronales Netz. Lernen. Syst. 30, 2310–2323 (2019).

Artikel PubMed Google Scholar

Seeliger, K., Güçlü, U., Ambrogioni, L., Güçlütürk, Y. & van Gerven, MAJ Generative kontradiktorische Netzwerke zur Rekonstruktion natürlicher Bilder aus der Gehirnaktivität. NeuroImage 181, 775–785 (2018).

Artikel CAS PubMed Google Scholar

Victor, JD, Purpura, K., Katz, E. & Mao, B. Populationskodierung von Ortsfrequenz, Orientierung und Farbe bei Makaken V1. J. Neurophysiol. 72, 2151–2166 (1994).

Artikel CAS PubMed Google Scholar

Dumoulin, SO & Wandell, BA Populationsrezeptive Feldschätzungen im menschlichen visuellen Kortex. NeuroImage 39, 647–660 (2008).

Artikel PubMed Google Scholar

Gao, X., Wang, Y., Chen, X. & Gao, S. Schnittstelle, Interaktion und Intelligenz in verallgemeinerten Gehirn-Computer-Schnittstellen. Trends Cogn. Wissenschaft. 25, 671–684 (2021).

Artikel PubMed Google Scholar

Ren, Z. et al. Rekonstruktion gesehener Bilder aus der Gehirnaktivität durch visuell gesteuerte kognitive Repräsentation und kontradiktorisches Lernen. NeuroImage 228, 117602 (2021).

Artikel PubMed Google Scholar

Wang, C. et al. Rekonstruktion des schnellen natürlichen Sehens mit einem fMRT-bedingten videogenerativen gegnerischen Netzwerk. Großhirnrinde https://doi.org/10.1093/cercor/bhab498 (2022).

Wu, Y., Deng, L., Li, G., Zhu, J. & Shi, L. Räumlich-zeitliche Backpropagation für das Training leistungsstarker neuronaler Spike-Netzwerke. Vorderseite. Neurosci. 12, 331 (2018).

Artikel PubMed PubMed Central Google Scholar

Izhikevich, EM Einfaches Modell von Spike-Neuronen. IEEE Trans. Neuronales Netz. 14, 1569–1572 (2003).

Artikel CAS PubMed Google Scholar

Enroth-Cugell, C. & Robson, JG Die Kontrastempfindlichkeit retinaler Ganglienzellen der Katze. J. Physiol. 187, 517–552 (1966).

Artikel CAS PubMed PubMed Central Google Scholar

McMahon, MJ, Packer, OS & Dacey, DM Die klassische rezeptive Feldumgebung der Parasol-Ganglienzellen von Primaten wird hauptsächlich durch einen nicht-GABAergen Weg vermittelt. J. Neurosci. 24, 3736–3745 (2004).

Artikel CAS PubMed PubMed Central Google Scholar

Gautrais, J. & Thorpe, S. Ratenkodierung versus zeitliche Ordnungskodierung: ein theoretischer Ansatz. Biosystems 48, 57–65 (1998).

Artikel CAS PubMed Google Scholar

Mozafari, M., Ganjtabesh, M., Nowzari-Dalini, A. & Masquelier, T. SpykeTorch: Effiziente Simulation von Faltungs-Spike-neuronalen Netzwerken mit höchstens einem Spike pro Neuron. Vorderseite. Neurosci. https://doi.org/10.3389/fnins.2019.00625 (2019).

Du, C., Du, C., Huang, L. & He, H. Bedingte generative neuronale Dekodierung mit strukturierter CNN-Merkmalsvorhersage. Proz. AAAI Conf. Artif. Intel. 34, 2629–2636 (2020).

Google Scholar

Van der Maaten, L. Ein neuer Benchmark-Datensatz für die Erkennung handschriftlicher Zeichen. Universität Tilburg 2–5 (2009).

Friston, KJ et al. Statistische parametrische Karten in der funktionellen Bildgebung: ein allgemeiner linearer Ansatz. Summen. Brain Mapp. 2, 189–210 (1994).

Artikel Google Scholar

Han, K. et al. Variationaler Autoencoder: ein unbeaufsichtigtes Modell zur Kodierung und Dekodierung der fMRT-Aktivität im visuellen Kortex. NeuroImage 198, 125–136 (2019).

Artikel PubMed Google Scholar

Kay, KN, Winawer, J., Mezer, A. & Wandell, BA Komprimierende räumliche Summation im menschlichen visuellen Kortex. J. Neurophysiol. 110, 481–494 (2013).

Artikel PubMed PubMed Central Google Scholar

Lage-Castellanos, A., Valente, G., Formisano, E. & De Martino, F. Methoden zur Berechnung der maximalen Leistung von Rechenmodellen für fMRT-Antworten. PLoS Comput. Biol. 15, e1006397 (2019).

Artikel PubMed PubMed Central Google Scholar

Deng, J. et al. Imagenet: eine umfangreiche hierarchische Bilddatenbank. IEEE Conf. Berechnen. Vis. Mustererkennung. https://doi.org/10.1109/CVPR.2009.5206848 (2009).

Referenzen herunterladen

Diese Arbeit wurde durch die STI 2030-Major Projects 2022ZD0208900 und die National Natural Science Foundation of China (Nr. 82121003, 62036003, 62276051 und 82072006) sowie durch Medical-Engineering Cooperation Funds der University of Electronic Science and Technology of China (ZYGX2021YGLH201) unterstützt. , Innovationsteam und Talentkultivierungsprogramm der National Administration of Traditional Chinese Medicine (Nr. ZYYCXTD-D-202003).

Das Zentrum für psychosomatische Medizin, Sichuan Provincial Center for Mental Health, Sichuan Provincial People's Hospital, University of Electronic Science and Technology of China, Chengdu, 611731, China

Chong Wang und Huafu Chen

School of Life Science and Technology, University of Electronic Science and Technology of China, Chengdu, 610054, China

Chong Wang, Hongmei Yan, Wei Huang, Wei Sheng, Yuting Wang, Yun-Shuang Fan, Tao Liu, Ting Zou, Rong Li und Huafu Chen

MOE Key Lab für Neuroinformation; Schlüssellabor für Hochfeld-Magnetresonanz-Gehirnbildgebung der Provinz Sichuan, Universität für elektronische Wissenschaft und Technologie Chinas, Chengdu, 610054, China

Chong Wang, Hongmei Yan, Wei Huang, Wei Sheng, Yuting Wang, Yun-Shuang Fan, Rong Li und Huafu Chen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Chong Wang entwarf das Projekt und schrieb die Arbeit; Yuting Wang, Yun-Shuang Fan und Ting Zou bereiteten die Daten vor; Wei Huang, Wei Sheng und Tao Liu analysierten Daten und erstellten Modelle; Hongmei Yan, Rong Li und Huafu Chen betreuten das Projekt und überarbeiteten das Papier.

Korrespondenz mit Hongmei Yan, Rong Li oder Huafu Chen.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Communications Biology dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteur: Joao Valente. Eine Peer-Review-Datei ist verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Wang, C., Yan, H., Huang, W. et al. Neuronale Kodierung mit unbeaufsichtigtem Spiking-Faltungs-Neuronalen Netzwerk. Commun Biol 6, 880 (2023). https://doi.org/10.1038/s42003-023-05257-4

Zitat herunterladen

Eingegangen: 06. Februar 2023

Angenommen: 18. August 2023

Veröffentlicht: 28. August 2023

DOI: https://doi.org/10.1038/s42003-023-05257-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.