
Biden schlägt den letzten Nagel in den Sarg für Glühbirnen
May 16, 2023Internetanbieter, die FCC-Zuschüsse erhalten haben, versuchen, Breitbandverpflichtungen zu umgehen
May 18, 2023Durch die Reduzierung der Umweltverschmutzung sind die „Schiffsspur“-Wolken zurückgegangen, was zur globalen Erwärmung beiträgt
May 20, 2023Kevin Mitnick, Hacker, der sich einst den Behörden entzog, ist mit 59 Jahren tot
May 22, 2023C3 MED
May 24, 2023Ein Transferlernen
Wissenschaftliche Berichte Band 13, Artikelnummer: 12076 (2023) Diesen Artikel zitieren
203 Zugriffe
1 Altmetrisch
Details zu den Metriken
Das Glaukom ist eine erworbene Optikusneuropathie, die zu einem irreversiblen Sehverlust führen kann. Deep Learning (DL), insbesondere Convolutional Neural Networks (CNN), hat aufgrund der Verfügbarkeit umfangreicher annotierter Datensätze und CNNs beachtliche Erfolge im Bereich der medizinischen Bilderkennung erzielt. Allerdings ist es immer noch eine Herausforderung, vollständig annotierte Datensätze wie ImageNet im medizinischen Bereich zu erhalten. Unterdessen bleiben monomodale Ansätze aufgrund der Vielfalt der Glaukom-Erkrankungstypen und der Komplexität der Symptome sowohl unzuverlässig als auch ungenau. In diesem Artikel wird ein neuer multimodaler Datensatz für Glaukom erstellt und ein neues multimodales neuronales Netzwerk für die Glaukomdiagnose und -klassifizierung (GMNNnet) vorgeschlagen, das darauf abzielt, diese beiden Probleme anzugehen. Konkret umfasst der Datensatz die fünf wichtigsten Arten von Glaukom-Etiketten, elektronische Krankenakten und vier Arten hochauflösender medizinischer Bilder. Die Struktur von GMNNnet besteht aus drei Zweigen. Zweig 1, bestehend aus Faltungs-, zyklischen und Transpositionsschichten, verarbeitet Patientenmetadaten, Zweig 2 verwendet Unet, um Merkmale aus der Glaukomsegmentierung basierend auf Domänenwissen zu extrahieren, und Zweig 3 verwendet ResFormer, um medizinische Glaukombilder direkt zu verarbeiten. Zweig eins und Zweig zwei werden miteinander vermischt und dann vom Catboost-Klassifikator verarbeitet. Wir führen eine Methode zur Gradientengewichteten Klassenaktivierungszuordnung (Grad-GAM) ein, um die Interpretierbarkeit des Modells zu erhöhen, und eine Transferlernmethode für den Fall unzureichender Trainingsdaten, dh die Feinabstimmung von CNN-Modellen, die aus natürlichen Bilddatensätzen vorab trainiert wurden medizinische Bildaufgaben. Die Ergebnisse zeigen, dass GMNNnet die hochdimensionalen Informationen zum Glaukom besser darstellen kann und unter multimodalen Daten eine hervorragende Leistung erzielt.
Das Glaukom ist eine erworbene Optikusneuropathie, die durch hohen Augeninnendruck (IOD), Papillenatrophie und -depression, Gesichtsfeldstörungen und Sehverlust gekennzeichnet ist. Es wird klinisch in drei Hauptkategorien eingeteilt: primär, sekundär und angeboren. Nach Angaben der Weltgesundheitsorganisation leiden mittlerweile 3,5 % der Menschen über 45 Jahren an Glaukom, und die geschätzte Zahl der Glaukompatienten weltweit wird im Jahr 2040 111,2 Millionen erreichen1. Nach der Diagnose hängen Behandlungsentscheidungen von der Progressionsrate ab, also der Prävention oder die Verlangsamung eines weiteren irreversiblen Sehverlusts ist für viele Glaukompatienten äußerst wichtig. Gleichzeitig steigen die sozioökonomischen Kosten des Glaukoms im Frühstadium im Vergleich zum Endstadium um das Vierfache, und eine rechtzeitige Diagnose und Intervention kann Ressourcen im Gesundheitswesen einsparen und eine erhebliche Krankheitslast vermeiden2,3.
Mit Hilfe medizinischer Bilder wurde Deep Learning erfolgreich in verschiedenen medizinischen Bereichen eingesetzt. Für datengesteuertes Deep Learning werden eine genaue Beschriftung und eine große Anzahl von Datensätzen die Trainingsgenauigkeit über die von klinischen Experten hinaus steigern. Obwohl ein Großteil der Daten für die Nutzung durch Forscher öffentlich zugänglich gemacht wurde, gibt es immer noch drei Probleme, die eine eingehende Forschung zur intelligenten Glaukomdiagnose einschränken. Erstens handelt es sich bei den Datensätzen überwiegend um Fundusfotos, die nicht abwechslungsreich genug sind. Zweitens sind die Datenbezeichnungen der Klassifizierungsaufgabe größtenteils dichotom, was den Anforderungen der klinischen Krankheitstypdiagnose des Glaukoms nicht gerecht werden kann. Die Segmentierungsaufgabe erfordert eine manuelle Annotation der Bereiche des Sehnervenkopfes und des Sehnervenbechers oder die Annotation von Netzhautgefäßen, was nicht nur eine äußerst mühsame Aufgabe ist, sondern auch bei der Annotation selbst bei klinischen Experten anfällig für menschliche Fehler ist. Drittens reicht die Anzahl der medizinischen Bilder im öffentlichen Datensatz nicht aus, um CNNs von Grund auf zu trainieren. Im Gegensatz zu früheren Glaukom-Bilddatensätzen erstellen wir einen Datensatz, der aus elektronischen Krankenakten (Text) und vier medizinischen Bildern besteht: Fundusfotos, optische Kohärenztomographie (OCT), Ultraschallbiomikroskopie (UBM) und Dicke der retinalen Nervenfaserschicht (RNFL). . Die Datensatzbezeichnungen sind in Klassifizierungsbezeichnungen und Segmentierungsbezeichnungen unterteilt. Die Klassifizierungsbezeichnungen bestehen aus normalen und den vier wichtigsten Glaukom-Pathotypen, und die Segmentierungsbezeichnungen geben Anmerkungen zu den Papille- und Augenhöhlenregionen, den Netzhautgefäßen und den Augenwinkeln.
Beide Klassifizierungs-CNNs, die einen binären Datensatz verwenden, um direkt auszugeben, ob es sich um ein Glaukom handelt, und einen mit segmentierten Regionen gekennzeichneten Datensatz verwenden, um segmentierte Merkmale auszugeben, haben bei vielen Forschern Aufmerksamkeit erregt und große Erfolge erzielt. Obwohl die Genauigkeit dieser Methoden hoch ist, sind sie bei der Diagnose von Glaukom-Erkrankungen machtlos. In diesem Artikel schlagen wir ein multimodales neuronales Netzwerk für Glaukom vor, das Metadaten und medizinische Bilder mithilfe konstruierter multimodaler Glaukomdaten zusammenführt, das eine tiefere Diagnose von Glaukom-Pathotypen auf der Grundlage kategorialer Bezeichnungen ermöglicht und Glaukommerkmale mithilfe von Segmentierungsannotationen extrahiert. Einzelheiten zum Netzwerk werden in beschrieben den Abschnitt „Methoden“. Um das Problem unzureichender Daten zu lösen, das bei medizinischen Bildern häufig auftritt, führen wir Transferlernmethoden ein, d. h. die Feinabstimmung von vorab trainierten CNN-Modellen aus natürlichen Bilddatensätzen auf medizinische Bildaufgaben, und führen Vergleichsexperimente mit von Grund auf trainierten Modellen durch. Um die Black-Box-Funktion des Deep Learning zu vermeiden, haben wir das Modell mit der Grad-CAM-Methode interpretierbar gemacht und Vergleichsexperimente mit mehreren CAM-Methoden durchgeführt.
Die Hauptbeiträge des Artikels sind wie folgt zusammengefasst:
Es wird ein multimodaler Datensatz (GM367) für die Multiklassen-Glaukomdiagnose erstellt, der Metadaten und medizinische Bilder enthält. Beachten Sie, dass dies der erste Datensatz ist, der Beschriftungen für die fünf wichtigsten Glaukomkategorien enthält.
Es wird ein multimodales neuronales Netzwerk (GMNNnet) vorgeschlagen, das aus drei Zweigen besteht, die Patientenmetadaten, aus Bildern extrahierte Merkmale sowie globale und lokale Details medizinischer Bilder verarbeiten, die durch ein Deep-Learning-Modell erfasst wurden.
Zusätzlich zur Datenerweiterung wird Transferlernen eingeführt, um die Probleme unzureichender medizinischer Bilddaten zu überwinden.
Wir haben die Grad-CAM-Methode angewendet, um interpretierbare visuelle Module zu erstellen, und sie mit anderen Salienz-/CAM-Methoden verglichen.
Die Erfassung großer, qualitativ hochwertiger und vielfältiger Glaukom-Datensätze ist zu einer Herausforderung geworden. Für datengesteuertes Lernen sind große, gut kommentierte Datensätze mit repräsentativen Datenverteilungsmerkmalen entscheidend für das Lernen genauerer oder verallgemeinerbarer Modelle4. Wir fassen zusammen die Details der öffentlichen Glaukom-Datensätze in Tabelle 1, einschließlich Datentyp, Menge, Datenpixel und Generationsverteilung.
Derzeit nutzen die meisten Anwendungen künstlicher Intelligenz beim Glaukom einzelne modale Daten, um spezifische Aufgaben zu bewältigen. Unter diesen gilt das Verhältnis zwischen Becher und Bandscheibe des Sehnervenkopfes in der Netzhaut als wichtiger Indikator für die Erkennung des Vorliegens eines Glaukoms und des Ausmaßes einer glaukomatösen Optikusneuropathie. Es wurden enorme Anstrengungen unternommen, darunter überwachtes Lernen5,6,7 und halbüberwachtes Lernen8, in die automatisierte Segmentierung der Papille und des Sehnervenbechers, aber die Genauigkeit der Berechnung der CDR-Werte bleibt aufgrund der großen Überlappung und des extrem schwachen Kontrasts zwischen ihnen eine große Herausforderung der Augenhöhle und der Netzhautschenkelregion. Ein pathologisch hoher Augeninnendruck ist ein häufiges Symptom eines Glaukoms, aber ein Teil der Glaukompatienten hat auch einen normalen Augeninnendruck, der nicht spezifisch genug ist, um für eine große Anzahl von Glaukompatienten ein gültiges Erkennungsinstrument zu sein. Die RNFL-Dicke um den Sehnervenkopf ist ein weiterer Parameter, der häufiger zur Diagnose eines Glaukoms herangezogen wird. Kozekanani et al.9 schlugen ein Markov-Grenzmodell zur Berechnung der RNFL vor. Aber auch bei Patienten, die an anderen Netzhauterkrankungen und Augenmorphologien (z. B. Myopie) leiden, kann die RNFL-Dicke außerhalb des normalen Bereichs liegen. Gesichtsfeldausfälle, gemessen und überwacht durch kinetische Tonometrie, sind ein Hauptsymptom bei Patienten mit fortgeschrittenem Glaukom. Yousefi et al.10 schlugen eine Erwartungsmaximierungsmethode (GEM) zur Identifizierung glaukomatöser Defektmuster vor. Ceccon et al.11 schlugen die Verwendung von Bayes'schen Netzwerken zur Klassifizierung und Clusterung vor, um frühe Glaukom- und Gesichtsfeldtests zu untersuchen. Da die Messung jedoch die Leistung und Aufmerksamkeit des Patienten erfordert, führt sie zu Blickdefiziten, falsch positiven, falsch negativen Ergebnissen und anderen verwirrenden Fehlern12. Den monomodalen Methoden fehlen andere Arten von Datenvergleichen für Segmentierungsaufgaben und detaillierte Glaukom-Subtypbezeichnungen für Klassifizierungsaufgaben, was ihre klinische Anwendung stark einschränkt. Daher haben multimodale Methoden mehr Aufmerksamkeit erhalten.
Im Gegensatz dazu arbeiten Glaukomärzte bei der Diagnose, der Prognosebeurteilung und der Entscheidung über Behandlungspläne mit multimodalen Daten aus mehreren Quellen. Die auf Deep Learning basierende multimodale Diagnose ist zu einer der Herausforderungen geworden, um die Genauigkeit der Glaukomdiagnose zu verbessern. Hu et al.13 schlugen einen Ansatz zur registrierten Fundus- und multimodalen Gefäßsegmentierung vor, der auf Fundusfotos und OCT basiert. Dieser Ansatz leidet jedoch immer noch unter Problemen wie Artefakten. Shankaranarayana et al.14 konstruierten ein vollständig Faltungsnetzwerk für die Segmentierung der Papille unter Verwendung von Netzhautbildern und Ground-Truth-Tiefenbildern auf OCT-Basis. Hervella et al.15 schlugen eine selbstüberwachte Vortrainingsmethode für die Segmentierungsaufgabe unter Verwendung unbeschrifteter multimodaler Bildpaare vor, die aus Retinographie- und Fluoreszenzangiographiebildern (FA) bestehen. FA ist jedoch eine invasive Technik, die die Injektion eines Kontrastmittels erfordert. Es wurde durch fortschrittlichere nicht-invasive Techniken wie die OCT ersetzt. Aktuelle multimodale Techniken konzentrieren sich immer noch auf die Verwendung mehrerer medizinischer Bilder, um sie miteinander zu vergleichen und die Segmentierungsgenauigkeit zu verbessern.
In diesem Abschnitt wird zunächst das Netzwerkgerüst von GMNN-Net geändert, um die Leistung unter verschiedenen Backbones zu bewerten. Anschließend sollen Ablationsexperimente die Wirksamkeit der Einführung von Multimodalität demonstrieren. Anschließend wird diskutiert, warum und wann es sinnvoll ist, Transferlernen aus einem vorab trainierten ImageNet-CNN-Modell einzuführen. Abschließend erfolgt ein visueller Vergleich verschiedener CAM-Methoden und Bewertungsmetriken. Es wurde festgestellt, dass die Grad-CAM-Methode die höchste Genauigkeit bei der Verbesserung der Interpretierbarkeit des Modells aufweist. GMNN-Net ist auf Basis von Keras und Pytorch implementiert. Alle Experimente werden auf einer Tower-Workstation mit einem NVIDIA Tesla A100 durchgeführt.
Patienten mit Verdacht auf Glaukom können sich in der Klinik einer Vielzahl von Tests unterziehen, wie z. B. der Messung des Augeninnendrucks, der Ultraschall-Biomikroskopie (UBM), um festzustellen, ob der Winkel offen oder geschlossen ist, der optischen Kohärenztomographie (OCT) und Fundusbildern zur Betrachtung der Netzhaut und Optik Nerv. Diese Tests konzentrieren sich auf verschiedene diagnostische Indikatoren für ein Glaukom und ergänzen sich gegenseitig. Durch die Kombination dieser Tests kann die beste klinische Genauigkeit erreicht werden. Aus diesem Grund haben wir mit dem Shenyang Fourth People's Hospital zusammengearbeitet, um einen neuen Glaukom-Datensatz (GM367) zu erstellen, der die elektronischen Krankenakten von 367 Patienten, 680 Heidelberger OCT, 712 Farb-Fundusfotos, 698 RNFL-Dickenbilder, 728 Ultraschall-Biomikroskopie-(UBM)-Fotos und mehr umfasst einige OCTA-Bilder und SLO. Die elektronischen Krankenakten enthalten menschliche Metadaten wie Alter, Geschlecht, Krankengeschichte, Sehschärfe, Augeninnendruck, verschiedene Fachuntersuchungen und Diagnosen. Der Datensatz besteht aus den fünf wichtigsten Glaukom-Unterklassenbezeichnungen, darunter normal (N), primäres Offenwinkelglaukom (POAG), primäres Engwinkelglaukom (PACG), sekundäres Offenwinkelglaukom (SOCG) und sekundäres Engwinkelglaukom Glaukom (SACG). Der Anhang Abb. 1 zeigt einige typische Beispiele der fünf Glaukom-Unterklassen, wobei mehr als 95 % aller Pathologien zu einer der fünf Diagnoseklassen gehören. In der Praxis besteht die Aufgabe von Ärzten darin, zwischen verschiedenen Glaukomklassen zu unterscheiden und eine spezifische Diagnose zu stellen. Daher ist die Erstellung eines Glaukom-Multiklassen-Datensatzes erforderlich. Die detaillierten Informationen sind in Tabelle 2 und den Abbildungen im Anhang aufgeführt. 1 und 2.
Der Zweck der Vorverarbeitung von Bildern und Metadaten besteht darin, die Auswirkungen von Rauschen und Ungleichgewichtsklassen in den Datensätzen zu reduzieren, um die Fähigkeit von Modellen zu erhöhen, wichtige in Metadaten und Bildern verborgene Merkmale zu lernen24.
Die Metadaten bestehen aus zwei Teilen: Zum einen handelt es sich um Metadaten wie Geschlecht, Alter, Krankheitsbeschreibung, Augeninnendruck usw. in der elektronischen Krankenakte von Glaukompatienten, zum anderen um die aus den Bildern extrahierten Informationen, z. B. das Verhältnis von Becher und Bandscheibe (CDR), RNFL-Dicke, ob ISNT-Regeln befolgt werden sollen oder nicht usw. Die Merkmale der oben genannten Daten können in numerische Typen und kategoriale Typen unterteilt werden. Für numerische Merkmale wird die Min-Max-Normalisierung verwendet, die jedes Merkmal skaliert und in das Intervall [0,1] übersetzt. Die One-Hot-Codierungsmethode wird zum Erstellen von Vektoren und zum Konvertieren kategorialer Merkmale in Dummy-Merkmale angewendet, wodurch effektiv verhindert werden kann, dass transformierten kategorialen Merkmalen eine ordinale Bedeutung zugewiesen wird24. Der Augeninnendruck bei Glaukompatienten ändert sich mit fortschreitender Krankheit, daher werden die Daten oft einmal täglich aufgezeichnet und die fehlenden Werte mit der Mittelwert-Einfügungsmethode für numerische Werte und der Modus-Einfügungsmethode für kategoriale Werte verarbeitet.
Die Bilder im Datensatz werden mit fortschrittlichem Heidelberg OCT, 3D-Funduskamera, OCTA und anderen Geräten erfasst, die Daten höherer Qualität und Pixel erhalten können. Obwohl dadurch die Genauigkeit der Glaukomdiagnose bis zu einem gewissen Grad verbessert werden kann, kann die Trainingszeit des Modells erheblich verlängert werden. Daher haben wir die von Xu et al.25 vorgeschlagene Methode übernommen, bei der ein Begrenzungsrahmen mit dem 1,5-fachen Radius der Papille verwendet wird, um automatisch um die Papille herum zuzuschneiden. Bei ihrer Methode verwenden sie ein einfaches CNN, um die wahrscheinlichsten Pixel in der Region des Sehnervenkopfes zu finden. Anschließend klassifizieren sie diese Kandidatenpixel mithilfe eines Schwellenwerts.
Ein Datenungleichgewicht ist ein ernstes Problem bei Klassifizierungsaufgaben, das die Klassifizierungsgenauigkeit erheblich beeinträchtigt. Wenn das Modell auf unausgeglichenen Daten trainiert wird, klassifiziert es neue Stichproben normalerweise als Mehrheitsklassen. Aus Tabelle 4 können wir das Ungleichgewicht der medizinischen Bilder zwischen den fünf Glaukomklassen ersehen. Es ist eine geeignete Methode zur Behandlung von Datenungleichgewichten erforderlich. Die Bildverbesserung ist eine wirksame Verarbeitungsmethode. Wir erweitern die Anzahl der Bilder entsprechend dem Verhältnis jeder Kategorie, d. h. je geringer die Anzahl der Bilder, desto höher die Anzahl der Erweiterungen. Die Methode der Datenerweiterung besteht darin, die Bilder um 50 Pixel in 8 Richtungen zu verschieben (dh nach oben, unten, rechts, links, links, rechts, oben links, rechts, unten links und unten rechts). Anschließend werden alle Bilder horizontal gespiegelt und um 90, 180 und 270 Grad gedreht.
Das GMNN-Netz besteht aus drei Zweigen: Der erste Zweig verarbeitet Textinformationen aus der elektronischen Patientenakte, die aus den Faltungs-, Wiederholungs- und Transkriptionsschichten besteht. Der zweite Zweig basiert auf dem M-Unet-Netzwerk und dient der Segmentierung der Gefäßverteilungsmerkmale des Sehnervs, der Berechnung des Verhältnisses von Becher zu Scheibe, der Extraktion der Schichtdicken der Sehnervenfasern und der anschließenden Einführung von Bildmerkmalen in die Metadaten. Der dritte Zweig konzentriert sich auf Glaukombilder und nutzt eine Reihe hochmoderner Deep-Learning-Modelle als Rückgrat, um die globalen und lokalen Details des Glaukoms zu erfassen.
Das ACC der verschiedenen Zweigstelle 2.
Das ACC verschiedener Zweigstellen 3.
Das ACC verschiedener Dropouts.
Es werden zwei Sätze von Vergleichsexperimenten zwischen GMNNnet und den bekannten CNNs durchgeführt. Da GMNNnet im Vergleich zu früheren Studien auf einen ganz anderen Satz von Eingabedaten (d. h. Metadaten) zugreifen kann, legen wir das Rückgrat der Netzwerke in Zweig 2 bzw. 3 fest und betten dann die verschiedenen neuronalen Netzwerke zum Vergleich in den anderen Zweig des Modells ein. Wir vergleichen die Leistung von Segmentierungsnetzwerken wie Unet, M-Alexnet, DENet und DeepVessel mit unserem vorgeschlagenen M-Unet in Zweig 2 (Abb. 1). Zweig 3 vergleicht die Leistung von Faltungsnetzwerken wie ResNet, Inception, DenseNet und EfficientNet mit unserem Modell (Abb. 2). Dieses Experiment wird basierend auf den Kera- und Pytorch-Frameworks implementiert und alle Modellgewichte werden durch Transferlernen erhalten. Alle sind optimiert unter Verwendung von Adam mit einer anfänglichen Lernrate von 0,0001, die mit der Anzahl der Iterationen aktualisiert wird. Die Stapelgröße beträgt 64. Die ursprünglichen Patches werden vorverarbeitet und auf einen einzelnen Kanal normalisiert. Zur Modellbewertung eine 5-fache Kreuzvalidierung wird eingeführt. Nachdem also 5 Werte für die Fläche unter der Kurve (AUC), Genauigkeit, Spezifität, Sensitivität und F-Score erhalten wurden, werden der Mittelwert und die Standardabweichung dieser Werte für jede CNN-Architektur berechnet. Vergleicht man die Ergebnisse in Tabelle 3, ist es Es kann festgestellt werden, dass GMNNnet unter allen Modellen die beste Leistung erbringt. Die signifikante Verbesserung von SPE und AUC zeigt die Wirksamkeit der Einführung von Multimodalität in GMNN-Net und der vollständigen Nutzung des grundlegenden Rückgrats. Gleichzeitig ist die Vorhersagezeit für einzelne Patienten relativ schnell und beträgt durchschnittlich weniger als 0,02 Sekunden, was sich nicht wesentlich vom schnellsten Netzwerk unterscheidet. Die schnellen Vorhersagezeiten legen nahe, dass unser Modell für die routinemäßige klinische Arbeit verwendet werden kann. Darüber hinaus optimieren wir die Parametereinstellungen von Dropout und stellen fest, dass die Wahrscheinlichkeit von 0,6 am besten funktioniert, wie in Abb. 3 dargestellt.
Visualisierung der Netzhautgefäßsegmentierung anhand von Fundusfotos.
Wir haben segmentierte Bilder von Fundusfotos zur Visualisierung ausgewählt und die Dice-Metrik zur quantitativen Analyse eingeführt. In dem durch den Pfeil in Abb. 4 angezeigten Bereich weist unser Modell eine genauere Segmentierungsgenauigkeit für feinere Netzhautgefäße auf. Der durchschnittliche Dice-Index beträgt 0,98, was 8 % höher ist als bei M-Alexnet.
Um die Wirksamkeit der Einführung von GMNNnet für die Glaukomdiagnose zu demonstrieren, führten wir zwei Sätze von Ablationsexperimenten durch, einen, um die Rolle jedes Eingabemodals für die Vorhersagegenauigkeit zu ermitteln, und den anderen, um die Notwendigkeit der Eingabe von vier medizinischen Bildern in Zweig 2 und Zweig 3 zu demonstrieren. In Tabelle 4 haben wir diese drei Zweige bewertet, um den Beitrag jedes Zweigs zu messen. Das multimodale Modell übertrifft jedes unimodale Modell hinsichtlich der mittleren ACC, SEN, SPE und AUC, mit der deutlichsten Verbesserung der Empfindlichkeit. Die deutlichste Verbesserung der Empfindlichkeit bestätigt die Wirksamkeit von GMNN-Net. Die Leistung des Netzwerks zeigte eine durchschnittliche Verbesserung von 111 %, 68 % und 13 % im Vergleich zu Zweig 1, Zweig 2 und Zweig 3. Zweig 3 trug unterdessen mehr zur Genauigkeit der Glaukomdiagnose bei, was möglicherweise auf die Tatsache zurückzuführen ist, dass Medizinische Bilder können wirksamere Merkmale des Glaukoms extrahieren. Im Vergleich zu Zweig 3 zeigte der multimodale Output Verbesserungen von 3 %, 13 %, 3 % bzw. 8 % bei ACC, SEN, SPE und AUC.
CNN-Modelle im multimodalen neuronalen Netzwerkzweig können entweder von Grund auf gelernt oder anhand eines vorab trainierten Modells verfeinert werden. Mainstream-Deep-CNN-Architekturen (z. B. ResNet, EfficientNet) enthalten zig Millionen freie Parameter zum Trainieren und erfordern daher eine ausreichend große Anzahl beschrifteter medizinischer Bilder. Andererseits steht das Sammeln und Kommentieren einer großen Anzahl medizinischer Bilder immer noch vor großen Herausforderungen. Zahlreiche Studien haben gezeigt, dass durch die Übertragung des Lernens von ImageNet auf andere Datensätze begrenzter Größe über CNN tiefe Modelle mit besserer Leistung erlernt werden können.
Wir haben Vergleichsexperimente durchgeführt, um festzustellen, ob wir das „End-to-End“-CNN-Netzwerk optimieren müssen, um die Leistung zu verbessern, anstatt nur die endgültige Klassifizierungsschicht zu trainieren. Für das Transferlernen folgten wir dem Ansatz von30, bei dem alle CNN-Schichten außer der letzten Schicht mit einer Lernrate feinabgestimmt werden, die zehnmal kleiner ist als die Standardlernrate. Die letzte vollständig verbundene Schicht wurde zufällig initialisiert und anhand des Glaukom-Datensatzes trainiert, um unserer Klassifizierungsaufgabe zu entsprechen. Seine Lernrate wird auf dem ursprünglichen Wert von 0,01 gehalten. Wir haben auch mit einem auf ImageNet vorab trainierten CNN experimentiert und nur die letzte Klassifikatorschicht für die neue Glaukom-Klassifizierungsaufgabe trainiert. Die Parameter in den Faltungs- und vollständig verbundenen Schichten sind festgelegt und werden als Deep-Image-Extraktoren verwendet. Nach 20 Epochen beträgt der Verlust des Modells mit Transferlearning etwa 0,015 (Abb. 5), während der Verlust des von Grund auf trainierten Modells etwa 0,067 beträgt (Abb. 6). Dies ist ein guter Beweis für die Wirksamkeit der Einführung der Transferleaning-Methode zur Lösung der unzureichenden Anzahl medizinischer Bilddatensätze.
Modelltraining mittels Transfer-Learning-Methode.
Modelltraining mit zufälliger Initialisierung.
Die Interpretierbarkeit ist im medizinischen Bereich sehr wichtig, da sie erklären kann, welchen Bereichen Ärzte bei der Glaukomdiagnose mehr Aufmerksamkeit schenken, und es ist einfacher, das Vertrauen der Patienten in intelligente Systeme aufzubauen und sie sinnvoll in das tägliche Leben zu integrieren. Wir verwenden die von Li et al.22 vorgeschlagene Methode. Markieren Sie den Bereich, auf den Ärzte achten, und entwerfen Sie ein Vergleichsexperiment, um die Genauigkeit von Wärmekarten zu vergleichen, die mit verschiedenen CAM-Methoden erstellt wurden. Und der Würfelindex wird zur quantitativen Bewertung verwendet. Im Vergleich zu vielen bekannten CAM-Methoden haben wir festgestellt, dass die von GradCAM markierten Bereiche eher mit den Aufmerksamkeitsbereichen von Ärzten übereinstimmen (Abb. 7) und der Dice-Index 0,85 erreicht (Tabelle 5). Obwohl die jüngste Arbeit31 ernsthafte Bedenken hinsichtlich der Genauigkeit zeigt, insbesondere beim Training mit begrenzten Daten, sind die Modellparameter aufgrund der im Modell verwendeten Transferlernmethode genauer und es gibt keine schwerwiegenden Fehler.
Aufmerksamkeitskarte von Fundusfotos mit verschiedenen CAM-Methoden.
Die Auflösung medizinischer Bilder bestimmt derzeit häufig die Genauigkeit der Diagnose. Die Auflösung medizinischer Bilder beträgt in der Regel über 1000, was weit über der \(224 \times 224\) Auflösung allgemeiner Bildklassifizierungsnetzwerke liegt. Wenn die Bilder direkt in das Netzwerk eingespeist werden, erhöht sich die Trainingszeit erheblich. Wenn die Bilder beschnitten werden, gehen pathologische Merkmale verloren, was zu einer Verringerung der diagnostischen Genauigkeit führt. Wie kann man das Wahrnehmungsfeld vergrößern? Dies ist für die Objekterkennung in hochauflösenden Bildern, insbesondere für die medizinische Diagnose, von entscheidender Bedeutung. Daher wird es bald eine Frage sein, die es zu berücksichtigen gilt, wie ein solches Problem gelöst werden kann.
Es gibt immer noch einige Probleme im Ausbildungsprozess. Erstens konnten die Netzwerkparameter aufgrund der großen Anzahl von Netzwerkparametern und des kleinen medizinischen Datensatzes nicht optimiert werden. Wenn die HRF, ein kleiner medizinischer Bilddatensatz, allein als Eingabe für das neuronale Netzwerk verwendet wird, kann das Modell die relevanten Merkmale des Glaukoms nicht vollständig erlernen. Zweitens sind die Proben unausgeglichen. Wenn wir beispielsweise den OIA-Datensatz verwenden, ist die Anpassung aufgrund des Ungleichgewichts zwischen Glaukomproben und normalen Proben im Trainingssatz besser, im Testsatz jedoch weniger genau, was zum Problem der Überanpassung führt. Daher müssen wir das Netzwerk entsprechend den Eigenschaften der Daten anpassen.
In diesem Artikel erstellen wir einen neuen Glaukom-Datensatz GM367 mit fünf Etiketten und mehreren medizinischen Bildern. Dies ist unseres Wissens der erste multimodale Multiklassifizierungsdatensatz für Glaukom. In der Zwischenzeit bauen wir ein multimodales neuronales Netzwerk GMNN-Net auf, das eine Struktur mit drei Zweigen in das Netzwerk einbettet und am Ende Text- und Bildinformationen zusammenführt. Zahlreiche experimentelle Ergebnisse zeigen, dass ACC, SEN, SPE und AUC des multimodalen Glaukom-Diagnosemodells im Vergleich zur aktuellen Deep-Learning-Methode um 1,4 %, 1,3 %, 2,6 % bzw. 2,7 % verbessert sind. Die obige Arbeit hat drei Bedeutungen für die klinische Anwendung der intelligenten Glaukomdiagnose. Lassen Sie zunächst die diagnostische Bezeichnung tief in die Glaukomart eintauchen, anstatt wie in der aktuellen Forschung zu beurteilen, ob es sich um ein Glaukom handelt. Zweitens verbessert die Fusion multimodaler Daten die Genauigkeit der Glaukomdiagnose erheblich. Drittens wird die Grad-CAM-Methode hinzugefügt, um die Interpretierbarkeit des Modells zu verbessern, was hilfreich ist, das Modell auf die klinische Diagnose anzuwenden und den aktuellen Mangel an Glaukom-Fachkräften erheblich zu lindern. Zukünftige Arbeiten werden in zwei Teile gegliedert: Wir werden den Datensatz weiter anreichern und Zeitreihendaten des Augeninnendrucks sammeln, um das Glaukom-Diagnoseproblem in ein Vorhersageproblem umzuwandeln und die Früherkennung von Glaukom weiter zu verbessern. Wir werden die Genauigkeit des multimodalen neuronalen Netzwerks weiter verbessern und die Leistung des Modells steigern.
Um das Domänenwissen über Glaukom voll auszunutzen und mehrere medizinische Glaukombilder gleichzeitig zu nutzen, schlagen wir ein multimodales neuronales Netzwerk GMNN-Net für die Diagnose von Glaukomen in mehreren Klassen vor. Das multimodale neuronale Netzwerk für Glaukom besteht aus drei Zweigen zur Verarbeitung grundlegender Metadaten von Patienten, extrahierten Merkmalen und Glaukombildern. Die drei Eingaben sind optional und ermöglichen Daten ohne ein einziges Modell. Das Flussdiagramm von GMNN-Net ist in der Abbildung dargestellt. Der erste Zweig verarbeitet Textinformationen aus den elektronischen Patientenakten, die durch Faltungs-, wiederkehrende und Transkriptionsschichten verarbeitet werden, mit dem Ziel, eine Merkmalsmatrix von Schlüsselwörtern für Glaukomerkrankungen zu erhalten. Der zweite Zweig wurde auf der Grundlage des U-Net-Netzwerks aufgebaut, um Merkmale der Gefäßverteilung des Sehnervs aus dem Heidelberger OCT zu extrahieren, das Verhältnis von Becher zu Scheibe aus Fundusfotos und Augenwinkelöffnung aus UBM zu berechnen und die Dicke der RNFL zu analysieren. Durch die ersten beiden Zweige wurde catboost domänenspezifisches Wissen hinzugefügt. Der dritte Zweig konzentriert sich auf Glaukombilder und nutzt eine Reihe hochmoderner Deep-Learning-Modelle als Rückgrat, um globale und lokale Details von Heidelberger OCT-Bildern und Bildern der Schichtdicke der Sehnervenfasern zu erfassen. Wir wenden die Gradientengewichtete Klassenaktivierungszuordnung \(\left( Grad-CAM\right)\) an, um interpretierbare Module zu konstruieren, wodurch wir eine hohe Genauigkeit und gute Interpretierbarkeit erreichen können.
Flussdiagramm von GMNNnet.
In der multimodalen Glaukomdatenbank wurden elektronische Krankenakten von 367 Patienten gesammelt. Diese werden verwendet, um Schlüsselwörter für Glaukomerkrankungen als Metadateneingabe in den ersten Zweig des multimodalen neuronalen Netzwerks für Glaukom zu extrahieren, um die Diagnose von Glaukom zu unterstützen. Der erste Zweig besteht aus einer Faltungsschicht, einer wiederkehrenden Schicht und einer Transkriptionsschicht, wie in Abb. 8 dargestellt.
Die Faltungsschicht besteht aus der Faltungsschicht und der Maximum-Pooling-Schicht, und die vollständig verbundene Schicht wird entfernt. Es wird verwendet, um Glaukom-Schlüsselwörter aus dem Eingabebild zu extrahieren und sie in einen hochdimensionalen Raum einzubetten, sodass die semantischen Beziehungen zwischen Wörtern besser dargestellt werden. Die Verwendung von Vektoren vermeidet das Problem der „dimensionalen Katastrophe“ der Wortdarstellung. Jeder Merkmalsvektor in der Merkmalssequenz wird aus einer Merkmalskarte generiert.
Die wiederkehrende Schicht ist ein bidirektionales RNN, das jede in der Faltungsschicht erzeugte Merkmalssequenz als Etikettenverteilung vorhersagt. Der erste Grund für die Wahl von RNN ist seine starke Fähigkeit, die Kontextinformationen der Sequenz zu erfassen. Bei der obigen Merkmalsextraktion kann ein Breitzeichen mehrere aufeinanderfolgende Sinnfeldbeschreibungen haben. Die Verwendung des Kontexts zur bildbasierten Sequenzerkennung ist effektiver als die alleinige Verarbeitung eines Zeichens. Und einige mehrdeutige Zeichen lassen sich anhand ihrer Kontextinformationen gut unterscheiden. Der zweite Grund besteht darin, dass RNN auch zur Gewichtsaktualisierung rückwärts propagieren kann, sodass CNN und RNN zu einem vollständigen Netzwerk verbunden werden können. Der dritte Grund besteht darin, dass RNNs Sequenzen beliebiger Länge verarbeiten können, sodass in diesem Fall Bilder beliebiger Breite verarbeitet werden können.
Die Rolle der Transkriptionsschicht besteht darin, die vom RNN generierten Vorhersagen in markierte Sequenzen umzuwandeln. Die durch die verbindungsorientierte zeitliche Klassifizierungsschicht definierte Methode der bedingten Wahrscheinlichkeit wird verwendet, um die Wahrscheinlichkeit der Etikettensequenz zu erhalten, die von der vom RNN generierten Vorhersage \(y=y_{1},\dots,y_{t}\) abhängig ist. Daher kann die negative Log-Likelihood dieser Wahrscheinlichkeit als Zielfunktion für das Training des Netzwerks verwendet werden.
Nehmen Sie an, dass die Ausgabe nach der aktuellen Ebene \(y=y_{1},\dots ,y_{t}\),every \(y_{t}\in {\mathbb {R}}^{L^{' }}\) ist die Wahrscheinlichkeitsverteilung über die Menge L, L enthält alle Labels in der Aufgabe und ein leeres Label, eine Sequenz-zu-Sequenz-Funktionszuordnung B ist auf der Sequenz \(\pi \in L^{'T definiert }\) , \(y_{\pi _{t} }^{t}\) ist die Wahrscheinlichkeit, dass es zum Zeitpunkt t eine Beschriftung \(\pi _{t}\) gibt.
Flussdiagramm von M-Unet.
Das Ziel des zweiten Zweigs besteht darin, unsere M-Unet-Architektur (dargestellt in Abb. 9) basierend auf dem bekannten U-Net-Modell zu entwerfen. Das Netzwerk verarbeitet gleichzeitig vier medizinische Glaukombilder, darunter Heidelberger OCT-, Fundusfotos, UBM- und RNFL-Bilder, die extrahierten Netzhautläsionen, Sehnervengefäßen, Winkelöffnungen und CDR entsprechen. Warum wählen wir verschiedene medizinische Bilder aus, um die entsprechenden Merkmale zu extrahieren? OCT ist eine nicht-invasive optische Bildgebungsmodalität, die kohärentes Licht verwendet, um 3D-Strukturdaten der Netzhaut mit einer Auflösung im Mikrometerbereich zu erfassen. Im Vergleich zu Farbfundus-Bildgebungstechniken ermöglicht die OCT, detailliertere Informationen über die Netzhautstruktur zu erhalten. Deshalb wählen wir die OCT, um glaukomatöse Netzhautläsionen zu extrahieren (z. B. Verengung entlang der Papille, Vertiefung des Sehnervenbechers, nasale Verschiebung der Netzhautgefäße). , Aderhautatrophie oder Defekte in der optischen Faserschicht). Weit verbreitete quantitative Netzhautgefäßmetriken (z. B. Gefäßdichte und Gefäßtortuosität) sind wichtige Indikatoren für die Diagnose von Krankheiten wie Glaukom, Bluthochdruck und diabetischer Retinopathie. Die meisten RV-Segmentierungsaufgaben werden an farbigen Fundusbildern durchgeführt. Aufgrund der begrenzten Fähigkeit von OCT-Bildern, Blutinformationen darzustellen, wurden nur wenige Methoden beschrieben. Daher verwendeten wir Fundusfotos, um quantitative Indikatoren für Netzhautgefäße zu extrahieren. UBM ist ein Instrument zur Untersuchung des Vorhofwinkels, mit dem die Struktur des Vorhofwinkels im Vergleich zur Vorhofwinkelmikroskopie klarer sichtbar gemacht werden kann. Wir haben uns für UBM entschieden, um die Winkelöffnungsdaten zu extrahieren. Darüber hinaus ist das RNFL-Bild ein entfaltetes Bild der Netzhaut, und die Berechnung des CDR durch Messung der RNFL-Dicke kann genauer sein als die Unterteilung des Augenbechers und der Papille durch Fundusfotos. Zweig 1 und Zweig 2 werden als Metadaten und gemischt verarbeitet mit Catboost-Klassifikator.
Zweig 3 kombiniert ResNet mit Transformer. ResNet nahm einige Anpassungen vor, indem es zunächst StdConv2d anstelle des herkömmlichen Conv2d für die Faltungsebene verwendete und dann alle BatchNorm-Ebenen durch GroupNorm-Ebenen ersetzte. Die Stufen 1, 2, 3 und 4 sind im ursprünglichen Resnet 50-Netzwerk jeweils 3, 4, 6 und 3 Mal gestapelt. Aber in diesem Netzwerk sind es 2, 3, 3 bzw. 2. Nach der Merkmalsextraktion über ResNet50 Backbone ist die erhaltene Merkmalsmatrixform [14, 14, 1024] und wird dann in die Patch-Embedding-Ebene eingegeben. Beachten Sie, dass die Kernelgröße und der Schritt der Faltungsschicht Conv2d in der Patch-Einbettung auf 1 geändert werden, was nur zum Anpassen des Kanals verwendet wird. Beachten Sie, dass Sie [class]-Token und Position Embedding hinzufügen müssen, bevor Sie Transformer Encoder eingeben. Anschließend wird der Encoderblock dreimal gestapelt, bestehend aus Layer Norm, Multi-Head Attention und Dropout/DropPath. Schließlich müssen wir nur noch die entsprechenden vom [Klassen]-Token generierten Ergebnisse extrahieren und dann die endgültigen Klassifizierungsergebnisse über MLP Head abrufen. Es ist zu beachten, dass das Training in ImageNet aus Linear + Tanh-Aktivierungsfunktion + Linear besteht. Bei der Migration zu Glaukomdaten ist jedoch nur ein Linear erforderlich.
Für Ärzte ist es sehr schwierig, mit ihren Augen einige winzige Merkmale eines Glaukoms direkt zu erkennen. Das interpretierbare Bildverarbeitungsmodul unterstützt Ärzte bei ihren Bemühungen, die Unterschiede zwischen ähnlichen Merkmalen des Glaukoms zu unterscheiden, die wichtigsten Problembereiche in Glaukombildern hervorzuheben und dabei zu helfen, die Klassifizierungsergebnisse zu verbessern.
Bei Bildern werden abnormale Regionen in Form von visuellen Heatmaps hervorgehoben. Die Region of Interest (ROI) zeigt die hohe klinische Relevanz von Glaukomläsionen. Grad-CAM\(^{++}\) verwendet den globalen Durchschnitt der Gradienten, um die Gewichte zu berechnen.
wobei \(Y^{c}\) bedeutet, dass die Punktzahl einer bestimmten Klasse das Skalarprodukt aus Gewicht \(w_{k}^{c}\) und Feature-Map \(A_{i,j}^{k) ist }\).
Die Grad-CAM\(^{+}\)-Heatmap ist eine gewichtete Kombination von Feature-Maps und kann wie folgt ausgedrückt werden:
und \(w_{k}^{c}\) kann wie folgt berechnet werden
wobei \(\alpha _{ij}^{kc}\) der Gewichtskoeffizient für die pixelweisen Gradienten für Klasse c und Faltungsmerkmalskarte \(A_{ij}^{k}\) ist.
Unausgeglichene Daten sind im medizinischen Bereich häufig, was dazu führt, dass sich der Klassifikator mehr auf die Hauptklassen konzentriert, die Nebenklassen jedoch vernachlässigt. Dies führt zu einer geringen Sensitivität gegenüber den Nebenklassen und einer geringen Spezifität gegenüber den Hauptklassen, was bis zu einem gewissen Grad durch eine Überarbeitung der Verlustfunktion behoben werden kann.
Der kategoriale Kreuzentropieverlust ist eine beliebte Verlustfunktion beim Lernen von Mehrklassenklassifikationen. Es weist jeder Klasse das gleiche Gewicht zu, was dazu führt, dass den Nebenklassen wenig Aufmerksamkeit geschenkt wird und die Sensibilität für unterrepräsentierte Klassen gering ist. Um den Effekt unausgeglichener Daten zu überwinden, führen wir den Fokusverlust als Verlustfunktion ein. Der Fokusverlust ist eine Variante des kategorialen Kreuzentropieverlusts, der für die Verarbeitung von Ungleichgewichtsdaten vorgeschlagen wurde.
Das auf dem multimodalen Glaukomdatensatz basierende Modell kann verschiedene Krankheitstypen des Glaukoms diagnostizieren, was eher der klinischen Diagnose entspricht. Die Genauigkeit der Diagnose kann durch die Verwendung von drei Zweigen zur Verarbeitung der multimodalen Daten und die gegenseitige Validierung zwischen den Daten verbessert werden. Die Einführung von Grad-CAM erhöht die Interpretierbarkeit des Modells und erleichtert den Aufbau des Vertrauens der Patienten in das intelligente System. Die Einführung des Transferlernens löst das Problem der unzureichenden Anzahl medizinischer Bilddatensätze.
Die während der aktuellen Studie generierten und analysierten Datensätze sind auf begründete Anfrage beim entsprechenden Autor erhältlich. Wir werden erwägen, die Datensätze nach Abschluss der Studie der Öffentlichkeit zugänglich zu machen.
Barkana, Y. & Dorairaj, S. Betreff: Tham et al.: Globale Glaukomprävalenz und Prognosen der Glaukombelastung bis 2040: Eine systematische Überprüfung und Metaanalyse (Ophthalmology 2014; 121: 2081–90). Ophthalmologie 122, e40–e41. https://doi.org/10.1016/j.ophtha.2014.11.030 (2015).
Artikel PubMed Google Scholar
Yamamoto, S. et al. Primäres Offenwinkelglaukom in einer Population, die mit einer hohen Prävalenz des primären Engwinkelglaukoms assoziiert ist: Die Kumejima-Studie. Augenheilkunde 121, 1558–1565. https://doi.org/10.1016/j.ophtha.2014.03.003 (2014).
Artikel PubMed Google Scholar
Kapetanakis, VV et al. Globale Variationen und zeitliche Trends in der Prävalenz des primären Offenwinkelglaukoms (poag): Eine systematische Überprüfung und Metaanalyse. Br. J. Ophthalmol. 100, 86–93. https://doi.org/10.1136/bjophthalmol-2015-307223 (2016).
Artikel PubMed Google Scholar
Krizhevsky, A., Sutskever, I. & Hinton, GE Imagenet-Klassifizierung mit tiefen Faltungs-Neuronalen Netzen. Komm. ACM 60, 84–90. https://doi.org/10.1145/3065386 (2017).
Artikel Google Scholar
Chen, X. et al. Automatisches Feature-Learning zur Glaukomerkennung basierend auf Deep Learning. In Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015 (Hrsg. Navab, N. et al.) 669–677 (Springer, Cham, 2015).
Kapitel Google Scholar
Jiang, Y. et al. Jointrcnn: Ein regionalbasiertes Faltungs-Neuronales Netzwerk für die Segmentierung der Sehnervenpapille und des Sehnervenkopfes. IEEE Trans. Biomed. Ing. 67, 335–343. https://doi.org/10.1109/TBME.2019.2913211 (2020).
Artikel ADS PubMed Google Scholar
Fu, H. et al. Gemeinsame Segmentierung der Sehnervenpapille und des Sehnervenbechers basierend auf einem tiefen Netzwerk mit mehreren Markierungen und polarer Transformation. IEEE Trans. Med. Bildgebung 37, 1597–1605. https://doi.org/10.1109/TMI.2018.2791488 (2018).
Artikel ADS PubMed Google Scholar
Zhao, R. et al. Direkte Schätzung des Cup-to-Disc-Verhältnisses für das Glaukom-Screening durch halbüberwachtes Lernen. IEEE J. Biomed. Gesundheitsinformationen. 24, 1104–1113. https://doi.org/10.1109/JBHI.2019.2934477 (2020).
Artikel PubMed Google Scholar
Koozekanani, D., Boyer, K. & Roberts, C. Netzhautdickenmessungen mittels optischer Kohärenztomographie unter Verwendung eines Markov-Grenzmodells. IEEE Trans. Med. Bildgebung 20, 900–916. https://doi.org/10.1109/42.952728 (2001).
Artikel CAS PubMed Google Scholar
Yousefi, S. et al. Aus Daten lernen: Erkennen glaukomatöser Defektmuster und Erkennen der Progression anhand von Gesichtsfeldmessungen. IEEE Trans. Biomed. Ing. 61, 2112–2124. https://doi.org/10.1109/TBME.2014.2314714 (2014).
Artikel PubMed PubMed Central Google Scholar
Ceccon, S., Garway-Heath, DF, Crabb, DP & Tucker, A. Erforschung des frühen Glaukoms und des Gesichtsfeldtests: Klassifizierung und Clustering mithilfe von Bayes'schen Netzwerken. IEEE J. Biomed. Gesundheitsinformationen. 18, 1008–1014. https://doi.org/10.1109/JBHI.2013.2289367 (2014).
Artikel PubMed Google Scholar
Kim, KE, Jeoung, JW, Park, KH, Kim, DM & Kim, SH Diagnostische Klassifizierung von Makulaganglienzellen und Analyse der retinalen Nervenfaserschicht: Unterscheidung falsch-positiver Ergebnisse von Glaukom. Ophthalmologie 122, 502–510. https://doi.org/10.1016/j.ophtha.2014.09.031 (2015).
Artikel PubMed Google Scholar
Hu, Z., Niemeijer, M., Abramoff, MD & Garvin, MK Multimodale Netzhautgefäßsegmentierung mithilfe optischer Kohärenztomographie im Spektralbereich und Fundusfotografie. IEEE Trans. Med. Bildgebung 31, 1900–1911. https://doi.org/10.1109/TMI.2012.2206822 (2012).
Artikel PubMed PubMed Central Google Scholar
Shankaranarayana, SM, Ram, K., Mitra, K. & Sivaprakasam, M. Vollständig gefaltete Netzwerke zur monokularen Netzhauttiefenschätzung und Segmentierung des Sehnervenkopfes. IEEE J. Biomed. Gesundheitsinformationen. 23, 1417–1426. https://doi.org/10.1109/JBHI.2019.2899403 (2019).
Artikel PubMed Google Scholar
Hervella, l. S., Ramos, L., Rouco, J., Novo, J. & Ortega, M. Multimodales, selbstüberwachtes Vortraining für die gemeinsame Segmentierung der Papille und Pfanne in Augenhintergrundbildern. In ICASSP 2020 – 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 961–965, https://doi.org/10.1109/ICASSP40776.2020.9053551 (2020).
Sivaswamy, J., Krishnadas, SR, Datt Joshi, G., Jain, M. & Syed Tabish, AU Drishti-gs: Netzhautbilddatensatz für die Segmentierung des Sehnervenkopfes (onh). Im Jahr 2014 IEEE 11th International Symposium on Biomedical Imaging (ISBI), 53–56, https://doi.org/10.1109/ISBI.2014.6867807 (2014).
Budai, A., Bock, R., Maier, A., Hornegger, J. & Michelson, G. Robuste Gefäßsegmentierung in Fundusbildern. Int. J. Biomed. Bildgebung 2013, 154860. https://doi.org/10.1155/2013/154860 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Zhang, Z. et al.\(origa^{-light}\): Eine Online-Bilddatenbank des Netzhautfundus für die Glaukomanalyse und -forschung. Im Jahr 2010 Annual International Conference of the IEEE Engineering in Medicine and Biology, 3065–3068, https://doi.org/10.1109/IEMBS.2010.5626137 (2010).
Fumero, F., Alayon, S., Sanchez, JL, Sigut, J. & Gonzalez-Hernandez, M. Rim-one: Eine offene Netzhautbilddatenbank zur Beurteilung des Sehnervs. Im Jahr 2011 24. Internationales Symposium für computergestützte medizinische Systeme (CBMS), 1–6, https://doi.org/10.1109/CBMS.2011.5999143 (2011).
Diaz-Pinto, A. et al. CNNs zur automatischen Glaukombeurteilung anhand von Fundusbildern: Eine umfassende Validierung. Biomed. Ing. Online 18, 1–10 (2019).
Artikel Google Scholar
Decencière, E. et al. Feedback zu einer öffentlich verbreiteten Datenbank: der Messidor-Datenbank. Bild Anal. Stereol. 33, 231–234. https://doi.org/10.5566/ias.1155 (2014).
Artikel MATH Google Scholar
Li, L. et al. Eine umfangreiche Datenbank und ein CNN-Modell zur aufmerksamkeitsbasierten Glaukomerkennung. IEEE Trans. Med. Bildgebung 39, 413–424. https://doi.org/10.1109/TMI.2019.2927226 (2020).
Artikel PubMed Google Scholar
Li, M. et al. Bildprojektionsnetzwerk: 3D-zu-2D-Bildsegmentierung in Oktabildern. IEEE Trans. Med. Bildgebung 39, 3343–3354. https://doi.org/10.1109/TMI.2020.2992244 (2020).
Artikel PubMed Google Scholar
Wang, S., Yin, Y., Wang, D., Wang, Y. & Jin, Y. Interpretierbarkeitsbasierte multimodale Faltungs-Neuronale Netze für die Diagnose von Hautläsionen. IEEE Transactions on Cybernetics 1–15, https://doi.org/10.1109/TCYB.2021.3069920 (2021).
XuP, Wan, C., Cheng, J., Niu, D. & Liu, J. Erkennung des Sehnervenkopfes mittels Deep Learning in Fundusbildern. Medizinische Bildanalyse von Föten, Säuglingen und Augenärzten. 134–141 (2017).
Ronneberger, O., Fischer, P. & Brox, T. U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In Navab, N., Hornegger, J., Wells, WM & Frangi, AF (Hrsg.) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 234–241 (Springer International Publishing, Cham, 2015).
Jin, Q., Chen, Q., Meng, Z., Wang, B. & Su, R. Konstruktion von Netzhautgefäßsegmentierungsmodellen basierend auf einem Faltungs-Neuronalen Netzwerk. Neuronaler Prozess. Lette. 1, 1–18 (2019).
CAS Google Scholar
Fu, H. et al. Disc-fähiges Ensemble-Netzwerk für das Glaukom-Screening anhand von Fundusbildern. IEEE Trans. Med. Bildgebung 37, 2493–2501. https://doi.org/10.1109/TMI.2018.2837012 (2018).
Artikel PubMed Google Scholar
Fu, H., Xu, Y., Lin, S., Kee Wong, DW & Liu, J. Deepvessel: Netzhautgefäßsegmentierung durch Deep Learning und bedingtes Zufallsfeld. In Medical Image Computing and Computer-Assisted Intervention – MICCAI 2016 (Hrsg. Ourselin, S. et al.) 132–139 (Springer, Cham, 2016).
Kapitel Google Scholar
Razavian, AS, Azizpour, H., Sullivan, J. & Carlsson, S. Cnn-Features von der Stange: Eine erstaunliche Basis für Anerkennung. Im Jahr 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, 512–519, https://doi.org/10.1109/CVPRW.2014.131 (2014).
Draelos, RL & Carin, L. Verwenden Sie Hirescam anstelle von Grad-Cam für getreue Erklärungen von Faltungs-Neuronalen Netzen (2020).
Referenzen herunterladen
Diese Autoren haben gleichermaßen beigetragen: Yi Li und Yujie Han.
Hochschule für Informationswissenschaft und Ingenieurwesen, Northeastern University, Shenyang, Liaoning, China
Yi Li, Yujie Han & Zhifen Guo
College of Software, Northeastern University, Shenyang, Liaoning, China
Zihan Li
Hochschule für Metallurgie, Northeastern University, Shenyang, Liaoning, China
Yi Zhong
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
YL und YH konzipierten und führten die Experimente durch. Alle Autoren analysierten die experimentellen Ergebnisse und überprüften das Manuskript.
Korrespondenz mit Yi Li.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Li, Y., Han, Y., Li, Z. et al. Ein auf Transferlernen basierendes multimodales neuronales Netzwerk, das Metadaten und mehrere medizinische Bilder für die Glaukom-Diagnose kombiniert. Sci Rep 13, 12076 (2023). https://doi.org/10.1038/s41598-022-27045-6
Zitat herunterladen
Eingegangen: 16. Mai 2022
Angenommen: 23. Dezember 2022
Veröffentlicht: 26. Juli 2023
DOI: https://doi.org/10.1038/s41598-022-27045-6
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

