banner
Heim / Blog / Ein Deep-Learning-Modell, das räumliche und zeitliche Informationen einbezieht, erkennt mithilfe eines konsensbasierten Ansatzes erfolgreich eine Verschlechterung des Gesichtsfeldes
Blog

Ein Deep-Learning-Modell, das räumliche und zeitliche Informationen einbezieht, erkennt mithilfe eines konsensbasierten Ansatzes erfolgreich eine Verschlechterung des Gesichtsfeldes

Jun 28, 2023Jun 28, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 1041 (2023) Diesen Artikel zitieren

688 Zugriffe

11 Altmetrisch

Details zu den Metriken

Das Glaukom ist eine der Hauptursachen für irreversible Blindheit und seine Verschlechterung wird am häufigsten durch Gesichtsfeldtests (VF) überwacht. Deep-Learning-Modelle (DLM) können dabei helfen, eine VF-Verschlechterung konsistent und reproduzierbar zu erkennen. In dieser Studie haben wir die Leistung eines DLM an einer großen Population von Glaukompatienten entwickelt und untersucht. Wir schlossen 5.099 Patienten (8.705 Augen) ein, die zwischen Juni 1990 und Juni 2020 an einem Institut untersucht wurden und bei denen VF-Tests sowie eine ärztliche Beurteilung der VF-Verschlechterung durchgeführt wurden. Da es keinen Goldstandard zur Identifizierung einer VF-Verschlechterung gibt, haben wir einen Konsens von sechs häufig verwendeten algorithmischen Methoden verwendet, die sowohl globale Regressionen als auch punktuelle Änderungen der VFs umfassen. Wir haben die Konsensentscheidung als Referenzstandard verwendet, um das DLM zu trainieren/testen und die Leistung des Klinikers zu bewerten. 80 %, 10 % bzw. 10 % der Patienten wurden in Trainings-, Validierungs- und Testsätze einbezogen. Von den 873 Augen im Testsatz stammten 309 [60,6 %] von Frauen und das Durchschnittsalter betrug 62,4 Jahre; (IQR 54,8–68,9). Das DLM erreichte eine AUC von 0,94 (95 %-KI 0,93–0,99). Auch nach Entfernung der 6 aktuellsten VFs, die dem Modell weniger Datenpunkte lieferten, konnte das DLM mit einem AUC von 0,78 (95 %-KI 0,72–0,84) erfolgreich eine Verschlechterung identifizieren. Die klinische Beurteilung der Verschlechterung (basierend auf der Dokumentation aus der Gesundheitsakte zum Zeitpunkt des endgültigen VF in jedem Auge) ergab einen AUC von 0,64 (95 %-KI 0,63–0,66). Sowohl der DLM als auch der Kliniker schnitten schlechter ab, wenn die ursprüngliche Erkrankung schwerwiegender war. Diese Daten zeigen, dass ein DLM, der auf einem Konsens über Methoden zur Definition einer Verschlechterung geschult wurde, eine VF-Verschlechterung erfolgreich identifizierte und Klinikern bei der routinemäßigen klinischen Versorgung helfen könnte.

Das Glaukom ist weltweit die häufigste Ursache für irreversible Blindheit und die frühzeitige Erkennung einer Verschlechterung ist für die Prävention von entscheidender Bedeutung1,2. Gesichtsfeldtests (VF) sind eine der wichtigsten Strategien zur Überwachung der Krankheitsverschlimmerung3. Aufgrund der schwankenden Leistung, der Variabilität und des Fehlens eines Goldstandards4,5,6,7 ist es schwierig, eine Verschlechterung bei Kammerflimmern zu erkennen. Ein Ansatz zur Bewältigung dieses Problems umfasst häufigere Tests, obwohl dies eine erhebliche Belastung für die Patienten darstellen kann und dennoch mehrere Jahre dauert, um eine Progression zu erkennen8,9,10,11,12.

Es wurden verschiedene objektive Methoden entwickelt, um die VF-Progression zu bestimmen. Diese lassen sich grob in ereignis- und trendbasierte Methoden unterteilen. Ereignisbasierte Methoden identifizieren das Fortschreiten, indem sie VFs mit verschiedenen Regeln bewerten, die auf der Dichte und Tiefe des Defekts im Vergleich zum Ausgangs-VF basieren. Sie wurden in großen klinischen Studien wie EMGT, CIGTS und AGIS13,14,15 eingesetzt. Die geführte Progressionsanalyse (GPA), die den EMGT-Kriterien ähnelt, wird in der klinischen Praxis häufig verwendet und frühere Studien haben gezeigt, dass sie die Progression früher, aber mit geringerer Spezifität erkennt16,17. Trendbasierte Methoden verwenden eine lineare Regression, die auf globale VF-Parameter oder punktuelle Daten angewendet werden kann. Frühere Arbeiten deuten darauf hin, dass ereignisbasierte Methoden einen Fortschritt früher erkennen könnten als trendbasierte Methoden18,19. In zwei Studien wurden alle diese Methoden anhand einer großen Menge longitudinaler VFs verglichen und zeigten eine schwache Übereinstimmung, was darauf hindeutet, dass ein Konsens zwischen den verschiedenen Algorithmen erforderlich ist, um die Progression zu ermitteln20,21.

Der Einsatz künstlicher Intelligenz stellt einen möglichen Ansatz dar, um eine Verschlechterung früher und konsistenter zu erkennen22,23,24,25,26. Es wurde sogar verwendet, um zukünftiges Kammerflimmern vorherzusagen oder Patienten mit dem höchsten Risiko einer Verschlechterung zu identifizieren27,28. Herkömmliche Ansätze des maschinellen Lernens nutzen die vorab festgelegte Transformation von Unterkomponenten der Daten, während Deep-Learning-Ansätze das Trainieren von Modellen mit Rohdaten ermöglichen29. Deep Learning verfügt über unterschiedliche Ansätze, die je nach Datenstruktur nützlich sein können. In einer kürzlich erschienenen Arbeit zeigte eine bestimmte Art von Deep-Learning-Modell (DLM), ein Convolutional Long Short-Term Memory (LSTM)-Modell, Erfolg bei der Identifizierung einer VF-Verschlechterung30. Dieses Modell ist insofern einzigartig, als es die Extraktion raumzeitlicher Merkmale ermöglicht, die beide für die Beurteilung von VFs von entscheidender Bedeutung sind.

Das Ziel der aktuellen Arbeit bestand darin, die Leistung eines Faltungs-LSTM bei der Erkennung einer VF-Verschlechterung zu bewerten, wenn es auf einem Konsens von ereignis- und trendbasierten Algorithmen trainiert wurde, die üblicherweise zur Erkennung einer Verschlechterung verwendet werden. Um die Robustheit des DLM weiter zu bewerten, haben wir seine Leistung bei der Erkennung von Verschlechterungen beim Training mit weniger VFs bewertet. Wir vergleichen auch die Übereinstimmung zwischen den verschiedenen Algorithmen, die zur Erkennung einer Verschlechterung verwendet werden, um die Bedeutung der Notwendigkeit eines Konsensmaßes für die Verschlechterung hervorzuheben. Basierend auf den hier präsentierten Daten könnte ein DLM Ärzten helfen, eine VF-Verschlechterung zu erkennen.

Es wurden 8705 Augen von 5099 Patienten eingeschlossen (Abb. 1). Das Durchschnittsalter aller Patienten bei ihrem ersten VF betrug 62,3 Jahre, wobei 56,2 % weiblich waren (Tabelle 1). Die anfängliche mittlere VF-Abweichung (MD) über alle Augen betrug –2,5 dB mit einem mittleren Längsabfall von 0,19 dB/Jahr. Die Verteilung der Basis-MD ist im Histogramm dargestellt (ergänzende Abbildung 1). Für jedes Auge wurden ungefähr einmal pro Jahr etwa 12 Gesichtsfelder (VF) untersucht. Die Patienten wurden in Trainings- (80 %), Validierungs- (10 %) und Testsätze (10 %) unterteilt. Tabelle 1 zeigt diese und zusätzliche Merkmale für Trainings-, Validierungs- und Testaugen. Es gab keinen statistisch signifikanten Unterschied zwischen den drei Gruppen (p > 0,05, ANOVA). Die Verwendung nur eines Auges jedes Patienten im Testsatz (n = 510) änderte die Ergebnisse nicht (Daten nicht gezeigt).

Einschlusskriterien für die Studie. Das Flussdiagramm zeigt die Gesamtzahl der Patienten, Augen und VF-Untersuchungen, die zu Studienbeginn anwesend waren. Augen wurden ausgeschlossen, wenn sie keine vollständigen VF-Daten hatten und nicht über mindestens 7 zuverlässige Felder verfügten. Das letzte Einschlusskriterium war die Entscheidung der Ärzte, dass sich die Erkrankung zum Zeitpunkt der retrospektiven VF-Untersuchung verschlechtert hatte.

Für jedes Auge wurden alle Methoden zur Beurteilung des Fortschreitens berechnet und die Ergebnisse sind in Abb. 2 dargestellt. Dieses Diagramm zeigt die Gesamtzahl der fortschreitenden Augen auf der linken Seite der Zeilen neben jeder Methode; CIGTS wies mit 2.411 (27,7 %) die höchste Anzahl fortschreitender Augen auf, gefolgt von GPA mit 2.192 (25,2 %). VFI-Steigung und AGIS identifizierten mit 643 (7,4 %) bzw. 784 (9,0 %) die wenigsten fortschreitenden Augen. Die Ärzte befanden sich in der Mitte und identifizierten 1353 (15,6 %) fortschreitende Augen. Die Spalten zeigen die Anzahl der Augen, bei denen eine Progression auf der Grundlage verschiedener Methodenkombinationen in jeder Zeile auftrat. Insgesamt wurde bei 126 Augen von allen Methoden und Klinikern eine Progression festgestellt (Spalte ganz rechts).

Störungsdiagramm mit allen Methoden zur Erkennung einer Verschlechterung. Jede Zeile in der Tabelle entspricht einer anderen Methode zur Erkennung einer Verschlechterung. Das Balkendiagramm auf der linken Seite zeigt die Gesamtzahl der Augen an, bei denen mit der angegebenen Methode eine Verschlechterung festgestellt wurde, wobei die grauen Linien 1000 und 2000 angeben. Die Spalten geben mit Punkten und Linien die Kombination der bewerteten Methoden an. Das Balkendiagramm über der Spalte zeigt die Anzahl der Augen, die für diese bestimmte Methodenkombination Fortschritte machen. Die ersten sieben Spalten zeigen, wie viele Augen durch jede Methode einzeln als fortschreitend identifiziert wurden, während die Spalte ganz rechts zeigt, wie viele Augen durch jede Methode als fortschreitend identifiziert wurden.

Kappa-Koeffizienten zum Vergleich der Übereinstimmung zwischen den einzelnen Methoden sind in Tabelle 2 aufgeführt. Die Übereinstimmung aller Methoden zur Erkennung einer VF-Verschlechterung wurde berechnet und Fleiss-Kappa (95 %-KI) betrug 0,34 (0,33, 0,36), wenn die Einschätzungen der Ärzte zur Verschlechterung einbezogen wurden 0,41 (0,39, 0,42), wenn die Beurteilungen des Arztes nicht berücksichtigt wurden. Trendbasierte Methoden (MD-Steigung, PLR-Steigung und VFI-Steigung) wiesen im Allgemeinen eine höhere Übereinstimmung untereinander auf (dunklerer Farbton). Von den ereignisbasierten Methoden (AGIS, GPA und CIGTS) hatte CIGTS die geringste Übereinstimmung mit anderen trend- und ereignisbasierten Methoden. Die Einschätzung der Ärzte zur Verschlechterung stimmte nur schwach mit allen anderen Methoden überein.

Das Deep-Learning-Modell (DLM) wurde darauf trainiert, die Verschlechterung des Gesichtsfeldes basierend auf dem 4-von-6-Referenzstandard zu erkennen (Abb. 3). Das DLM hatte eine AUC (95 %-KI) von 0,94 (0,93; 0,99) (blaue Linie, Abb. 4). Im ROC-Diagramm (Abb. 3) wird gezeigt, dass die ärztliche Beurteilung einer Verschlechterung eine niedrigere True-Positive-Rate (TPR) und eine höhere False-Positive-Rate (FPR) aufweist als das DLM. Die Beurteilung durch den Arzt ergab einen TPR (95 %-KI) von 0,42 (0,32; 0,54) und einen FPR (95 %-KI) von 0,16 (0,06; 0,37). Beim TPR des Arztes (0,42) hatte das All-VF-DLM einen FPR (95 %-KI) von 0,024 (0,00; 0,062). Beim FPR des Arztes (0,16) hatte das All-VF-DLM einen TPR von 0,93 (0,87; 0,99). Die geschätzte AUC für Ärzte betrug 0,63 (0,62, 0,64). Ein Vorteil der Anwendung eines DLM besteht darin, dass die Modellleistung mit weniger Datenpunkten bewertet werden kann. Für jedes Auge wurden bis zu 6 VFs entfernt und die Modellleistung bewertet (mehrfarbige Linien). Die AUC nahm mit der Entfernung weiterer VFs ab, aber alle AUCs waren immer noch deutlich größer als die Einschätzung des Arztes unter Verwendung aller VF-Daten (p < 0,001 für alle Modelle im Vergleich zum Arzt). Das DLM hatte eine deutlich höhere AUC, unabhängig davon, wie viele Tests (1 von 6 bis 6 von 6) für den Referenzstandard erforderlich waren (Ergänzungstabelle 1). Das Mixed-Effects-Modell hatte auch eine niedrigere AUC als das DLM mit einer AUC von 0,82 (0,77–0,86, Daten nicht gezeigt).

Diagramm des Deep-Learning-Modells. Deep-Learning-Architektur, die Daten aus Gesichtsfeldern und deren 8 globale Metriken einbezieht.

Testsatzleistung des Deep-Learning-Modells und klinische Beurteilung der VF-Verschlechterung. Die blaue Linie zeigt die Modellleistung mit den vollständigen Daten. Eine abnehmende AUC ist bei der Entfernung weiterer VFs (Verschiebung der ROC-Kurve nach rechts) in Richtung Rosa zu erkennen, wo 6 der letzten VFs entfernt wurden. Die AUC sank von 0,94 (0,91, 0,98) auf 0,78 (0,72, 0,84), wenn die vollständigen Daten bzw. die Entfernung von 6 VFs verglichen wurden. Der Cyan-Punkt und die 95 %-CI-Whisker zeigen die Sensitivität und Spezifität von Ärzten bei der Erkennung einer Verschlechterung bei derselben Augengruppe im klinischen Alltag. Die geschätzte AUC für Ärzte betrug 0,63 (0,62, 0,64).

Tabelle 3 zeigt die Sensitivität und Spezifität für das DLM und die Ärzte nach Unterteilung der Daten nach der anfänglichen Schwere der Erkrankung. Die Leistung war sowohl für das DLM als auch für die Ärzte deutlich schlechter, wenn die Patienten zu Studienbeginn eine schwerere Erkrankung hatten (p < 0,05 für beide Vergleiche).

Eine ähnliche Analyse wurde unter Verwendung der Beurteilung der Verschlechterung durch den Arzt als Referenzstandard durchgeführt und das DLM konnte mit einer AUC von 0,79 ebenfalls erfolgreich eine Verschlechterung identifizieren (ergänzende Abbildung 2). Der Vergleich der AUC für die Schwere der Erkrankung wird ebenfalls gezeigt (Ergänzungstabelle 2).

In dieser großen Patientenpopulation gab es erhebliche Unterschiede in der Übereinstimmung zwischen den verschiedenen Methoden zur Identifizierung einer VF-Verschlechterung. Wir zeigen, dass ein DLM, der auf der Grundlage eines Konsenses dieser Methoden darauf trainiert wurde, eine VF-Verschlechterung zu erkennen, gut funktionierte. Darüber hinaus war das DLM robust und hatte eine deutlich höhere AUC als die Leistung des Klinikers und das Mixed-Effects-Modell, wenn ihm weniger VF-Daten zur Verfügung standen, als dem Kliniker zur Verfügung standen. Sowohl das DLM als auch die Ärzte hatten größere Schwierigkeiten, eine Verschlechterung einzuschätzen, wenn die Krankheit zu Beginn weiter fortgeschritten war. Das DLM kann Ärzten dabei helfen, besser einzuschätzen, wann sich Kammerflimmern verschlechtert.

In mehreren Studien wurde die Übereinstimmung zwischen Algorithmen zur Identifizierung einer VF-Verschlechterung verglichen. Erste Studien zeigten, dass ereignisbasierte Methoden, nämlich GPA, eine höhere Sensitivität und eine frühere Erkennung von Verschlechterungen aufwiesen als trendbasierte Methoden, nämlich VFI und MD-Regression18,19. Verschiedene Studien, in denen ereignis- und trendbasierte Methoden verglichen werden, zeigen Unterschiede in der Übereinstimmung von schlecht bis mäßig mit Kappa-Koeffizienten zwischen 0,22 und 0,5118,19,20,21. Die Übereinstimmung innerhalb ereignisbasierter Methoden ist besser und liegt zwischen 0,48 und 0,55. Trendbasierte Methoden weisen ebenfalls eine hohe Übereinstimmung von bis zu 0,67 zwischen MD und VFI auf, aber auch nur 0,2 zwischen MD und PLR20,21. Unsere Studie zeigte auch eine mäßige Übereinstimmung zwischen GPA und sowohl AGIS (0,45) als auch CIGTS (0,48). Wir fanden eine höhere Übereinstimmung zwischen verschiedenen trendbasierten Methoden im Bereich von 0,57 bis 0,72. Eine einzigartige Stärke unserer Studie war die Bewertung der GPA-Übereinstimmung in einer großen Stichprobe. In der anderen Studie mit einer großen Stichprobe (~ 13.000 Augen) wurde GPA20 nicht bewertet. Interessanterweise schwankte der Prozentsatz der Augen, bei denen eine Verschlechterung festgestellt wurde, in den verschiedenen Studien. Unsere Ergebnisse stehen im Gegensatz zu einem kürzlich veröffentlichten Bericht, der feststellte, dass PLR mit fast 50 % den höchsten Anteil an VFs aufwies und CIGTS mit 10 % den niedrigsten Anteil aufwies20. In einem anderen Bericht wurde festgestellt, dass CIGTS/GPA/PLR bei den meisten Augen eine Verschlechterung feststellte, während die VFI-Rate am niedrigsten war, was eher unseren Ergebnissen entspricht21. Wichtig ist, dass die Unterschiede hier aus der Variabilität der Patientenpopulation und der Praxismuster resultieren könnten. Die Augen in dieser Studie wiesen zu Beginn eine mildere Erkrankung auf, mit einem mittleren MD von –2,5 dB im Vergleich zu etwa –5 dB in den anderen Studien. Die demografischen Daten der Patienten in dieser Studie sind mit anderen Studien vergleichbar, obwohl der Anteil weiblicher und schwarzer Patienten höher ist als in Bevölkerungsstudien31.

Wenn Algorithmen übereinstimmen, kann eine Reihe von Faktoren zugrunde liegen. Bei mehr VF-Tests konnten trendbasierte Methoden einen Fortschritt im Vergleich zum GPA18 feststellen. Um die Diskordanz gezielt zu bewerten, identifizierte eine Studie Augen, bei denen drei von sechs Algorithmen eine Verschlechterung identifizierten und die anderen drei keine Verschlechterung zeigten. Dabei wurde festgestellt, dass die Diskordanz mit einer schlechteren anfänglichen MD, einem höheren Alter, mehr VFs, einer längeren Nachbeobachtungsdauer und der Institution, von der die Daten stammten, verbunden war war von20. Diese Ergebnisse verdeutlichen die Schwierigkeit, eine einzelne Methode als objektiven Referenzstandard zu identifizieren. Sogar die Entscheidung klinischer Experten weist erhebliche Unterschiede auf32,33. In dieser Studie haben wir objektive Kennzahlen kombiniert, um einen Konsens zu ermitteln. Die Forderung nach einem Konsens über zu viele Algorithmen würde zu viel Stringenz erzeugen; Beispielsweise ergab die Übereinstimmung der Algorithmen 5/6 und 6/6 in einer Studie eine Verschlechterung nur bei 3,1 % bzw. 2,5 %20. In dieser Studie betrug der Prozentsatz der Patienten, bei denen eine Verschlechterung mit 4, 5 und 6 Algorithmen festgestellt wurde, die eine Verschlechterung erkennen, 10,0 %, 6,8 % und 3,8 %. Wir haben die Definition von Konsens als 4/6 oder mehr Übereinstimmung angewendet. Ein Vorteil der Anforderung von vier Algorithmen bestand darin, dass für jedes Auge, bei dem eine Verschlechterung festgestellt wurde, mindestens eine ereignis- und trendbasierte Methode erforderlich war, um zuzustimmen. Obwohl unser Hauptaugenmerk hier auf der Konsensentscheidung als Referenzstandard liegt, haben wir auch eine ergänzende Analyse durchgeführt, bei der die Entscheidung des Klinikers als Referenzstandard verwendet wurde. Der DLM wurde mit einer AUC von 0,79 erfolgreich trainiert. Diese schlechtere Leistung im Vergleich zum Konsens als Referenzstandard könnte auf zahlreiche Gründe zurückzuführen sein, beispielsweise auf einen weniger algorithmischen Ansatz der Kliniker oder die Einbeziehung klinischer Faktoren, die dem Modell nicht zur Verfügung stehen.

Traditionelles maschinelles Lernen wird seit vielen Jahren auf das Glaukom angewendet, und neuere Fortschritte in der Computertechnik haben komplexere Modelle ermöglicht29. Da VF-Änderungen eine signifikante räumlich-zeitliche Komponente haben, zeigte eine kürzlich erschienene Arbeit Erfolg bei der Verwendung eines Faltungs-LSTM-Modells (cLSTM), das räumliche und zeitliche Merkmale beibehält. In dieser Studie wurden die Veränderungen des Kammerflimmerns durch trendbasierte Methoden definiert und es wurde gezeigt, dass cLSTM eine Verschlechterung mit AUC-Werten von bis zu 0,93930 erfolgreich erkennen konnte. Diese Werte sind höher als bei herkömmlichen Ansätzen des maschinellen Lernens. Beispielsweise hatte das Gaußsche Mischungsmodell eine Sensitivität und Spezifität von 89,9 % und 93,8 % mit einer AUC von 0,8622. Aufgrund der verschiedenen Referenzstandards sind diese Studien jedoch allesamt schwer zu vergleichen. Diese Studie ist insofern einzigartig, als cLSTM verwendet wird, um eine VF-Verschlechterung auf der Grundlage des Konsenses mehrerer Algorithmen zu identifizieren. Wir vergleichen das DLM auch mit einem Mixed-Effects-Modell und zeigen eine überlegene Leistung. Ein weiterer Vergleich in dieser Studie ist die Leistung des Klinikpersonals, die den potenziellen Wert des DLM in der routinemäßigen klinischen Versorgung zeigt. Obwohl die Leistung des Klinikers hier Grenzen hat, ist dies unseres Wissens nach die erste Studie, die die Leistung des Klinikers in einem großen Datensatz zeigt und mit einem DLM34 vergleicht. Frühere Deep-Learning-Studien haben hervorragende Ergebnisse gezeigt, wie z. B. eine hervorragende Genauigkeit30, die Fähigkeit, zukünftige VFs vorherzusagen27,28 und eine frühere Erkennung von Progressionen35. Der Vergleich der Deep-Learning-Leistung mit der von Klinikern wird jedoch von entscheidender Bedeutung sein, wenn solche Modelle in einem klinischen Umfeld eingesetzt werden, um eine Verschlechterung festzustellen. Da andere Studien die erfolgreiche Fähigkeit von Deep Learning zur Vorhersage zukünftiger VFs gezeigt hatten, bewerteten wir die Leistung des Modells nach dem Entfernen der endgültigen VFs. Das Entfernen jedes zusätzlichen VF führte zu einer schlechteren Leistung des Modells, aber selbst nach dem Entfernen von fünf der neuesten VFs schneidet das DLM genauso gut ab wie ein Modell mit gemischten Effekten. Diese Ergebnisse zeigen, dass Deep Learning nicht nur zur genauen Identifizierung der Krankheitsdiagnose oder zur Erkennung des Fortschreitens dient, sondern auch Frühmarker für Patienten mit höherem Risiko identifizieren kann.

Diese Studie weist einige Einschränkungen auf. Die Daten sind retrospektiv und stammen von einem tertiären Überweisungszentrum. Darüber hinaus wurden die Daten etwas gefiltert, um nur die Augen mit Längsschnittdaten und zuverlässigen VFs einzubeziehen, um eine genaue Identifizierung einer Verschlechterung zu ermöglichen. Dies könnte bei ausgewählten Patienten zu einer Verzerrung führen und die Generalisierbarkeit der Ergebnisse einschränken. Es ist jedoch wichtig zu beachten, dass in die Studie Patienten aus dem gesamten Schweregradspektrum der Erkrankung einbezogen wurden. Eine externe Validierung unseres cLSTM-Modus ist erforderlich, bevor dieses Modell für den klinischen Einsatz eingesetzt werden kann. Die VF-Daten in dieser Studie basierten auf SITA 24-2-Tests des Zeiss Humphrey Field Analyzer. Die Verwendung anderer VF-Daten (z. B. Haag-Streit Octopus Perimeter) würde repräsentative Trainingsdaten anderer Tests erfordern. Eine weitere Einschränkung besteht darin, dass die ärztliche Beurteilung einer Verschlechterung retrospektiv und zu einem einzigen Zeitpunkt im letzten Gesichtsfeld vorgenommen wurde und die Ärzte nicht speziell in die Bewertung dieser Beurteilung eingewiesen wurden. Allerdings handelt es sich bei den Ärzten um Glaukomspezialisten während der klinischen Routineversorgung, die Zugriff auf alle Gesichtsfelder sowie Verlaufsdiagramme mit GPA- und MD/VFI-Steigungen hatten. Einige zukünftige Richtungen umfassen weitere Vergleiche von Deep Learning und der Leistung von Klinikern in kontrollierteren und prospektiven Umgebungen sowie die Rolle der Einbeziehung zusätzlicher Parameter wie klinischer Daten oder struktureller Tests in die Beurteilung einer Verschlechterung.

Zusammenfassend zeigen wir, dass es erhebliche Unterschiede zwischen den objektiven Methoden zur Klassifizierung der VF-Verschlechterung gibt und dass der Konsens dieser Methoden eine Methode zur Erstellung eines Referenzstandards darstellt. Anhand dieses Referenzstandards zeigen wir, dass ein DLM, insbesondere cLSTM, eine VF-Verschlechterung erfolgreich identifizieren kann und Ärzte bei der routinemäßigen klinischen Versorgung unterstützen würde. Nach sorgfältiger externer Validierung können solche Modelle eingesetzt werden, um eine VF-Verschlechterung in Glaukomkliniken genau und automatisch zu erkennen.

Diese Studie wurde vom Institutional Review Board der Johns Hopkins University School of Medicine geprüft und genehmigt und entsprach den Grundsätzen der Deklaration von Helsinki. Aufgrund des retrospektiven Charakters der Studie wurde auf das Erfordernis einer Einwilligung nach Aufklärung verzichtet.

Demografische und klinische Daten wurden von Patienten erhoben, die von Juni 1990 bis Juni 2020 am Johns Hopkins Wilmer Eye Institute behandelt wurden. Die klinische Bewertung der Verschlechterung im letzten Gesichtsfeld (VF) wurde von Epic (Verona, Wisconsin) extrahiert. Ärzte, die beim VF-Test eine mögliche oder wahrscheinliche Verschlechterung der Augen einschätzten, wurden als „verschlechternd“ eingestuft, während andere Entscheidungen (stabil, möglicherweise oder wahrscheinlich bessernd) als „keine Verschlechterung“ eingestuft wurden. Bei den VF-Daten handelte es sich um HVF 24-2-Studien, die von FORUM (Zeiss, Dublin, CA) extrahiert wurden. Bei den meisten davon handelte es sich um SITA-Standard, aber es umfasste auch SITA-Fast, Full Threshold und SITA-Faster.

VFs wurden nur einbezogen, wenn sie als zuverlässig galten und weniger als 15 % falsch-positive Ergebnisse und weniger als entweder 25 % falsch-negative Ergebnisse bei leichter/mittelschwerer Erkrankung oder 50 % bei schwerer Erkrankung aufwiesen36. Wir haben nur Augen mit mindestens 7 zuverlässigen VFs einbezogen, damit eine genaue Bestimmung der Längsveränderung erfolgen konnte. Für das letzte Kammerflimmern in der Serie musste für jedes Auge eine ärztliche Beurteilung der Verschlechterung bzw. Nichtverschlechterung des Kammerflimmerns in den Diagrammen erfasst werden. Die Anzahl der bei jedem Schritt ausgeschlossenen VF-Tests ist im Flussdiagramm dargestellt (Abb. 1).

Es gibt keinen Goldstandard zur Beurteilung der VF-Verschlechterung, es gibt jedoch zahlreiche Algorithmen, die in diesem Bereich häufig eingesetzt werden. Wir haben sechs dieser automatisierten Methoden verwendet. Dazu gehören drei ereignisbasierte Methoden: Guided Progression Analysis (GPA), Advanced Glaucoma Intervention Study (AGIS)-Bewertungssystem und Collaborative Initial Glaucoma Treatment Study (CIGTS)-Bewertungssystem. Wir haben auch drei trendbasierte Methoden verwendet: Änderungsrate der mittleren Abweichung (MD) (MD-Steigung), Änderungsrate des VF-Index (VFI) (VFI-Steigung) und punktweise lineare Regression (PLR). Zusätzlich zu diesen Algorithmen hatten wir auch Zugriff auf die Beurteilung der Verschlechterung durch den Arzt beim letzten Kammerflimmern in jeder Serie. Die Beschreibung jeder dieser Methoden ist unten aufgeführt. Bei allen ereignisbasierten Methoden war eine Basislinie erforderlich, die als Durchschnitt der ersten beiden VFs berechnet wurde.

Der GPA wird typischerweise mit proprietärer Software berechnet und basiert auf der Glaukom-Änderungswahrscheinlichkeitsanalyse 3,21,37. Abweichungswerte an jedem Punkt im VF werden mit dem Durchschnitt der Werte an den ersten beiden VFs verglichen. Die Punkte mit einer deutlich höheren Differenz als die Test-Retest-Variabilität bei ap < 0,05 werden identifiziert. Da wir keinen Zugriff auf die GPA-Datenbank für Schwellenwerte für die Test-Retest-Variabilität hatten, haben wir Schwellenwerte für α < 0,05 auf der Grundlage einer empirischen normativen Datenbank der University of Iowa ermittelt. Wir haben auch Gesamtabweichungswerte anstelle der Musterabweichung verwendet, die klassischerweise von der GPA verwendet wird, da frühere Studien gezeigt haben, dass die Gesamtabweichung eine Progression mit größerer Wahrscheinlichkeit erkennen kann38. Wir definierten eine Verschlechterung als eine Verschlechterung um drei oder mehr Punkte über den Schwellenwert hinaus in drei aufeinanderfolgenden Feldern im Vergleich zum Durchschnitt der ersten beiden VF-Untersuchungen.

Der AGIS-Score wurde für jedes VF wie in der AGIS-Studie13 beschrieben berechnet. Kurz gesagt, jede VF wird auf der Grundlage der Tiefe und Anzahl der Fehler an vorab festgelegten Stellen auf der VF bewertet. Zu diesen vorab festgelegten Stellen gehören die nasalen, oberen und unteren Hemifelder. Der Wert reicht von 0 bis 20 und die Werte für jedes VF werden mit den Basiswerten verglichen. Zur Berechnung des Scores wurde ein Computerprogramm verwendet39. Als Verschlechterung wurde ein Anstieg des AGIS-Scores um mindestens vier Punkte eingestuft, der in drei aufeinanderfolgenden VFs anhielt.

Die Berechnung des CIGTS-Scores wurde bereits in der CIGTS-Studie15 beschrieben. Dieser Wert verwendet die Gesamtabweichungswahrscheinlichkeitskarte und wird basierend auf der Dichte und Tiefe der Fehler im gesamten VF berechnet. VFs mit mehreren isolierten Punkten mit Fehlern würden eine niedrigere Punktzahl erhalten als wenn es Cluster von Punkten mit Fehlern gäbe. Der CIGTS-Score reicht ebenfalls von 0 bis 20 und ein Anstieg um drei oder mehr Testpunkte, der über drei aufeinanderfolgende Kammerflimmern anhält, wurde als Verschlechterung eingestuft.

Die MD-Steigung wurde als einfache lineare Regression der MD-Werte für die VFs berechnet. Eine VF-Verschlechterung wurde als negative Steigung ≤ − 0,5 dB/Jahr mit einem Regressions-p-Wert von weniger als 0,05 definiert. Ebenso wurde die VFI-Steigung als lineare Regression der VFI-Werte berechnet. Eine VF-Verschlechterung wurde als negative Steigung ≤ − 1,8 %/Jahr mit einem p-Wert von weniger als 0,0521 definiert.

Für PLR wurde eine lineare Regression für die Gesamtabweichungswerte jedes der 52 VF-Punkte separat durchgeführt. Eine VF-Verschlechterung wurde als das Vorhandensein von drei beliebigen Punkten mit einer negativen Steigung ≤ − 1 dB/Jahr und einem p-Wert ≤ 0,0121 definiert.

Die Beurteilung der Verschlechterung durch den Arzt wurde für jedes Auge zum Zeitpunkt des letzten Gesichtsfeldes ermittelt und in Epic aufgezeichnet. Der Arzt konnte aus Kontrollkästchen wählen, die eine wahrscheinliche Verschlechterung, eine mögliche Verschlechterung, eine stabile, eine mögliche Verbesserung oder eine wahrscheinliche Verbesserung anzeigten. Die Entscheidung über eine wahrscheinliche oder mögliche Progression wurde als Verschlechterung eingestuft, während alle anderen Entscheidungen als keine Verschlechterung eingestuft wurden.

Als Referenzstandard für eine VF-Verschlechterung wurde definiert, dass mindestens vier von sechs Algorithmen (GPA, AGIS, CIGTS, MD-Steigung, VFI-Steigung und PLR) eine Verschlechterung identifizieren. Dies wurde als Bezeichnung für die Verschlechterung zum Trainieren/Testen des Deep-Learning-Modells (DLM) verwendet und dient in dieser Studie als Grundwahrheit für die VF-Verschlechterung. Diese Referenz wurde auch als Referenz für die Receiver-Operating-Characteristic-Kurve (ROC) in Abb. 4 verwendet. Eine ergänzende Analyse wurde durchgeführt, wobei die Beurteilung der Verschlechterung durch den Arzt als Referenzstandard für das Training des DLM und die Erstellung der ROC-Kurve diente (Ergänzende Abbildung 2).

Die DLM-Architektur ist in Abb. 1 beschrieben. Die Eingabe in das Netzwerk besteht aus zwei Teilen: (1) einem Satz von 7 oder mehr VF-Bildern, jedes Bild hat 54 Punkte, die radial auf ein 12 × 12-Raster verteilt und zusammengestapelt wurden ; (2) ein Stapel von 7 oder mehr Sätzen mit 8 globalen Metriken von jedem VF (Alter, VFI in %, PSD in dB, MD in dB, falsch negative Ergebnisse in %, falsch positive Ergebnisse in %, Testdauer in Sekunden und Fixierungsverluste). ). Die DLM-Architektur kann ungleichmäßig verteilte zeitliche Daten von jeder VF-Serie empfangen. Der Datensatz wurde für Training, Validierung und Tests in 80 %, 10 % und 10 % aufgeteilt. Die Daten wurden auf Patientenebene aufgeteilt. Wenn also beide Augen einbezogen würden, würden sie in denselben Satz fallen. Die Einbeziehung nur eines Auges jedes Patienten änderte nichts an den Ergebnissen der Studie. Die Daten wurden zufällig verteilt, sodass alle Datensätze, Schulungen, Validierungen und Tests aus Augen bestanden, bei denen eine Verschlechterung festgestellt wurde bzw. nicht. Für die Deep-Learning-Architektur haben wir ein einzelnes 2D-Faltungs-LSTM mit einer Kernelgröße von 3 × 3 implementiert. Auch die Batch-Normalisierung wurde in das Modell integriert, um die interne Kovariatenverschiebung zu reduzieren. Das Ergebnis des Modells war die Wahrscheinlichkeit einer VF-Verschlechterung.

Eine zusätzliche Analyse wurde durchgeführt, indem VFs vom Ende der für jedes Auge enthaltenen VF-Reihe entfernt und das Modell mit weniger Datenpunkten neu trainiert wurden. Dadurch wurde die Fähigkeit des DLM getestet, eine Verschlechterung zu beurteilen, bevor es Zugriff auf alle Informationen hatte, die vom Referenzstandard für 4 von 6 Algorithmen verwendet werden. Die VFs wurden nacheinander vom Ende an entfernt (Entfernen des letzten VF, Entfernen der letzten beiden VFs, Entfernen der letzten drei VFs usw.). Dies wurde bis zur Entfernung der letzten 6 VFs durchgeführt, da für alle eingeschlossenen Augen mindestens 7 VFs erforderlich waren. Dadurch konnte für jedes Auge mindestens 1 VF als Eingabe in das Modell eingegeben werden, obwohl etwa 87 % der Augen mehr als diese Mindestanzahl hatten. Die Einstufung der Verschlechterung und Leistungsbeurteilung basierte immer noch auf dem ursprünglichen Konsens von 4 von 6 unter Verwendung aller VFs.

Da zur Identifizierung einer VF-Verschlechterung mehrere Methoden verwendet wurden, wollten wir den Grad der Übereinstimmung zwischen diesen Methoden berechnen. Die paarweise Übereinstimmung wurde anhand des Cohen-Kappa-Koeffizienten identifiziert. Basierend auf früherer Literatur zeigte ein Kappa-Koeffizient von 0 bis 0,2 eine leichte Übereinstimmung an, 0,2 bis 0,4 eine ziemliche Übereinstimmung, 0,4 bis 0,6 eine mäßige Übereinstimmung und 0,6 bis 0,8 eine erhebliche Übereinstimmung40. Die Übereinstimmung zwischen mehr als zwei Methoden wurde auch durch Berechnung des Fleiss-Kappa-Koeffizienten41 ermittelt.

Ein weiteres Modell zur Identifizierung einer Verschlechterung wurde mithilfe eines Mixed-Effects-Modells erstellt, das mit denselben Daten wie das LSTM (Abb. 3) ausgestattet war, wobei „Patienten-ID“ und „Augen-ID“ als zufällige Effekte behandelt wurden und alle anderen Merkmale als fest behandelt wurden Auswirkungen.

Für die Deep-Learning-Vorhersage haben wir eine ROC-Kurve erstellt, die die Leistung des DLM bei allen Klassifizierungsschwellenwerten visualisieren kann (Abb. 4). Als Maß für die Vorhersageleistung wurden ein AUC-Wert und sein 95 %-Konfidenzintervall berechnet. Zur Berechnung des 95 %-Konfidenzintervalls der Falsch-Positiv-Raten und der Richtig-Positiv-Raten wurde die Clopper-Pearson-Methode verwendet42. Der gleiche Ansatz wurde verwendet, um eine AUC für den Ansatz des Mixed-Effects-Modells zu ermitteln. Für die Beurteilung der Verschlechterung durch den Arzt wurde eine feste Richtig-Positiv-Rate und eine Falsch-Positiv-Rate berechnet. Für die Beurteilung einer Verschlechterung durch den Arzt kann keine genaue ROC-Kurve berechnet werden, da es sich um eine diskrete und binäre Klassifizierung handelt. Um die Vorhersageleistung des Klinikers zu bewerten, wurden ein bester Minmax-AUC-Score und seine Ober- und Untergrenzen berechnet, wobei davon ausgegangen wurde, dass die ROC-Kurve des Klinikers konkav oder monoton ist43.

Sofern nicht anders angegeben, wurden alle Vergleiche und Leistungsanalysen nur anhand des Testdatensatzes berechnet. Das DLM wurde mit Python (Python Software Foundation, Wilmington, Delaware) entwickelt. Für statistische Vergleiche wurde SPSS verwendet (IBM Corp, Armonk, NY).

American Glaucoma Society, Vortrag, Nashville, TN, 2022.

Die im Rahmen der aktuellen Studie generierten und/oder analysierten Datensätze sind aufgrund geschützter Gesundheitsinformationen nicht öffentlich verfügbar. Die Rohdaten stünden nicht zur Weitergabe zur Verfügung.

McKean-Cowdin, R. et al. Einfluss des Gesichtsfeldverlusts auf die gesundheitsbezogene Lebensqualität bei Glaukom: Die Los Angeles Latino Eye Study. Ophthalmologie 115(6), 941-948.e1. https://doi.org/10.1016/j.ophtha.2007.08.037 (2008).

Artikel Google Scholar

Tham, YC et al. Weltweite Glaukomprävalenz und Prognosen zur Glaukombelastung bis 2040: Eine systematische Überprüfung und Metaanalyse. Ophthalmologie 121(11), 2081–2090. https://doi.org/10.1016/j.ophtha.2014.05.013 (2014).

Artikel Google Scholar

Heijl, A. et al. Messung der Gesichtsfeldprogression in der Studie zum frühen manifesten Glaukom. Acta Ophthalmol. Scan. 81(3), 286–293. https://doi.org/10.1034/j.1600-0420.2003.00070.x (2003).

Artikel Google Scholar

Russell, RA, Crabb, DP, Malik, R. & Garway-Heath, DF Die Beziehung zwischen Variabilität und Empfindlichkeit in groß angelegten longitudinalen Gesichtsfelddaten. Investig. Ophthalmol. Vis. Wissenschaft. 53(10), 5985–5990. https://doi.org/10.1167/iovs.12-10428 (2012).

Artikel Google Scholar

Heijl, A., Lindgren, A. & Lindgren, G. Test-Retest-Variabilität in glaukomatösen Gesichtsfeldern. Bin. J. Ophthalmol. 108(2), 130–135. https://doi.org/10.1016/0002-9394(89)90006-8 (1989).

Artikel CAS Google Scholar

Wall, M., Woodward, KR, Doyle, CK & Artes, PH Wiederholbarkeit der automatisierten Perimetrie: Ein Vergleich zwischen standardmäßiger automatisierter Perimetrie mit Stimulusgröße III und V, Matrix und Bewegungsperimetrie. Investig. Ophthalmol. Vis. Wissenschaft. 50(2), 974–979. https://doi.org/10.1167/iovs.08-1789 (2009).

Artikel Google Scholar

Spry, PGD & Johnson, CA Identifizierung eines fortschreitenden glaukomatösen Gesichtsfeldverlusts. Überleben. Ophthalmol. 47(2), 158–173. https://doi.org/10.1016/S0039-6257(01)00299-5 (2002).

Artikel Google Scholar

Weinreb, RN, Aung, T. & Medeiros, FA Die Pathophysiologie und Behandlung des Glaukoms. JAMA 311(18), 1901. https://doi.org/10.1001/jama.2014.3192 (2014).

Artikel CAS Google Scholar

Chauhan, BC et al. Praktische Empfehlungen zur Messung der Geschwindigkeit der Gesichtsfeldveränderung beim Glaukom. Br. J. Ophthalmol. 92(4), 569–573. https://doi.org/10.1136/bjo.2007.135012 (2008).

Artikel CAS Google Scholar

Nouri-Mahdavi, K., Zarei, R. & Caprioli, J. Einfluss der Häufigkeit von Gesichtsfeldtests auf die Erkennung der Glaukomprogression mit Trendanalysen. Bogen. Ophthalmol. 129(12), 1521–1527. https://doi.org/10.1001/archophthalmol.2011.224 (2011).

Artikel Google Scholar

Malik, R., Baker, H., Russell, RA & Crabb, DP Eine Umfrage zur Einstellung von Glaukom-Subspezialisten in England und Wales zu Gesichtsfeldtestintervallen in Bezug auf die NICE-Richtlinien. BMJ Open 3(5), e002067. https://doi.org/10.1136/bmjopen-2012-002067 (2013).

Artikel Google Scholar

Wu, Z., Saunders, LJ, Daga, FB, Diniz-Filho, A. & Medeiros, FA Häufigkeit von Tests zur Erkennung der Gesichtsfeldprogression, abgeleitet anhand einer Längsschnittkohorte von Glaukompatienten. Ophthalmologie 124(6), 786–792. https://doi.org/10.1016/j.ophtha.2017.01.027 (2017).

Artikel Google Scholar

Advanced, T., Intervention, G. & Investigators, S. Advanced Glaukom-Intervention. Studie 2. Bewertung und Zuverlässigkeit des Gesichtsfeldtests. Augenheilkunde 101(8), 1445–1455. https://doi.org/10.1016/S0161-6420(94)31171-7 (1994).

Artikel Google Scholar

Heijl, A., Leske, MC, Bengtsson, B., Bengtsson, B. & Hussein, M. Studiengruppe zum frühen manifesten Glaukom. Messung der Gesichtsfeldprogression in der Studie zum frühen manifesten Glaukom. Acta Ophthalmol. Scan. 81(3), 286–293. https://doi.org/10.1034/j.1600-0420.2003.00070.x (2003).

Artikel Google Scholar

Musch, DC, Lichter, PR, Guire, KE & Standardi, CL Die kollaborative Erstbehandlungsstudie zum Glaukom: Studiendesign, Methoden und Ausgangsmerkmale der eingeschlossenen Patienten. Ophthalmologie 106(4), 653–662. https://doi.org/10.1016/S0161-6420(99)90147-1 (1999).

Artikel CAS Google Scholar

Vesti, E., Johnson, CA & Chauhan, BC Vergleich verschiedener Methoden zur Erkennung einer glaukomatösen Gesichtsfeldprogression. Investig. Ophthalmol. Vis. Wissenschaft. 44(9), 3873–3879. https://doi.org/10.1167/iovs.02-1171 (2003).

Artikel Google Scholar

Heijl, A. et al. Ein Vergleich der Gesichtsfeldprogressionskriterien von drei großen Glaukomstudien bei Patienten mit frühem manifestem Glaukom. Augenheilkunde 115(9), 1557–1565. https://doi.org/10.1016/j.ophtha.2008.02.005 (2008).

Artikel Google Scholar

Casas-Llera, P. et al. Gesichtsfeldindexrate und ereignisbasierte Glaukom-Progressionsanalyse: Vergleich in einer Glaukompopulation. Br. J. Ophthalmol. 93(12), 1576–1579. https://doi.org/10.1136/bjo.2009.158097 (2009).

Artikel CAS Google Scholar

Rao, HL et al. Übereinstimmung zwischen ereignisbasierten und trendbasierten Glaukom-Verlaufsanalysen. Auge 27(7), 803–808. https://doi.org/10.1038/eye.2013.77 (2013).

Artikel CAS Google Scholar

Saeedi, OJ et al. Übereinstimmung und Prädiktoren der Diskordanz von 6 Gesichtsfeldprogressionsalgorithmen. Ophthalmologie 126(6), 822–828. https://doi.org/10.1016/j.ophtha.2019.01.029 (2019).

Artikel Google Scholar

Rabiolo, A. et al. Vergleich von Methoden zur Erkennung und Messung der glaukomatösen Gesichtsfeldprogression. Übers. Vis. Wissenschaft. Technol. https://doi.org/10.1167/tvst.8.5.2 (2019).

Artikel Google Scholar

Yousefi, S. et al. Unbeaufsichtigtes Gaußsches Mischungsmodell mit Erwartungsmaximierung zur Erkennung des glaukomatösen Fortschreitens in standardmäßigen automatisierten Perimetrie-Gesichtsfeldern. Übers. Vis. Wissenschaft. Technol. https://doi.org/10.1167/tvst.5.3.2 (2016).

Artikel Google Scholar

Yousefi, S. et al. Asymmetrische Muster von Gesichtsfelddefekten beim primären Offenwinkel- und primären Engwinkelglaukom. Investig. Ophthalmol. Vis. Wissenschaft. 59(3), 1279–1287. https://doi.org/10.1167/iovs.17-22980 (2018).

Artikel Google Scholar

Goldbaum, MH et al. Progression of Patterns (POP): Ein maschineller Klassifikationsalgorithmus zur Identifizierung der Glaukomprogression im Gesichtsfeld. Investig. Ophthalmol. Vis. Wissenschaft. 53(10), 6557–6567. https://doi.org/10.1167/iovs.11-8363 (2012).

Artikel Google Scholar

Park, K., Kim, J. & Lee, J. Gesichtsfeldvorhersage mithilfe eines rekurrenten neuronalen Netzwerks. Wissenschaft. Rep. 9(1), 1–12. https://doi.org/10.1038/s41598-019-44852-6 (2019).

Artikel CAS Google Scholar

Wang, M. et al. Ein Ansatz der künstlichen Intelligenz zur Erkennung der Gesichtsfeldprogression beim Glaukom basierend auf einer räumlichen Musteranalyse. Investig. Ophthalmol. Vis. Wissenschaft. https://doi.org/10.1167/iovs.18-25568 (2019).

Artikel Google Scholar

Wen, JC et al. Vorhersage zukünftiger Humphrey-Gesichtsfelder mithilfe von Deep Learning. PLoS One 14(4), 1–14. https://doi.org/10.1371/journal.pone.0214875 (2019).

Artikel CAS Google Scholar

Shuldiner, SR et al. Vorhersage von Augen, bei denen ein Risiko für ein schnelles Fortschreiten des Glaukoms besteht, basierend auf einem ersten Gesichtsfeldtest mit maschinellem Lernen. PLoS One 16, 1–16. https://doi.org/10.1371/journal.pone.0249856 (2021).

Artikel CAS Google Scholar

Thompson, AC, Jammal, AA & Medeiros, FA Ein Überblick über Deep Learning für Screening, Diagnose und Erkennung der Glaukomprogression. Übers. Vis. Wissenschaft. Technol. 9(2), 1–19. https://doi.org/10.1167/tvst.9.2.42 (2020).

Artikel Google Scholar

Dixit, A., Yohannan, J. & Boland, MV Beurteilung des Glaukomfortschritts mithilfe von maschinellem Lernen, trainiert auf longitudinalen Gesichtsfeld- und klinischen Daten. Ophthalmologie 128(7), 1016–1026. https://doi.org/10.1016/j.ophtha.2020.12.020 (2021).

Artikel Google Scholar

Gupta, P. et al. Prävalenz des Glaukoms in den Vereinigten Staaten: Die nationale Gesundheits- und Ernährungsumfrage 2005–2008. Investig. Ophthalmol. Vis. Wissenschaft. 57(6), 2905–2913. https://doi.org/10.1167/iovs.15-18469 (2016).

Artikel Google Scholar

Tanna, AP et al. Interobserver-Übereinstimmung und Intraobserver-Reproduzierbarkeit der subjektiven Bestimmung der glaukomatösen Gesichtsfeldprogression. Augenheilkunde 118(1), 60–65. https://doi.org/10.1016/j.ophtha.2010.04.038 (2011).

Artikel Google Scholar

Viswanathan, AC et al. Interobserver-Übereinstimmung zur Gesichtsfeldprogression beim Glaukom: Ein Methodenvergleich. Br. J. Ophthalmol. 87(6), 726–730. https://doi.org/10.1136/bjo.87.6.726 (2003).

Artikel CAS Google Scholar

Brigatti, L., Nouri-Mahdavi, K., Weitzman, M. & Caprioli, J. Automatische Erkennung der glaukomatösen Gesichtsfeldprogression mit neuronalen Netzen. Bogen. Ophthalmol. 115(6), 725–728. https://doi.org/10.1001/archopht.1997.01100150727005 (1997).

Artikel CAS Google Scholar

Yousefi, S. et al. Erkennung der longitudinalen Gesichtsfeldprogression beim Glaukom mittels maschinellem Lernen. Bin. J. Ophthalmol. 193, 71–79. https://doi.org/10.1016/j.ajo.2018.06.007 (2018).

Artikel Google Scholar

Yohannan, J. et al. Evidenzbasierte Kriterien zur Beurteilung der Gesichtsfeldzuverlässigkeit. Augenheilkunde 124(11), 1612–1620. https://doi.org/10.1016/j.ophtha.2017.04.035 (2017).

Artikel Google Scholar

Morgan, RK, Feuer, WJ & Anderson, DR Statpac 2 Glaukom-Änderungswahrscheinlichkeit. Bogen. Ophthalmol. 109(12), 1690–1692. https://doi.org/10.1001/archopht.1991.01080120074029 (1991).

Artikel CAS Google Scholar

Artes, PH et al. Längsschnitt- und Querschnittsanalysen der Gesichtsfeldprogression bei Teilnehmern der Ocular Hypertension Treatment Study. Bogen. Ophthalmol. 128(12), 1528–1532. https://doi.org/10.1001/archophthalmol.2010.292 (2010).

Artikel Google Scholar

Tseng B. AGIS-Gesichtsfeldbewertungs-Web-Applet.

Landis, JR & Koch, GG Die Messung der Beobachterübereinstimmung für kategoriale Daten. Biometrics 33(1), 159–174 (1977).

Artikel CAS MATH Google Scholar

Fleiss, JL Messung der nominalen Skalenübereinstimmung zwischen vielen Bewertern. Psychol. Stier. 76(5), 378–382. https://doi.org/10.1037/h0031619 (1971).

Artikel Google Scholar

Sakakibara, I., Haramo, E., Muto, A., Miyajima, I. & Kawasaki, Y. Vergleich von fünf exakten Konfidenzintervallen für den Binomialanteil. Bin. J. Biostat. 4(1), 11–2 https://doi.org/10.3844/amjbsp.2014.11.20 (2014).

Artikel Google Scholar

van den Hout, WB Die Fläche unter einer ROC-Kurve mit begrenzten Informationen. Med. Entscheidung. Mak. 23(2), 160–166. https://doi.org/10.1177/0272989X03251246 (2003).

Artikel Google Scholar

Referenzen herunterladen

Die Finanzierung wurde von NIH 5 K23 EY032204-02 (JY) und Research to Prevent Blindness (RPB), NY: Unrestricted Grant, unterstützt.

Diese Autoren haben gleichermaßen beigetragen: Jasdeep Sabharwal und Kaihua Hou.

Wilmer Eye Institute, Johns Hopkins University School of Medicine, Baltimore, MD, USA

Jasdeep Sabharwal, Chris Bradley, Pradeep Y. Ramulu und Jithin Yohannan

Malone Center for Engineering, Johns Hopkins University, Baltimore, MD, USA

Kaihua Hou, Patrick Herbert, Mathias Unberath & Jithin Yohannan

Abteilung für Augenheilkunde und visuelle Wissenschaften, University of Iowa, Iowa City, IA, USA

Chris A. Johnson & Michael Wall

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

JS und KH sind Co-Erstautoren. Alle Autoren haben zur Methodik und den Experimenten beigetragen, KH, PH, JY haben das DLM entwickelt, JS, KH, JY haben die Ergebnisse analysiert, JS, KH, JY haben den Originalentwurf geschrieben. Alle Autoren haben das Manuskript überprüft, bearbeitet und genehmigt.

Korrespondenz mit Jithin Yohannan.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Sabharwal, J., Hou, K., Herbert, P. et al. Ein Deep-Learning-Modell, das räumliche und zeitliche Informationen einbezieht, erkennt mithilfe eines konsensbasierten Ansatzes erfolgreich eine Verschlechterung des Gesichtsfeldes. Sci Rep 13, 1041 (2023). https://doi.org/10.1038/s41598-023-28003-6

Zitat herunterladen

Eingegangen: 29. August 2022

Angenommen: 11. Januar 2023

Veröffentlicht: 19. Januar 2023

DOI: https://doi.org/10.1038/s41598-023-28003-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.