banner
Heim / Blog / Ein verallgemeinerbares Deep-Learning-Regressionsmodell für das automatisierte Glaukom-Screening anhand von Fundusbildern
Blog

Ein verallgemeinerbares Deep-Learning-Regressionsmodell für das automatisierte Glaukom-Screening anhand von Fundusbildern

Jun 29, 2023Jun 29, 2023

npj Digital Medicine Band 6, Artikelnummer: 112 (2023) Diesen Artikel zitieren

2347 Zugriffe

5 Altmetrisch

Details zu den Metriken

In den letzten Jahren wurde eine Vielzahl von Klassifizierungsmodellen zur Erkennung von Glaukomen anhand von Fundusbildern vorgeschlagen. Sie werden oft anhand der Daten einer einzelnen Glaukomklinik geschult und berichten von einer beeindruckenden Leistung bei internen Testsätzen, haben jedoch oft Schwierigkeiten, sie auf externe Sätze zu übertragen. Dieser Leistungsabfall kann auf Datenverschiebungen bei der Glaukomprävalenz, der Funduskamera und der Definition der Glaukom-Grundwahrheit zurückgeführt werden. In dieser Studie bestätigen wir, dass ein zuvor beschriebenes Regressionsnetzwerk für die Glaukomüberweisung (G-RISK) in einer Vielzahl anspruchsvoller Situationen hervorragende Ergebnisse erzielt. Es wurden dreizehn verschiedene Datenquellen beschrifteter Fundusbilder verwendet. Die Datenquellen umfassen zwei große Bevölkerungskohorten (Australian Blue Mountains Eye Study, BMES und German Gutenberg Health Study, GHS) und 11 öffentlich verfügbare Datensätze (AIROGS, ORIGA, REFUGE1, LAG, ODIR, REFUGE2, GAMMA, RIM-ONEr3, RIM- EIN DL, ACRIMA, PAPILA). Um Datenverschiebungen in den Eingabedaten zu minimieren, wurde eine standardisierte Bildverarbeitungsstrategie entwickelt, um aus den Originaldaten 30°-scheibenzentrierte Bilder zu erhalten. Für den Modelltest wurden insgesamt 149.455 Bilder einbezogen. Die Fläche unter der Receiver Operating Characteristic Curve (AUC) für BMES- und GHS-Populationskohorten lag auf Teilnehmerebene bei 0,976 [95 %-KI: 0,967–0,986] bzw. 0,984 [95 %-KI: 0,980–0,991]. Bei einer festen Spezifität von 95 % lagen die Sensitivitäten bei 87,3 % bzw. 90,3 % und übertrafen damit die von Prevent Blindness America empfohlenen Mindestkriterien einer Sensitivität von 85 %. Die AUC-Werte der elf öffentlich zugänglichen Datensätze lagen zwischen 0,854 und 0,988. Diese Ergebnisse bestätigen die hervorragende Generalisierbarkeit eines Glaukom-Risiko-Regressionsmodells, das mit homogenen Daten aus einem einzigen tertiären Überweisungszentrum trainiert wurde. Eine weitere Validierung mithilfe prospektiver Kohortenstudien ist erforderlich.

Das Glaukom ist eine der Hauptursachen für irreversible Sehstörungen und wird aufgrund einer alternden Weltbevölkerung weiter zunehmen1. Dieses Wachstum wird die derzeit hohe Rate von über 50 % unentdeckter Fälle in Industrie- und Entwicklungsländern nur noch verstärken2,3,4,5.

Derzeitige Screening-Methoden für das primäre Offenwinkelglaukom (POAG) sind in bevölkerungsbasierten Umgebungen nicht kosteneffektiv, da sie bei einer Krankheitsprävalenz von 3,5 % in Bevölkerungsgruppen im Alter von 40–80 Jahren zu einer großen Anzahl falsch positiver Ergebnisse führen würden6,7,8 . Dies würde das Gesundheitssystem überlasten, das derzeit an oder über seiner Kapazitätsgrenze läuft. Die Diagnose wird derzeit opportunistisch gestellt, wenn ein Patient von einem Augenarzt untersucht wird. Dieses Szenario kann die aktuellen Raten nicht diagnostizierter Patienten nicht verbessern und gleichzeitig diejenigen identifizieren, die einem höheren Erblindungsrisiko ausgesetzt sind. Screening-Lösungen in Form von Messungen des Augeninnendrucks (IOD) übersehen Glaukomfälle mit Normaldruck, die einen hohen Anteil an POAG ausmachen können7,9,10. Mittlerweile sind Gesichtsfeldtests langwierig und liefern sehr unterschiedliche Ergebnisse11. Als mögliche Lösung wurde die Glaukomüberweisung auf der Grundlage der Analyse digitaler Fundusbilder mit künstlicher Intelligenz (KI) vorgeschlagen, da die Modalität weit verbreitet ist, die damit verbundenen Kosten niedrig sind und die nicht-invasiven Eigenschaften bestehen12. Darüber hinaus können Convolutional Neural Networks (CNNs) glaukomatöse Informationen aus Fundusbildern extrahieren, die die Fähigkeiten der meisten menschlichen Experten übersteigen, wie etwa die quantitative Schätzung der retinalen Nervenfaserschichtdicke (RNFL)13 oder die Glaukomerkennung, wenn die Papille entfernt wird Bild14.

Es wurde berichtet, dass die KI-basierte Glaukomerkennung bei der internen Validierung eine hohe Leistung erbringt, die Leistung ließ jedoch unter externen Testbedingungen und insbesondere in realen Umgebungen nach15,16,17. Effektive KI-Modelle, die auf gekennzeichneten Fundusbildern eines einzelnen medizinischen Zentrums trainiert werden, müssen robust gegenüber Verteilungsänderungen sein, wenn sie in neuen Umgebungen mit Out-of-Distribution-Daten (OoD) eingesetzt werden18. Diese Anforderung geht über die klassische Annahme beim maschinellen Lernen hinaus, dass Trainings- und Testdaten aus derselben Verteilung stammen19. Eine solche Datenverschiebung kann auftreten, wenn das Modell anhand von Bildern trainiert wurde, die mit einer bestimmten Funduskamera aufgenommen und anhand von Bildern eines zweiten Geräts getestet wurden. Diese interzentrische Heterogenität in Fundusbildern kann auf unterschiedliche Sichtfelder (FOV), Farbverteilung, Beleuchtung und interessierende Bereiche (diskuszentriert oder Makulazentriert) zurückzuführen sein. Unterschiede in der Bevölkerung, wie z. B. ethnische Zugehörigkeit, Myopie-Prävalenz und Glaukom-Prävalenz, sind weitere häufige Ursachen für Datenverschiebungen, die zu Leistungseinbußen führen. Darüber hinaus gibt es eine große Vielfalt an Glaukomdefinitionen, was die Herausforderungen im Zusammenhang mit OoD-Daten verschärft. Im Zusammenhang mit der Netzhautbildanalyse wurden Lösungen zur Bekämpfung von Datenverschiebungen, wie z. B. Domänenanpassung, beschrieben, die zu einer verbesserten Generalisierbarkeit führen20,21. Diese Ansätze sind jedoch häufig auf die Verfügbarkeit beschrifteter Bilder aus dem Zielsatz während der Modellentwicklung angewiesen. Dies ist in realen Anwendungen normalerweise nicht der Fall, da diese Modelle mit potenziellen Daten aus neuen Quellen arbeiten sollten.

Diese Arbeit erweitert die Validierung von Convolutional Neural Networks (CNNs) für das Glaukom-Screening anhand von Fundusbildern (Abb. 1). Anstelle eines CNN, das eine binäre Klassifizierung durchführt (Glaukom oder nicht), haben wir uns für ein Regressions-CNN entschieden, das einen kontinuierlichen Risikoscore ausgibt. Bei dieser Risikobewertung für das CNN-Training handelte es sich um das von Experten geschätzte vertikale Cup-Disc-Verhältnis (VCDR), das mit der Schwere des Glaukoms zunimmt. Die Schätzung anderer Glaukom-bezogener kontinuierlicher Biomarker mithilfe von Regressions-CNNs wurde in verwandten Arbeiten beschrieben, beispielsweise der durchschnittlichen RNFL-Dicke13 und der minimalen Randbreite der Bruch-Membranöffnung (BMO-MRW)22. Die Analyse der Schwellenwerte dieser CNN-geschätzten Variablen anhand einer Glaukom-Grundwahrheit ist jedoch begrenzt.

Beide Modelle wurden in unserer früheren Arbeit über erklärbare KI zur Glaukomerkennung beschrieben. Die Diskrepanz zwischen der Prävalenz in einem tertiären Überweisungszentrum (das für die Modellentwicklung verwendet wird) und spärlichen realen Daten (externe Tests) führt in letzterem zu einer Übervorhersage. Das Vorhersagehistogramm veranschaulicht dieses Phänomen beim binären Klassifizierungsansatz (a), wobei deutlich mehr Fälle als glaukomatös bezeichnet werden als bei G-RISK (b). Beachten Sie auch den Anstieg in Fällen mit einer Vorhersage nahe 1 im Vergleich zu einem stetigen Rückgang in Fällen, wenn der Vorhersagewert für G-RISK steigt. TV bezieht sich auf den optimalen Schwellenwert. TV ist in binären Klassifizierungsmodellen aufgrund einer scharfen Sigmoid/Softmax-Aktivierungsfunktion typischerweise auf 0,5 festgelegt. In einem Regressionsansatz mit linearer Aktivierung kann TV abhängig von den mit FP und FN verbundenen Kosten auf einen anderen Wert eingestellt werden. c Beispiele für Fundusbilder mit steigendem G-RISK-Score.

Die Generalisierbarkeit und Robustheit unseres zuvor beschriebenen Glaukom-Risiko-Regressionsmodells (G-RISK)14 wurde auch anhand von Fundusbildern aus zwei großen Bevölkerungskohorten, der Blue Mountains Eye Study (BMES)2 und der Gutenberg Health Study (GHS)23, bewertet sowie auf elf externen öffentlich zugänglichen Datensätzen. Die Leistung des Modells wurde anhand der von den Eigentümern des Datensatzes definierten Glaukom-Grundwahrheit bewertet, die stark variierte und eine umfassende Bewertung der Fähigkeit des Modells zur Anpassung an verschiedene Populationen, Bildgebungsbedingungen und Grundwahrheitsdefinitionen lieferte.

G-RISK wurde anhand von dreizehn unabhängigen Datensätzen aus sechs Ländern validiert, darunter drei große Screening-Kohorten. Aus dem anfänglichen Pool von 151.145 farbigen Fundusbildern wurden nach der Qualitätskontrolle insgesamt 149.455 Testbilder einbezogen (Entfernungsrate von 1,12 %, siehe „Methoden“ – Bildqualitätskontrolle). Beispiele für die Bildvorverarbeitung sind in Abb. 2, ein Vorher-Nachher-Paar pro Datenquelle. Die Glaukomprävalenz reichte von 1,08 % bei GHS bis 56,17 % bei ACRIMA-Daten.

Jedes Paar zeigt ein zufällig ausgewähltes, unverarbeitetes Originalbild mit Glaukom-induzierten Schäden (links) und das entsprechende 30° diskuszentrierte Ergebnis nach Bildmanipulation (rechts), vorbereitet für die G-RISK-Eingabe.

In den beiden bevölkerungsbasierten Studien (BMES und GHS) erreichte der trainierte G-RISK AUC-Werte von 0,976 [95 %-KI: 0,967–0,986] bzw. 0,984 [95 %-KI: 0,978–0,986] auf Teilnehmerebene. Die harmonisierte Sensitivität und Spezifität lagen bei ~92,2 % für BMES und ~94,2 % für GHS, wenn der Schwellenwert in beiden Sätzen bei 0,70 lag. Für BMES betrug der AUC-Wert 0,967 [95 %-KI: 0,956–0,979] auf Augenhöhe. Bei Beibehaltung einer Spezifität von 95 % auf Teilnehmerebene erreichten die Sensitivitätswerte 87,3 % bzw. 90,3 % für BMES und GHS.

Die Leistung des CNN-Modells blieb in den öffentlich zugänglichen Datensätzen hoch, obwohl es durch erhebliche Heterogenität bei der Bilderfassung und den Glaukom-Grundwahrheitsverfahren gekennzeichnet war. Der niedrigste AUC-Wert von 0,854 [95 %-KI: 0,821–0,886] wurde für die vollständigen ORIGA-Daten (650 Bilder) aufgezeichnet, mit ausgewogener Spezifität und Sensitivität bei 78 %. Auf der anderen Seite des Spektrums ergab die Auswertung von GAMMA eine AUC von 0,987 [95 %-KI: 0,971–1]. Das CNN behielt seine Leistung (AUC von 0,917 [95 %-KI: 0,900–0,933]) im anspruchsvollen ODIR-Datensatz bei, der zusätzliche Augenerkrankungen umfasst, darunter diabetische Retinopathie und altersbedingte Makuladegeneration. Die Glaukomprävalenz in dieser Gruppe nähert sich ebenfalls der realen Verteilung an (4,70 %). Detaillierte Ergebnisse für alle Datenquellen und Teilmengen finden Sie in Tabelle 1.

Die optimalen Schwellenwerte (TV) für die öffentlich verfügbaren Datensätze lagen auf Bildebene zwischen 0,58 (REFUGE1) und 0,75 (ODIR). TV war in Sets, die andere Pathologien enthielten, stärker erhöht (0,75 im Multi-Krankheits-Set von ODIR und 0,74 in der Diabetes-Population von AIROGS) oder wenn Glaukomverdächtige als nicht glaukomatös angesehen wurden (0,66 bis 0,71 in RIM-ONE r3, 0,64 bis 0,70 bei PAPILA). TV stieg auch beim Screening auf fortgeschrittenes Glaukom im Vergleich zu frühem Glaukom (0,67 gegenüber 0,64 in GAMMA-Untergruppen). Schließlich stieg der TV-Wert bei BMES-Daten von der Bildebene (0,65) auf die Teilnehmerebene (0,70), da die maximale Vorhersage beider Augen pro Person berücksichtigt wurde. TV pro Datensatz kann aus der letzten Spalte von Tabelle 1 abgerufen werden.

Die Verwendung eines festen Schwellenwerts von 0,7 für alle Datensätze hat keinen Einfluss auf den AUC-Score, verändert jedoch die Sensitivitäts- und Spezifitätswerte. Tabelle 2 zeigt die Spezifitätswerte im Bereich von 0,70 bei PAPILA bis 0,99 bei REFUGE1-Daten. Die Empfindlichkeitswerte liegen zwischen 0,68 (ORIGA) und 0,94 (GHS, PAPILA, AIROGS).

Abbildung 3 zeigt 12 Multiplots mit ROC-Kurve, Kalibrierungskurve und G-RISK-Vorhersagehistogramm pro Datensatz. Die Vorhersagen lagen zwischen 0,2 und 1,0, wobei der Modus in Sätzen mit mehr als 5000 Fällen typischerweise bei etwa 0,45 lag. Kalibrierungskurven scheinen einer Sigmoidform zu folgen, mit einem konstanten Anteil an Positiven, bis ein mittlerer vorhergesagter Wert von 0,6 in den großen Datensätzen erreicht wird. Die Auswertung auf ACRIMA lieferte die besten kalibrierten Vorhersagen, wobei sich die Kalibrierungskurve der optimalen gepunkteten Diagonale näherte.

Der obere Diagrammbereich zeigt (1) die ROC-Kurve (hellgrün) mit der Falsch-Positiv-Rate und der Richtig-Positiv-Rate auf der x- und y-Achse, (2) sowie die Kalibrierungskurve (dunkelgrün) mit dem vorhergesagten Mittelwert und dem Bruchteil von Positiven auf der x- und y-Achse. Eine diagonale gepunktete schwarze Linie zwischen (0,0) und (1,1) zeigt die ROC-Kurve der Zufallsvorhersage und der optimalen Kalibrierung an. Das vertikal gespiegelte Histogramm der G-RISK-Vorhersagen ist an der Kalibrierungskurve im unteren Diagramm ausgerichtet, mit dem Vorhersagewert auf der x-Achse und der Vorhersageanzahl auf der y-Achse. Am besten in Farbe betrachten.

Um die Unterschiede zwischen der G-RISK-Ausgabe und der anhand des Fundusbilds gemessenen VCDR-Grundwahrheit besser zu verstehen, wurden beide AUC-Werte für Sätze berechnet, die eine zuverlässige VCDR enthielten. G-RISK übertraf VCDR in allen fünf Daten(teil)sätzen mit einer AUC-Disparität von 0,09 bzw. 0,12 bei REFUGE2- und RIM-ONE r3-Daten. Die mit G-RISK ermittelte AUC unterschied sich bei einem Alpha von 0,05 (überlappende Konfidenzintervalle) in BMES- und vollständigen REFUGE1-Daten nicht signifikant. Dieser Vergleich ist in Tabelle 3 dargestellt.

Tabelle 4 gibt einen Überblick über veröffentlichte Berichte zur Glaukomerkennung mit externen Tests. Methoden, die einen Teil des Datensatzes zum Training nutzen, wurden grundsätzlich von diesem Vergleich ausgeschlossen, da dies einen unfairen Vorteil darstellt. Eine Ausnahme bilden die Ergebnisse zu den REFUGE-Challenges. Diese Datensätze stellen einen herausragenden Maßstab im Bereich der Glaukomerkennung aus Fundusbildern dar. Daher wird zwischen (1) reiner externer Validierung und (2) Training auf anderen Teilen desselben Datensatzes unterschieden. G-RISK erzielte die besten Ergebnisse bei ACRIMA- (AUC = 0,88) und LAG-Daten (AUC = 0,93) als externe Testsätze, über die in der Literatur berichtet wird. Für REFUGE1 und REFUGE2 beschränken wir die Übersicht auf die fünf besten Ergebnisse. G-RISK hätte bei der REFUGE1-Challenge 2018 den 2. Platz erreicht, mit einem vernachlässigbaren Unterschied in der AUC und dem besten eingereichten Ergebnis: nur 0,003. Die Gewinnermethode stützte sich auf drei Modelle, während G-RISK nur aus einem Modell besteht. Die zweite Ausgabe von REFUGE (2020) hätte für G-RISK den 3. Platz ergeben, mit einem um 0,016 niedrigeren AUC als der siegreichen Einreichung (nicht signifikant).

Der PAPILA-Datensatz ermöglichte die Beurteilung des Zusammenhangs zwischen G-RISK-Vorhersagen und klinischen Metadaten, die für das Glaukom relevant sind. Wie in Tabelle 5 gezeigt, wurde festgestellt, dass nur das Alter und die mittlere Abweichung (MD) der 30–2-Gesichtsfelduntersuchung einen signifikanten Zusammenhang aufwiesen. Die Ergebnisse zeigten, dass mit zunehmendem Alter oder schwerer werdender MD die G-RISK-Vorhersagen zunahmen (Pearson-Korrelationskoeffizient = 0,48 bzw. −0,56). Es wurde jedoch kein signifikanter Zusammenhang zwischen G-RISK-Vorhersagen und anderen Metadaten wie Augeninnendruck, zentraler Hornhautdicke, Geschlecht und optischen Linseneigenschaften gefunden.

Ein zuvor trainiertes binäres Klassifizierungsmodell mit ähnlicher Netzwerkarchitektur wie G-RISK wurde an zwei ausgewählten Testsätzen, REFUGE1 und BMES, evaluiert. Die Ergebnisse zeigten, dass das binäre Klassifizierungsmodell auf REFUGE1 eine AUC von 0,87 [95 %-KI: 0,83–0,91] erreichte, was deutlich niedriger war als die mit dem G-RISK-Regressionsmodell ermittelte AUC (0,95 [95 %-KI: 0,93–0,98). ]). In ähnlicher Weise ergab das binäre Klassifizierungsmodell bei den BMES-Daten eine AUC von 0,76 [95 %-KI: 0,72–0,80], während das G-RISK-Modell eine AUC von 0,97 [95 %-KI: 0,96–0,98] erreichte. Diese Ergebnisse bestätigen, dass das G-RISK-Modell besser abschneidet als das binäre Klassifizierungsmodell.

Die Bedeutung des in diesem Manuskript entwickelten 30°-Bandscheibenzentrierungsverfahrens wurde anhand von REFUGE1- und AIROGS-Daten untersucht. G-RISK schnitt bei den ursprünglichen 45°-Makula-zentrierten Bildern in beiden Datensätzen schlechter ab, wurde aber immer noch als gut angesehen: Die AUC fiel bei REFUGE1 von 0,952 auf 0,937 und bei einer Teilmenge des AIROGS-Sets von 0,972 auf 0,921. Dieses Ergebnis zeigt, dass G-RISK robust ist und makulazentrierte Bilder mit einem größeren Sichtfeld verarbeiten kann, obwohl es diese Modalität während des Trainings nie kennengelernt hat. Ein extremer Zoom auf ONH (Crop-Faktor 0,4) führte zu drastischen Leistungseinbußen und sank auf 0,840 bzw. 0,764 in REFUGE1 und AIROGS. Der absolute Unterschied im AUC-Wert nach der Normalisierung aller Bilder auf ein Scheibenverhältnis von 0,23 oder der Normalisierung durch das pro Bilddimension berechnete Scheibenverhältnis war nicht signifikant (Unterschiede von 0,003 und 0,004). Daher hat die natürliche Heterogenität der Papille-Größe möglicherweise keinen Einfluss auf die G-RISK-Leistung. Die vollständige Analyse finden Sie in Tabelle 6.

Alle FP und FN oder eine zufällige Auswahl, wenn mehr als 20 Fälle vorliegen, der beiden bevölkerungsbasierten Studienreihen wurden von drei Glaukomexperten aus drei verschiedenen Ländern überprüft. Die Anzahl der FN lag bei einem Schwellenwert von 0,70 für beide Sätze unter 20. Infolgedessen betrug die Gesamtzahl der überprüften Fälle 33 bzw. 27 für BMES- und GHS-Daten. Die Übereinstimmung zwischen dem in beiden Datensätzen verfügbaren Referenzstandard und der Mehrheitsentscheidung des unabhängigen Glaukom-Expertengremiums auf der Grundlage der Fundusbilder war nur geringfügig fair (κ = 0,217 und 0,229). Die Übereinstimmung zwischen den Bewertern lag zwischen 0,104 und 0,335, was darauf hindeutet, dass es bei diesen falsch klassifizierten Fällen kaum einen Konsens gab. Der Konsens war bei der Bewertung der Bildqualität höher, wobei bei der Hälfte der Vergleiche eine erhebliche Übereinstimmung erzielt wurde (κ zwischen 0,61 und 0,80). Das Glaukom-Expertengremium schien die Einbeziehung vorverarbeiteter Bilder in seine Analyse zu befürworten. Ein Experte gab sogar an, dass die vorverarbeiteten Bilder in allen Fällen besser für die Glaukomdiagnose geeignet seien. Diese quantitative Analyse wird in Tabelle 7 kommuniziert. Abbildung 4 ist ein zusammengesetztes Bild, das die drei extremsten FP- und FN-Fälle pro ausgewertetem Datensatz zeigt. Ergänzende Abbildung 3 zeigt die gleichen zusammengesetzten Informationen mit überlagerten Ausprägungskarten zur Interpretierbarkeitsanalyse. Wiederkehrende Merkmale in extremen FP-Fällen waren ausgedehnte (nicht)physiologische ONH-Schröpfen, sichtbare Lamina cribrosa, Gefäßbajonettierung, Gefäßentblößung, peripapilläre Atrophie und das Fehlen sichtbarer RNFL-Bündel. Bei den FN-Fällen sind auffällige lokalisierte RNFL-Defekte im infero- und/oder superotemporalen Sektor das am häufigsten auftretende Muster, ohne dass eine entsprechende glaukomatöse ONH-Schädigung in Form von Schröpfen/Einkerbungen vorliegt. In einem Fall kam es zu einer Bandscheibenblutung im unteren Sektor. Die Zahl der FN-Fälle war in allen ausgewerteten Datensätzen sehr begrenzt.

GHS-Daten wurden weggelassen, da es keine grundlegende Wahrheit auf Bildebene gibt. Der vorhergesagte Risikowert befindet sich unten rechts für jedes Bild. Am besten in Farbe und hoher Auflösung zur optimalen Betrachtung durch den Leser. Eine Ansicht mit überlagerter Ausprägungskarte finden Sie in der ergänzenden Abbildung 3.

Diese Studie bestätigt die hervorragende Leistung eines trainierten CNN zur Glaukomerkennung14 bei Anwendung auf dreizehn externe Datensätze. Nach unserem besten Wissen stellt dies den bislang größten Aufwand für eine Generalisierbarkeitsanalyse dar, bei der die Validierung mit Daten aus zwei großen Bevölkerungskohorten und elf öffentlich zugänglichen Datensätzen erfolgt. Darüber hinaus ermöglichen die Ergebnisse zu Letzterem anderen Forschern, ihren Ansatz zu vergleichen, ein wichtiger Aspekt, der derzeit in der Forschung zur Glaukomerkennung anhand von Fundusbildern fehlt. Angesichts der großen Vielfalt an Bildtypen und Glaukom-Referenzstandards haben wir die Robustheit von G-RISK für die Vorhersage des Glaukomrisikos anhand von Farbfundusbildern demonstriert.

Die Auswertung sowohl der BMES- als auch der GHS-Daten ergab eine AUC von 0,976 bzw. 0,984. Bei einer Spezifität von 95 % werden Sensitivitäten von 87,3 % und 90,3 % erhalten. Dieses Ergebnis erfüllt die von Prevent Blindness America24 festgelegten Mindestkriterien von 85 % Sensitivität und 95 % Spezifität. Für BMES stellt dies eine deutliche Verbesserung gegenüber den Screening-Ergebnissen mit dem Heidelberg Retina Tomograph (HRT) dar, mit einer Spezifität und Sensitivität von 85,7 % bzw. 64,1 % auf Teilnehmerebene25. Bemerkenswert ist, dass dieser Vergleich nicht genau ist, da die letztgenannte Analyse anhand der Zehn-Jahres-Follow-up-Daten von BMES durchgeführt wurde und weniger Teilnehmer als die in die vorliegende Studie einbezogene Bevölkerung teilnahmen. Bei AIROGS-Daten, die eine Diabetespopulation mit realistischer Glaukomprävalenz enthielten, erreichte G-RISK eine Sensitivität von 80 % bei einer Spezifität von 95 % und erfüllte damit die von den Dateneigentümern festgelegten Mindestanforderungen für menschliche Bewerter. G-RISK hätte als zuverlässiger Grader bei der Kennzeichnung von mehr als 100.000 Fundusbildern eingesetzt werden können. Nur wenige Studien beschrieben eine externe Validierung von Fundusbildern, die aus einem bevölkerungsbasierten Datensatz stammen26,27. Die Glaukomerkennung CNN von Liu und Kollegen26 ergab eine AUC von 0,964 auf Bildern von 6702 Teilnehmern der Handan Eye Study, von denen 2 % gemäß ISGEO-Kriterien Anzeichen eines Glaukoms aufwiesen. Die berichtete Sensitivität und Spezifität betrugen 91,0 % bzw. 92,5 %. Ihr CNN wurde während des Trainings Bildern ausgesetzt, die von drei verschiedenen Kameratypen aufgenommen wurden, was die Extraktion domäneninvarianter Merkmale erleichterte, die für eine genaue Glaukomerkennung wichtig sind. Das in der aktuellen Studie evaluierte Modell nutzte zum Trainingszeitpunkt keine Daten aus mehreren Quellen, weist aber dennoch eine ausgezeichnete Generalisierbarkeit auf.

G-RISK erzielte hochmoderne Ergebnisse anhand öffentlich verfügbarer Datensätze. Fan et al28. berichteten über eine AUC von 0,79 [95 %-KI: 0,78–0,81] für LAG-Daten unter Verwendung einer binären Klassifikation, die CNN anhand von Bildern der Ocular Hypertension Treatment Study29 trainierte, was deutlich unter dem Wert von 0,93 in der vorliegenden Studie liegt. Christopher et al.30 berichteten über eine AUC von 0,86 [95 % KI: 0,83–0,89] auf ACRIMA-Daten, was zwei Prozentpunkte niedriger ist als das Ergebnis von G-RISK. Die Glaukom-Risiko-Regression von CNN hätte bei den beiden Ausgaben der internationalen REFUGE-Challenge einen zweiten und dritten Platz belegt17. Dies stellt eine beachtliche Leistung dar, da G-RISK im Gegensatz zu den Challenge-Teilnehmern nicht anhand eines Teils dieser Daten trainiert hat. Das Training an einem Teil eines Datensatzes hat den Vorteil, dass sich das Modell mit den datenspezifischen Abbildungs- und Ground-Truth-Eigenschaften vertraut machen kann. Dieser Vorteil besteht in prospektiven Screening-Daten nicht.

Die erzielte hervorragende Generalisierbarkeit ist hauptsächlich auf den Regressionscharakter des Modells zurückzuführen. Es könnte während des Trainings mehr über das kontinuierliche Schweregradspektrum der Erkrankung erfahren als mit einem standardmäßigen binären Klassifizierungsansatz. Empirische Untersuchungen haben gezeigt, dass die Tiefenmodellierung mit Soft Labels herkömmliche Klassifizierungs-CNNs hinsichtlich der Generalisierungs- und Konvergenzgeschwindigkeit übertrifft31. Regressionsansätze haben neuerdings auch im Bereich der semantischen Segmentierung Einzug gehalten, eine Aufgabe, die üblicherweise durch pixelbasierte Klassifizierung mit harten Labels gelöst wird. Bei der semantischen Segmentierung befinden sich die unsichersten Bereiche typischerweise an den Rändern der Gewebeabgrenzung, wo Experten aus mehreren Fachgebieten möglicherweise unterschiedliche Interpretationen haben. Der im Jahr 2020 eingeführte SoftSeg32-Ansatz ging dieses Problem an, indem er sich für die Verwendung von Soft Labels (Werte zwischen 0 und 1) an diesen Kanten einsetzte, um die Label-Unsicherheit zu berücksichtigen. Es hat sich gezeigt, dass dieser Ansatz den Stand der Technik bei drei medizinischen Bildgebungsdatensätzen durch die Verwendung eines Regressionsverlusts und einer linearen Aktivierung erheblich verbessert. In der vorliegenden Studie konnte G-RISK aufgrund einer umfangreichen Grundwahrheitsbezeichnung sowie eines Modellierungsrahmens, der das Lernen der in der Bezeichnung enthaltenen Informationen optimiert, die relevantesten domäneninvarianten Merkmale auswählen, die für die Glaukomerkennung relevant sind. Die Leistung von G-RISK wurde auch direkt mit einem zuvor trainierten binären Glaukom-Erkennungsmodell verglichen, das bis auf die Verlust- und Endaktivierungsfunktion genau die gleiche Netzwerkarchitektur aufweist. Extreme Leistungseinbußen bei REFUGE1- und BMES-Daten von 0,08 bzw. 0,21 bei den AUC-Werten liefern einen weiteren Beweis für die verbesserte Generalisierbarkeit beim Training eines CNN mithilfe von Soft Labels.

Das Erlernen domäneninvarianter Merkmale am Sehnervenkopf wird durch die Leistung bei Bildern hervorgehoben, die im Originalformat einen starken ONH-Ausschnitt aufwiesen. Nach der Skalierung auf eine Bandscheibengröße, die der in 30°-FOV-Bildern gefundenen Größe nahekommt, erzielte G-RISK eine hervorragende Leistung bei der Glaukom-Überweisung. Ein weiterer Beweis für die Robustheit des Modells aufgrund der Regression ist die hohe Leistung bei Originaldaten mit einem Sichtfeld von 45°. Die AUC der ursprünglichen 45°-REFUGE1-Daten war nicht signifikant niedriger als die AUC, die auf vorverarbeiteten, scheibenzentrierten 30°-Bildern erhalten wurde. Bei AIROGS-Daten war der Unterschied signifikant, wahrscheinlich aufgrund der größeren Heterogenität der im Datensatz vorhandenen Bildtypen. Hier kann die vorgeschlagene Bildverarbeitungspipeline die Leistung noch weiter verbessern. Durch die Minimierung der Verschiebung zwischen Trainingsbildern und externen Testbildern wird das Risiko fehlerhafter Vorhersagen aufgrund von Ausreißern oder OoD-Daten verringert.

Regressionsansätze im Zusammenhang mit der Glaukombildgebung wurden bereits beschrieben13,22,27. Medeiros et al.13 führten Machine-to-Machine (M2M) ein, eine Art Regressions-CNN, das die durchschnittliche OCT-gemessene zirkumpapilläre RNFL-Dicke aus diskuszentrierten Fundusbildern als Proxy für Nervenverlust schätzt. Der Pearson-Korrelationskoeffizient zwischen der OCT-gemessenen Grundwahrheit und der Vorhersage betrug 0,83. In Folgestudien stellte ihre Forschungsgruppe fest, dass M2M Glaukom in einem bevölkerungsbasierten Screening-Programm in Brasilien unterscheiden kann. Es könnte menschliche Experten bei der Erkennung von Augen mit wiederholbarem Gesichtsfeldverlust übertreffen33,34. Es wäre interessant, die Leistung von M2M anhand einiger öffentlich verfügbarer Daten zu sehen, um eine Vorstellung davon zu bekommen, wie es im Vergleich zu verwandten Arbeiten abschneidet. Obwohl die durchschnittliche RNFL-Dicke ein objektiver Parameter zur Quantifizierung von Nervenschäden sein kann, weist sie auch Mängel auf. Erstens können eine falsche RNFL-Segmentierung oder anatomische Varianten dazu führen, dass Untersuchungen als potenziell abnormal eingestuft werden und eine falsche Glaukomdiagnose vorliegt. Dieses „Phänomen der roten Krankheit“ ist unter OCT-Anwendern wohlbekannt, und die OCT-Ergebnisse sollten daher sorgfältig von einem Glaukom-Experten überprüft werden, was die menschliche Subjektivität einführt. Zweitens ist die RNFL-Ausdünnung nicht nur ein pathognomonisches Zeichen für ein Glaukom35. RNFL-Defekte wurden mit anderen Augen36,37 und systemischen38 Erkrankungen in Verbindung gebracht. Auch wenn solche Fälle ohnehin an einen Augenarzt überwiesen werden sollten, könnte es unklar sein, ob RNFL-Defekte ohne entsprechenden ONH-Schaden auf das Vorliegen eines Glaukoms oder einer anderen Erkrankung hinweisen.

Neuere Forschungen haben auch Deep-Learning-Ansätze für die gemeinsame Segmentierung von Augenhöhle und Papille aus Fundusbildern untersucht. Dazu gehört die Implementierung verschiedener Modifikationen an der U-Net-Architektur39, die bei beiden Aufgaben zu wettbewerbsfähigen Ergebnissen geführt haben. Durch die Segmentierung von Augenhöhle und Papille können VCDR-Werte abgeleitet und berechnet werden. Allerdings haben relativ wenige veröffentlichte Segmentierungsansätze speziell die Generalisierbarkeit der Glaukomerkennung bewertet. Das an REFUGE1 teilnehmende Team CUHKMED erreichte den 3. Platz, als es den segmentierungsbasierten VCDR mit der Glaukom-Grundwahrheit vergleicht, wie in Tabelle 4 dargestellt. Darüber hinaus testeten Fu et al.40 eine VCDR-Vorhersage aus einem polartransformierten Fundusbild extern an 1676 Fundusfotos von Die Singapore Chinese Eye Study (SCES) meldet eine konkurrenzfähige AUC von 0,90. Da SCES-Daten jedoch nicht öffentlich verfügbar sind, war im Rahmen der aktuellen Studie kein Benchmarking möglich. Im Gegensatz dazu verfolgt G-RISK einen anderen Ansatz, indem es die VCDR direkt aus dem Fundusbild schätzt, ohne dass eine Segmentierung erforderlich ist, und umgeht die Notwendigkeit einer gemeinsamen Segmentierung von Augenhöhle und Papille. In ähnlicher Weise haben Alipahani et al.27 kürzlich ein Regressions-CNN entwickelt, das VCDR direkt aus Fundusbildern bei der KI-basierten Phänotypisierung der ONH-Morphologie schätzt. Der Pearson-Korrelationskoeffizient zwischen der VCDR-Grundwahrheit und der Vorhersage betrug 0,89 bei einer kleinen Teilmenge der Fundusbilder der UK Biobank. Ihr Ansatz ergab eine AUC von 0,76 [95 %-KI: 0,74–0,78], als sie die VCDR-Vorhersage mit einem Glaukom-Label auf der Grundlage von Patientenselbstberichten und Codes der Internationalen Klassifikation der Krankheiten (ICD) vergleichte. Obwohl wir nicht über Daten der britischen Biobank berichten, lohnt es sich, etwaige Leistungsunterschiede zwischen G-RISK und dem von Alipahani et al. entwickelten Modell zu untersuchen. Moderate AUC-Werte für die Glaukomerkennung könnten durch eine schwache Grundwahrheit verursacht werden, da die Selbstmeldung wahrscheinlich mit der Untergrenze von 50 % unentdeckter Fälle in der Allgemeinbevölkerung verbunden ist. Der Unterschied in der Methodik liegt in der Grundwahrheit während der Modellentwicklung, da G-RISK bei der Ophthalmoskopie auf der VCDR-Schätzung beruhte, während Alipahani et al. hat die Grundwahrheit direkt anhand der Bilder gemessen. Ihre Forschung zeigte auch den starken Zusammenhang zwischen VCDR und dem Glaukomrisiko auf und berichtete über eine Korrelation von 0,91. G-RISK umfasst mehr als die VCDR-Schätzung und wird durch eine Analyse von fünf Sätzen gestützt, die objektiv beweist, dass G-RISK-Vorhersagen die bildgemessene VCDR als Proxy für das Glaukomrisiko übertreffen. Darüber hinaus legt die Analyse der klinischen PAPILA-Daten nahe, dass G-RISK gut mit Glaukom korreliert. Sowohl G-RISK als auch Glaukom weisen einen signifikanten Zusammenhang mit Alter und Gesichtsfelddefekten auf, während außerhalb der Augeninnendruckmessungen nur schwache Korrelationen mit Faktoren wie Geschlecht und zentraler Hornhautdicke bestehen. Es ist bekannt, dass optische Linseneigenschaften keinen Zusammenhang mit Glaukom haben.

Leistungsstarke Algorithmen zur Krankheitserkennung sollten über kalibrierte Vorhersagen verfügen41, ein Merkmal, bei dem die Vorhersage repräsentativ für die Krankheitswahrscheinlichkeit ist. Herkömmliche Klassifizierungs-CNNs mit Sigmoidaktivierung sind bekanntermaßen schlecht kalibriert42. Der G-RISK-Vorhersagewert kann als Risikobewertung zwischen 0,2 und 1 interpretiert werden. Bis zu Werten um 0,7 führt G-RISK zu einer Übervorhersage (Kalibrierungskurve unterhalb der optimalen Kalibrierungslinie). Datensätze mit einer Prävalenz von weniger als 10 % folgen derselben Kalibrierungskurve. Ein einheitlicher Kalibrierungsvorgang könnte zu transformierten Vorhersagen zwischen 0 und 1 führen, die als kalibriertes Glaukomrisiko für alle Bevölkerungsdaten interpretiert werden können. Diese Übung war nicht Gegenstand der aktuellen Studie, wird aber in Zukunft behandelt.

Die Erklärbarkeit des G-RISK-Modells wurde anhand zweier Versuchsaufbauten bewertet. Erstens ergab eine gründliche Untersuchung der extremsten falsch-positiven (FP) und falsch-negativen (FN) Fälle durch Glaukom-Experten Fälle mit großer (nicht)physiologischer Aushöhlung des Sehnervenkopfes, peripapillärer Atrophie und fehlenden RNFL-Bündeln in der FP-Gruppe. Andererseits wiesen FN-Fälle wiederholte RNFL-Defekte ohne entsprechenden ONH-Schaden auf. Zusätzlich zur manuellen Expertenanalyse zeigt die ergänzende Abbildung 3 die gleichen FP- und FN-Bilder, überlagert von hervorstechenden Karten, die mithilfe der Gradientenanalyse erstellt wurden. Die Einzeluntersuchung ergab keine wiederkehrende hervorstechende Region. Für weitere Informationen zur CNN-basierten Glaukomerkennung anhand von Fundusbildern und zur objektiven Erklärbarkeitsanalyse verweisen wir den Leser auf unsere frühere Arbeit14. In letzterem zeigt Abb. 3, zweite Reihe, erstes Bild links, wiederkehrende Ausprägungsmuster, die durch Mittelung über einen Testsatz von mehr als 4000 Fundusbildern erhalten wurden. Die Bedeutung von G-RISK konzentriert sich auf die infero- und superotemporalen Bereiche innerhalb und außerhalb des ONH.

Diese Studie erweitert das Forschungsgebiet der verallgemeinerbaren Glaukomerkennungs-CNNs durch externe Tests an Bevölkerungskohorten und heterogenen öffentlich verfügbaren Daten. Es bestehen noch erhebliche Wissenslücken. Die Verwendung eines festen Schwellenwerts führte nicht zu konsistenten Spezifitätswerten in den 13 Datensätzen (im Bereich von 0,70 bis 0,99). Daher ist eine weitere Modellkalibrierung erforderlich, um einheitliche Sensitivitäts- und Spezifitätsniveaus zu erreichen. Es ist erwähnenswert, dass auch die Heterogenität der Glaukom-Grundwahrheitsdefinition bei diesem Verhalten eine wichtige Rolle spielt. Als nächstes umfassen die beiden Bevölkerungskohorten Menschen mit überwiegend europäischer Abstammung (Deutschland und Australien). Daher ist eine Verallgemeinerung des Screenings von Populationen anderer ethnischer Herkunft nicht möglich. Dennoch blieb die Leistung bei öffentlich zugänglichen Daten, die in Ländern wie China und Singapur erhoben wurden, hoch, weist jedoch höhere Prävalenzraten auf als in der Allgemeinbevölkerung. Darüber hinaus wurde die Leistung über den Schweregrad des Glaukoms hinweg nicht bewertet, da diese Bezeichnungen in den Datensätzen nicht verfügbar waren. Eine Ausnahme bildet GAMMA, bei dem G-RISK in der frühen Glaukomklasse eine hervorragende AUC von 0,99 erzielte. Schließlich versagt G-RISK in seltenen Fällen mit geringfügigen RNFL-Defekten oder Bandscheibenblutungen ohne entsprechenden ONH-Schaden. Zukünftige Updates zielen darauf ab, Änderungen umzusetzen, die die Falsch-Negativ-Rate weiter senken.

Die Stärken dieser Studie sind erheblich. Zunächst befassten wir uns mit der Frage der Generalisierbarkeit in Fundus-basierten Glaukom-Erkennungsmodellen durch umfassende Validierung an dreizehn externen Sätzen mit insgesamt 149.455 Bildern. Wir haben uns einer erheblichen Herausforderung gestellt, da die Datensätze eine erhebliche Heterogenität in Bezug auf Glaukom-Grundwahrheit, Kameratyp und Populationstyp aufweisen. Als nächstes analysierten wir den Einfluss von Faktoren wie der natürlichen ONH-Größenvariabilität und dem Bildmaßstab. Die Ergebnisse wurden mit der Literatur verglichen und die hochmoderne Leistung von G-RISK hervorgehoben. Wir haben gezeigt, dass G-RISK auf VCDR-Schätzungen aus der Ophthalmoskopie trainiert wurde, aber bei der Aufgabe der Glaukomüberweisung eine bessere Leistung erbringt als bildgemessene VCDR.

In dieser Arbeit wurde eine hervorragende Generalisierbarkeit der KI-basierten Glaukomerkennung aus Fundusbildern gezeigt, sowohl an großen Screening-Sets als auch an verschiedenen öffentlich verfügbaren Datensätzen. Beim retrospektiven Glaukom-Screening erfüllt G-RISK die Mindestanforderungen von Prevent Blindness America. Eine weitere Validierung von G-RISK mithilfe prospektiver Studien ist erforderlich.

Diese Studie entspricht den STARD 2015-Richtlinien für die standardisierte Berichterstattung über die Auswertung eines Diagnosetests sowie den Grundsätzen der Deklaration von Helsinki. Das Schulungsmaterial für G-RISK wurde nachträglich von den Universitätskliniken Leuven gesammelt und von der Ethikkommission Forschung UZ / KU Leuven unter der Studiennummer S60649 genehmigt. Aufgrund des retrospektiven Charakters des Forschungsprojekts wurde auf eine Einverständniserklärung verzichtet und alle Fundusbilder wurden vor der Verwendung anonymisiert. Für eine informierte Einwilligung der für externe Tests verwendeten Daten verweisen wir auf die Administratoren der jeweiligen Datensätze.

Die Glaukomerkennung wurde mithilfe eines benutzerdefinierten ResNet-5043-CNN-Modells erreicht, das in unserer vorherigen Arbeit14 beschrieben wurde und sich auf die Erklärbarkeit des CNN in zwei Glaukomanwendungen konzentrierte. In dieser Studie wurden 23.930 stereoskopische Fundusbilder (12.265 Augen, 6486 Personen) für Schulung, Validierung und interne Tests ausgewählt. Fundusbilder wurden zwischen 2010 und 2018 in der Glaukomabteilung des Universitätskrankenhauses Leuven (UZL), Belgien, aufgenommen. Daher weisen die meisten Bilder Anzeichen eines Glaukoms auf. Einschlusskriterien für dieses Set waren die Verfügbarkeit eines passenden 30°-Fundusfotos (aufgenommen mit einer Zeiss VISUCAM® bei 1620 × 1444). Das Glaukom basierte auf der Beurteilung durch einen Glaukomexperten mittels Perimetrie, Augeninnendruck, Fundoskopie und Netzhautbildgebung. Diese klinische Bewertung umfasste die VCDR-Schätzung während der Fundoskopie, die während der G-RISK-Entwicklung als Referenzrisikokennzeichnung ausgewählt wurde. Dieser kontinuierliche Wert zwischen 0 und 1 wurde mit einer binären Glaukom-Grundwahrheit verglichen, um Glaukom-Erkennungsergebnisse zu erhalten. Die Vorteile der Verwendung einer kontinuierlichen gegenüber einer binären Zielvariablen sind in der Literatur unter Soft Labels ausführlich untersucht. Bei der Glaukomerkennung ermöglicht ein Ansatz mit Soft Labels dem Modell, während des Trainings die umfangreicheren Informationen von Expertenanmerkungen zu nutzen. Das CNN kann Unterschiede in der Schwere der Erkrankung erkennen, angefangen bei fehlender Schröpfung bis hin zu einem Sehnerv, der vollständig verschröpft ist. Bei der binären Erkennung werden sowohl frühe Symptome (z. B. RNFL-Defekt, Notching, Gefäßfreilegung) als auch extreme Schröpfen in der Glaukomkategorie gebündelt, die das Erlernen mittlerer Schweregrade nicht berücksichtigt. Um die verbesserte Generalisierbarkeit bei Verwendung eines Regressionsansatzes zu quantifizieren, haben wir außerdem ein binäres Klassifikations-CNN für die Glaukomerkennung anhand von zwei Testsätzen validiert. Dieses CNN wurde in einem ähnlichen Aufbau trainiert, mit den einzigen Änderungen in der Glaukom-Grundwahrheit (definiert von einem Glaukom-Experten auf der Grundlage einer multimodalen Untersuchung), der Kreuzentropie als Verlustfunktion anstelle des mittleren quadratischen Fehlers und der Sigmoidaktivierung anstelle einer linearen Aktivierung bei das Ende der ResNet-50-Architektur. Es wurde in unserer vorherigen Arbeit14 ausführlich beschrieben.

Wir haben unser Modell anhand von Fundusbildern aus zwei großen Bevölkerungsstudien und elf öffentlich zugänglichen Datensätzen evaluiert. Externe Fundusbilddatensätze konnten unter folgenden Bedingungen ausgewertet werden: (1) Verfügbarkeit einer (verdächtigen) Glaukommarkierung und (2) Mehrheit (>50 %) der Bilder, die den Sehnervenkopf (ONH) enthielten. Sowohl das Bildgebungsprotokoll als auch die Definition des Glaukoms variierten erheblich zwischen den Testsätzen.

Die Blue Mountains Eye Study (BMES) ist eine große bevölkerungsbasierte Studie zu Augenerkrankungen, die vor drei Jahrzehnten in einem städtischen Gebiet in Australien durchgeführt wurde2. Von 1992 bis 1994 nahmen 3654 Personen ab 49 Jahren an der Augenuntersuchung teil. Fundusbilder wurden mit einer analogen Zeiss FF3-Filmkamera aufgenommen und anschließend digitalisiert. Ein Offenwinkelglaukom (OAG) wurde diagnostiziert bei (1) Gesichtsfeldverlust der Humphrey-Field-Analyzer-30–2-Untersuchung, (2) entsprechender Ausdünnung des neuroretinalen Randsaums, (3) VCDR größer oder gleich 0,7, (4) asymmetrischer Schröpfung zwischen den Augen (>0,3), (5) und wenn die gonioskopischen Ergebnisse keinen Winkelschluss anzeigten.

Die Gutenberg-Gesundheitsstudie (GHS) ist eine große bevölkerungsbasierte Studie, die im mittleren Westen Deutschlands durchgeführt wird und an der Basis 15.010 Teilnehmer im Alter zwischen 35 und 74 Jahren23 teilnehmen. Mit einer Zeiss VISUCAM-Funduskamera wurden 30°-Papillenzentrierte Bilder aufgenommen. Die Diagnose eines Glaukoms wurde anhand einer Modifikation der Richtlinien der International Society for Geographic and Epidemiological Ophthalmology (ISGEO) einschließlich der Anpassung der Bandscheibengröße44 gestellt. Bei der endgültigen Einstufung wurden VCDR, asymmetrische Schröpfung zwischen den Augen und eine Verengung des Randes (<10 % des entsprechenden Bandscheibendurchmessers) berücksichtigt. Bei 12.089 zu Studienbeginn untersuchten Personen war für mindestens ein Auge eine ISGEO-Einstufung verfügbar.

Der Rotterdam EyePACS AIROGS-Datensatz besteht aus 113.893 Fundusbildern von 60.357 Personen, die zahlreiche Zentren des EyePACS-Netzwerks in den Vereinigten Staaten besucht haben45,46,47. Der Trainingssatz von 101442 Bildern wurde Ende 2021 im Rahmen eines internationalen Wettbewerbs zur Glaukomerkennung anhand von Fundusbildern zur Verfügung gestellt. Die Sehnervenpapillen in den Fundusbildern wurden von einem Team aus 22 Glaukomexperten (mindestens zwei Prüfer pro Bild) beurteilt, die eine Sensitivität von mindestens 80 % und eine Spezifität von 95 % aufwiesen. Das übertragbare Glaukom wurde anhand von zehn Strukturmerkmalen oder Biomarkern definiert und wenn der Annotator eine entsprechende Gesichtsfeldschädigung erwartete.

Die Online Retinal Fundus Image Database for Glaucoma Analysis and Research (ORIGA) enthält 650 zufällig ausgewählte Bilder aus der Singapore Malay Eye Study (SiMES), einer bevölkerungsbasierten Studie, die zwischen 2004 und 200748 durchgeführt wurde. Das Verfahren zur Glaukomkennzeichnung wurde nicht definiert. Die Bilder wurden mit einem nicht näher bezeichneten Kameragerät in einem größeren Winkel als 30° aufgenommen.

Die Retinal Fundus Glaucoma Challenge (REFUGE) wurde auf der MICCAI 2018 abgehalten, um einen einheitlichen Bewertungsrahmen für den objektiven Vergleich von Glaukomerkennungsmodellen mithilfe von Fundusbildern bereitzustellen49. 400 Bilder wurden mit einer Zeiss VISUCAM aufgenommen, die restlichen 800 mit einer Canon CR-2 einer Glaukomklinik in China. Alle Bilder sind makulazentriert und haben einen Betrachtungswinkel von 45°. Der Glaukom-Referenzstandard wurde nach einer multimodalen Bewertung der klinischen Aufzeichnungen, einschließlich Augeninnendruck, OCT, Gesichtsfelder und Nachuntersuchungen, ermittelt. 120 Fälle des Datensatzes sind glaukomatös (POAG oder NTG), was 10 % der Daten ausmacht.

Die groß angelegte aufmerksamkeitsbasierte Glaukomerkennungsdatenbank (LAG) besteht aus 4854 Fundusbildern, die von einem chinesischen Krankenhaus stammen16. Der Referenzstandard wurde mithilfe von Augeninnendruck, Gesichtsfelduntersuchungen und manueller ONH-Beurteilung durch qualifizierte Spezialisten ermittelt. Ein Glaukom wurde in 1711 Bildern diagnostiziert, was 35 % des Datensatzes ausmacht. Alle Bilder enthalten ein sichtbares ONH und wurden mit einer nicht näher bezeichneten Kombination von Funduskameras aus unterschiedlichen Winkeln aufgenommen. Aufgrund des inkonsistenten Bildbearbeitungsverfahrens, das von den Erstellern des Datensatzes verwendet wurde, ist es unmöglich, das Scheibenverhältnis als Indikator für den korrekten 30°-Zuschnitt zu verwenden.

Der Wettbewerb „Ocular Disease Intelligent Recognition“ (ODIR) wurde 2019 organisiert, um die Forschung zur Klassifizierung mehrerer Krankheiten anhand von Fundusbildern anzuregen50. Das Komplettset umfasst 10.000 Bilder von 5.000 Patienten (ein Bild pro Auge), davon stehen derzeit 7.000 zum Download zur Verfügung. Makulazentrierte Bilder wurden mit verschiedenen Geräten von Herstellern wie Canon, Zeiss und Kowa aufgenommen. Neben Glaukomfällen (4,7 %) gibt es von Experten kommentierte Bezeichnungen für diabetische Retinopathie, Katarakt, altersbedingte Makuladegeneration, Bluthochdruck und Myopie.

Nach den Erfolgen der ersten REFUGE-Challenge im Jahr 201817 organisierten die Organisatoren eine zweite Ausgabe im Rahmen von MICCAI 202049. In einem ähnlichen Aufbau wurden dem Datensatz 800 zusätzliche Bilder hinzugefügt. Die neuen Fundusbilder wurden mit Funduskameras der Hersteller Kowa (Validierung) und Topcon (Test) aufgenommen.

Bei der Glaukom-Einstufung anhand von Multi-Modalitäts-Bildern (GAMMA) wurden die Teilnehmer aufgefordert, Modelle zur Glaukom-Erkennung mithilfe von Fundusbildern und OCT-Scans zu entwickeln und zu validieren51. Die verfügbaren Trainingsdaten umfassen 50 Fälle ohne Glaukom, 25 Fälle mit frühem Glaukom und 25 Fälle mit leichtem oder fortgeschrittenem Glaukom. Ähnlich wie bei den REFUGE-Daten ordneten Spezialisten den Glaukom-Referenzstandard basierend auf Fundusfotografie, IOP, VF und OCT zu.

Die 2011 erstmals veröffentlichten Retinal IMage-Datenbanken zur Beurteilung des Sehnervs (RIM-ONE) waren ursprünglich dazu gedacht, Algorithmen für die Segmentierung des Sehnervenkopfes zu evaluieren52. Die dritte Überarbeitung im Jahr 2015 enthält 85 Bilder von gesunden Augen und 74 Bilder von Glaukompatienten. Die Bilder wurden mit einer Kowa WX 3D-Stereo-Funduskamera in einem einzigen Zentrum in Spanien aufgenommen. Das Sichtfeld erstreckt sich über 20° horizontal und 27° vertikal.

Die im Jahr 2020 eingeführten RIM-ONE-Datensätze haben ihre Fundusbilder aktualisiert, um Deep-Learning-Algorithmen zur Glaukomerkennung zu evaluieren53. Alle Bilder wurden von zwei Experten neu ausgewertet und stammten aus verschiedenen Krankenhäusern, aufgenommen mit unterschiedlichen Kameras. Der Gesamtsatz umfasst 313 Fundusbilder ohne Glaukom und 172 Fundusbilder mit bestätigtem Glaukom (Fotoauswertung durch Glaukomexperte). Die Bilder zeichnen sich durch einen standardisierten Zuschneidevorgang rund um die Papille aus.

Insgesamt wurden im Jahr 2019 705 Bilder des ACRIMA-Projekts zur Verfügung gestellt, das von der spanischen Regierung zur automatisierten Beurteilung von Netzhauterkrankungen ins Leben gerufen wurde54. Die Bilder wurden mit einer Topcon TRC-Funduskamera bei einem Sichtfeld von 35° aufgenommen. Die Bilder wurden von zwei Experten als Glaukom gekennzeichnet und um den Sehnervenkopf herum zugeschnitten, wobei ein Begrenzungsrahmen mit dem 1,5-fachen Sehnervenradius verwendet wurde. Bemerkenswert ist, dass die Glaukombilder durch eine größere Bildgröße gekennzeichnet sind als die Bilder ohne Glaukom.

PAPILA wurde kürzlich der Forschungsgemeinschaft zur Verfügung gestellt und ist der erste Datensatz, der Farbfundusbilder und klinische Daten beider Augen desselben Studienteilnehmers liefert. Die Möglichkeit, die gemeinsamen Informationen beider Augen zur Glaukomerkennung zu nutzen, kommt realen Screening-Szenarien nahe. PAPILA besteht aus 488 Fundusbildern von 244 Personen, aufgenommen mit einem nicht-mydriatischen Topcon TRC-NW400-Gerät mit einem Sichtfeld von 30°. Das Glaukom-Grundwahrheitsetikett wird in drei Kategorien präsentiert: glaukomatös, nicht glaukomatös und verdächtig, basierend auf der Auswertung klinischer Daten durch ausgebildete Augenärzte. Alle Bilder enthalten die Papille, mit fachmännischer Segmentierung von Papille und Pfanne.

Die Bildqualität wurde durch die Segmentierung des ONH mithilfe eines verallgemeinerbaren CNN bewertet, das entwickelt und validiert wurde14. Im Falle der Verfügbarkeit einer Ground-Truth-ONH-Segmentierungsmaske im Datensatz wurde dieser Schritt übersprungen (ORIGA, REFUGE1, GAMMA, RIM-ONEr3 und PAPILA). Das von CNN generierte Bild zur Segmentierung der Sehnervenpapille wurde anhand zweier Kriterien für eine realistische Sehnervenpapille getestet. Zunächst wurde die vertikale Papillengröße pro Objektkandidat im Segmentierungsbild durch die Bildhöhe dividiert, um ein Papillenverhältnis zu erhalten. Dieses Scheibenverhältnis sollte für Bilder mit einem Sichtfeld von mindestens 30° zwischen 0,10 und 0,40 liegen. Als nächstes wurde der Sehnervenkandidat basierend auf dem ersten zentralen Hu-Moment55 ausgewählt, einem für die Transformation invarianten Wert, der 0,159 beträgt, wenn die Form ein perfekter Kreis ist. Der Kandidat mit einem Hu-Moment, das am nächsten bei 0,159 liegt, wurde ausgewählt, um längliche, nicht kreisförmige, segmentierte Objekte zu verwerfen. Das Bild wurde aus der Analyse verworfen, wenn kein Kandidat den Kriterien entsprach. Es gab keinen menschlichen Eingriff in diesen automatisierten Prozess. Ergänzende Abbildung 1 beschreibt die Entfernungsrate pro Datensatz.

Jedes Bild mit einer von CNN erkannten oder vom Menschen verifizierten Sehnervenpapille durchlief mehrere Verarbeitungsschritte, um die Kovariatenverschiebung zwischen den externen und ursprünglichen Trainingsdaten zu minimieren. Zunächst wurde das Bild nach der ONH-Segmentierung einer 30°-Zuschneide-/Erweiterungsoperation unterzogen, die auf der lokalisierten Papille zentriert war. Das ursprüngliche FOV pro Datensatz könnte anhand der Papillegröße in Bezug auf die vertikale Bilddimension (Papillenverhältnis) oder anhand der in der Datensatzbeschreibung enthaltenen Informationen bestimmt werden. Im Entwicklungssatz, der ausschließlich 30° scheibenzentrierte Bilder enthält, betrug das Scheibenverhältnis gemittelt über 23930 Bilder 0,23.

Die Scheibenverhältnisse wurden pro Bildgröße und Datensatz gemittelt. Für einen Datensatz mit Fundusbildern mit einem Sichtfeld von 45° liegt das durchschnittliche Scheibenverhältnis bei etwa 0,15, was einen Crop-Faktor von 0,65 bedeuten würde. Die Verwendung eines einheitlichen Crop-Faktors pro Datensatz ist unerlässlich, da der Crop-Faktor pro Bild die natürliche Heterogenität der Papillengröße beseitigen würde. Zwei Datensätze (ACRIMA, LAG) machten es aufgrund des in den Originaldaten bereits vorhandenen Zuschneideverfahrens unmöglich, diese normale Variation beizubehalten. Daher sind sie in der Ergebnistabelle mit einem Sternchen gekennzeichnet. In Datensätzen mit mehreren Bildgrößen (AIROGS, ODIR, REFUGE1, REFUGE2) wurden die Scheibenverhältnisse pro Bildgröße gemittelt und auf den globalen Datensatzdurchschnitt gesetzt, wenn es weniger als zehn Fälle mit einer bestimmten Bildgröße gab. Der Crop-Faktor wurde mit der vertikalen Bildgröße multipliziert, um ein scheibenzentriertes 30°-Bild zu erhalten. Auf das zugeschnittene Bild wurde eine Nullauffüllung angewendet, wenn der scheibenzentrierte Ausschnitt die ursprünglichen Bildgrenzen in einer bestimmten Richtung überschritt, wie es bei makulazentrierten Bildern zu erwarten ist, bei denen sich der ONH am Bildrand befindet. Wir haben die Bedeutung des vorgeschlagenen scheibenzentrierten 30°-Bildausschnitts anhand einer Sensitivitätsanalyse der REFUGE1-Daten und einer zufälligen 10 %-Teilmenge der AIROGS-Daten analysiert. Diese Sets verfügen über mehrere Bilddimensionen sowie eine klar definierte Glaukom-Beschriftung.

Einige Datensätze enthalten Bilder mit kleineren FOV-Werten (RIM-ONE r3, LAG) oder wurden um die Papille herum beschnitten (ACRIMA, RIM-ONE DL). In diesem Fall wurde eine Bilderweiterung oder Auffüllung angewendet, um die korrekte Papille-Skalierung und Beleuchtungskorrektur sicherzustellen. Dies wurde erreicht, indem der Randwert des Originalbilds sowohl in Höhen- als auch in Breitenrichtung kopiert wurde, bis das durchschnittliche Disc-Verhältnis 0,23 betrug. Nach der Beleuchtungskorrektur wurde der Bildbereich mit kopiertem Wert (synthetische Bildinformationen) vor der G-RISK-Bewertung durch schwarze Pixel ersetzt. Ein Beispiel für das vorgeschlagene Bilderweiterungsverfahren finden Sie in der ergänzenden Abbildung 2.

Verarbeitete Bilder wurden einem Filtervorgang unterzogen, um einer ungleichmäßigen Beleuchtung aufgrund der Krümmung der Netzhaut entgegenzuwirken56. Schließlich wurde die Größe der Bilder auf 512 × 512 und 3 RGB-Farbkanäle geändert und durch 255 geteilt, um den Eingabeanforderungen des trainierten G-RISK-Modells zu entsprechen. Alle Bildoperationen pro Datensatz werden in der ergänzenden Abbildung 2 ausführlich erläutert und visualisiert.

Alle Vorhersagen des G-RISK wurden mithilfe von Schwellenwerten anhand der Referenz-Glaukom-Kennzeichnung bewertet. Als primäre Leistungsmetrik wurde die Fläche unter der Receiver Operating Characteristic (ROC)-Kurve (AUC) ausgewählt, begleitet von ausgewogener Sensitivität und Spezifität durch Minimierung der Differenz zwischen beiden. Es wurde eine harmonisierte Sensitivität und Spezifität gewählt, da die mit FP und FN verbundenen Kosten je nach Einsatzeinstellung variieren können. Für die drei Datensätze, deren Prävalenz den allgemeinen Bevölkerungsszenarien nahekommt (BMES, GHS und AIROGS), wurden zusätzliche Sensitivitäten bei Spezifitätsniveaus von 90 %, 95 % und 97,5 % gemeldet. Diese Wahl wurde durch die Bedeutung der Spezifität im Kontext des Glaukom-Screenings motiviert. Es besteht allgemeiner Konsens darüber, dass die Spezifität so hoch wie möglich sein sollte, um einen großen Zustrom von Personen zu verhindern, die nicht tatsächlich an der Krankheit leiden. Darüber hinaus wurden die Vorhersagen auf einen festen Wert von 0,7 begrenzt, um die Leistung der Glaukomerkennung über alle Datensätze hinweg gleichmäßig zu bewerten. 0,7 wurde ausgewählt, da dies ein üblicher VCDR-Schwellenwert für die Glaukomerkennung ist. Die Evaluierung wurde auch auf Teilnehmerebene für die beiden Bevölkerungskohorten (BMES und GHS) und das öffentlich verfügbare PAPILA-Set durchgeführt, da glaukomatöse Schäden bei einem Glaukompatienten einseitig auftreten können. Um die Überweisung durch einen Experten so genau wie möglich nachzuahmen, wurde der maximale vorhergesagte Risikowert der beiden Augen (sofern verfügbar) anhand des Referenzstandards bewertet. 95 %-Konfidenzintervalle für die AUC wurden mit dem schnellen DeLong-Algorithmus57 berechnet. Alle statistischen Analysen wurden mit der SciPy Python-Bibliothek58 durchgeführt. Eine Ausnahme hiervon bildet REFUGE2, dessen Referenzstandard für Forscher derzeit nicht zugänglich ist. Der AUC-Wert für dieses Set wurde vom Online-Bewertungsserver der Challenge-Organisatoren und durch direkte E-Mail-Kommunikation abgerufen. Für Datensätze, die ein VCDR-Ground-Truth-Label enthielten (REFUGE1, BMES, RIM-ONEr3, REFUGE2-Testsatz und PAPILA), verglichen wir die Leistung von G-RISK mit VCDR, indem wir die VCDR-Variable mit der Glaukom-Ground Truth vergleichen. Darüber hinaus berichten wir anhand des PAPILA-Datensatzes über den Zusammenhang zwischen G-RISK-Vorhersagen und klinischen Metadaten, einschließlich Augeninnendruck, mittlerer Abweichung des Gesichtsfeldes (MD), axialer Länge, Brechungsfehler und Hornhautdicke. ROC-Kurven wurden durch eine Kalibrierungskurve (10 Bins)59 und das Histogramm der Vorhersagen im selben Diagramm ergänzt. Ergebnisse aus verwandten Arbeiten zur Deep-Learning-basierten Glaukomerkennung und Generalisierbarkeit wurden zum Vergleich einbezogen, soweit möglich (LAG, ACRIMA, REFUGE1-Testsatz, REFUGE2-Testsatz). Um den Entscheidungsprozess von G-RISK besser zu verstehen, haben drei unabhängige Glaukomexperten manuell zufällig ausgewählte falsch-positive (n = 20) und falsch-negative (n = 20) sowohl der BMES- als auch der GHS-Daten ausgewertet. Bei weniger als 20 Fällen wurde die Gesamtzahl der FP oder FN analysiert. Experten bewerteten die Bildqualität (gut, schlecht, schlecht), das Glaukom (nein, vermutet, eindeutig), führten die Gründe für die Glaukomdiagnose auf und gaben an, ob das verarbeitete Bild bei ihrer Diagnose hilfreich war. Der Cohen-Kappa-Koeffizient (κ) bewertete die Übereinstimmung zwischen den Klassenstufen und die Übereinstimmung mit der Glaukom-Grundwahrheit. Die drei extremsten FP und FN für alle Datensätze wurden (mit und ohne überlagerte Salienzkarte) mit zugänglichen Ground-Truth-Beschriftungen und Bildern dargestellt. Salienzkarten wurden mit der Gradientenmethode der iNNvestigate-Bibliothek v2.0.160 erstellt.

Die verwendeten Daten stammen sowohl aus privaten als auch aus öffentlich zugänglichen Datensätzen. Öffentlich verfügbare Daten (AIROGS, ORIGA, REFUGE1, LAG, ODIR, REFUGE2, GAMMA, RIM-ONEr3, RIM-ONE DL, ACRIMA und PAPILA) können von der Quellwebsite abgerufen werden. Für die Prüfung der BMES- und GHS-Daten haben die Autoren eine wissenschaftliche Forschungskooperation mit den Dateneigentümern in Sydney bzw. Mainz aufgebaut. Bilder und Grundwahrheiten können von den Autoren nicht direkt weitergegeben werden; Wir laden interessierte Wissenschaftler ein, Kontakt mit den ursprünglichen Eigentümern der verschiedenen Datensätze aufzunehmen. Die von G-RISK anhand der öffentlich verfügbaren Datensätze generierten Vorhersagen können auf begründete Anfrage (E-Mail: [email protected]) weitergegeben werden. GHS-Daten: „Die schriftliche Einverständniserklärung der GHS-Studienteilnehmer erlaubt keinen öffentlichen Zugang zu den Daten. Der Zugriff auf die Daten in der lokalen Datenbank ist gemäß Ethikvotum jederzeit auf Anfrage möglich. Dieses Konzept wurde mit dem örtlichen Datenschutzbeauftragten und der Ethikkommission (örtliche Ethikkommission der Ärztekammer Rheinland-Pfalz, Deutschland) erarbeitet. Interessierte Wissenschaftler können ihre Anfragen an den Lenkungsausschuss der Gutenberg-Gesundheitsstudie richten (E-Mail: [email protected]).“

Der in dieser Studie verwendete Standard-ResNet-50-Code ist unter https://keras.io/api/applications/resnet/#resnet50-function verfügbar. Das Auswertungsskript zum Erhalten der Vorhersagen zu den verschiedenen Datensätzen ist auf wissenschaftlich begründete Anfrage erhältlich (E-Mail: [email protected]). Der gesamte Code wurde in einem Kernel mit Python Version 3.8.12 auf einem Windows 10-Rechner entwickelt und ausgeführt.

Tham, Y.-C. et al. Globale Glaukomprävalenz und Prognosen zur Glaukombelastung bis 2040: eine systematische Überprüfung und Metaanalyse. Ophthalmology 121, 2081–2090 (2014).

Artikel PubMed Google Scholar

Mitchell, P., Smith, W., Attebo, K. & Healey, PR Prävalenz des Offenwinkelglaukoms in Australien: die Blue-Mountains-Eye-Studie. Ophthalmology 103, 1661–1669 (1996).

Artikel CAS PubMed Google Scholar

Topouzis, F. et al. Prävalenz des Offenwinkelglaukoms in Griechenland: die Thessaloniki Eye Study. Bin. J. Ophthalmol. 144, 511–519 (2007).

Artikel PubMed Google Scholar

Budenz, DL et al. Prävalenz von Glaukom in einer städtischen westafrikanischen Bevölkerung: Die Tema-Eye-Umfrage. JAMA Ophthalmol. 131, 651–658 (2013).

Artikel PubMed PubMed Central Google Scholar

Liang, YB et al. Prävalenz des primären Offenwinkelglaukoms bei einer ländlichen erwachsenen chinesischen Bevölkerung: die Handan-Augenstudie. Investieren. Ophthalmol. Vis. Wissenschaft. 52, 8250–8257 (2011).

Artikel PubMed Google Scholar

Burr, JM et al. Die klinische Wirksamkeit und Kosteneffizienz des Screenings auf Offenwinkelglaukom: eine systematische Überprüfung und wirtschaftliche Bewertung. Gesundheitstechnologie. Bewerten. Winde. Engl. 11, 1–190 (2007).

Google Scholar

Karvonen, E. et al. Prävalenz von Glaukom in der Nordfinnischen Geburtskohorten-Augenstudie. Acta Ophthalmol. (Kopenhagen) 97, 200–207.

Artikel Google Scholar

Karvonen, E. et al. Diagnostische Leistung moderner bildgebender Instrumente im Glaukom-Screening. Br. J. Ophthalmol. 104, 1399–1405 (2020).

Artikel PubMed Google Scholar

Kim, C., Seong, GJ, Lee, N. & Song, K., Namil Study Group, Korean Glaucoma Society. Prävalenz des primären Offenwinkelglaukoms in Zentral-Südkorea der Namil-Studie. Ophthalmology 118, 1024–1030 (2011).

Artikel PubMed Google Scholar

Founti, P. et al. Zwölf-Jahres-Inzidenz des Offenwinkelglaukoms: Die Thessaloniki-Augenstudie. J. Glaucoma 30, 851–858 (2021).

Artikel PubMed Google Scholar

Keltner, JL et al. Bestätigung von Gesichtsfeldanomalien in der Studie zur Behandlung von Augenhochdruck. Studiengruppe zur Behandlung von Augenhochdruck. Bogen. Ophthalmol. Schick. Abb. 1960 118, 1187–1194 (2000).

Artikel CAS Google Scholar

Schmidt-Erfurth, U., Sadeghipour, A., Gerendas, BS, Waldstein, SM & Bogunović, H. Künstliche Intelligenz in der Netzhaut. Prog. Retin. Augenres. 67, 1–29 (2018).

Artikel PubMed Google Scholar

Medeiros, FA, Jammal, AA & Thompson, AC Von Maschine zu Maschine: Ein OCT-trainierter Deep-Learning-Algorithmus zur objektiven Quantifizierung glaukomatöser Schäden in Fundusfotos. Ophthalmology 126, 513–521 (2019).

Artikel PubMed Google Scholar

Hemelings, R. et al. Deep Learning auf Fundusbildern erkennt Glaukome außerhalb der Papille. Wissenschaft. Rep. 11, 20313 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Li, Z. et al. Wirksamkeit eines Deep-Learning-Systems zur Erkennung einer glaukomatösen Optikusneuropathie basierend auf Farbfotos des Fundus. Ophthalmology 125, 1199–1206 (2018).

Artikel PubMed Google Scholar

Li, L., Xu, M., Wang, X., Jiang, L. & Liu, H. Aufmerksamkeitsbasierte Glaukomerkennung: Eine umfangreiche Datenbank und ein CNN-Modell. Vorabdruck unter http://arxiv.org/abs/1903.10831 (2019).

Orlando, JI et al. REFUGE-Herausforderung: Ein einheitliches Framework zur Bewertung automatisierter Methoden zur Glaukombeurteilung anhand von Fundusfotos. Med. Bild Anal. 59, 101570 (2020).

Artikel PubMed Google Scholar

Beede, E. et al. Eine menschenzentrierte Evaluierung eines Deep-Learning-Systems, das in Kliniken zur Erkennung diabetischer Retinopathie eingesetzt wird. in Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems 1–12 (Association for Computing Machinery, 2020).

Quiñonero-Candela, J., Sugiyama, M., Schwaighofer, A. & Lawrence, ND Wenn Trainings- und Testsätze unterschiedlich sind: Charakterisierung des Lerntransfers. in Dataset Shift in Machine Learning 3–28 (MIT Press, 2009).

Romo-Bucheli, D. et al. Reduzierung der Bildvariabilität zwischen OCT-Geräten durch unbeaufsichtigtes, ungepaartes Lernen für eine verbesserte Segmentierung der Netzhaut. Biomed. Opt. Ausdruck 11, 346–363 (2019).

Artikel Google Scholar

Shen, Y. et al. Domäneninvariante interpretierbare Fundusbildqualitätsbewertung. Med. Bild Anal. 61, 101654 (2020).

Artikel PubMed Google Scholar

Thompson, AC, Jammal, AA & Medeiros, FA Ein Deep-Learning-Algorithmus zur Quantifizierung des Verlusts des neuroretinalen Randsaums anhand von Fotos des Sehnervenkopfes. Bin. J. Ophthalmol. 201, 9–18 (2019).

Artikel PubMed PubMed Central Google Scholar

Höhn, R. et al. Glaukomprävalenz in Deutschland: Ergebnisse der Gutenberg-Gesundheitsstudie. Graefes Arch. Klin. Exp. Ophthalmol. Albrecht Von. Graefes Arch. Klin. Exp. Ophthalmol. 256, 1695–1702 (2018).

Artikel Google Scholar

Sponsel, WE et al. Studie zum Gesichtsfeldscreening von Prevent Blindness America. Der Glaukom-Beratungsausschuss von Prevent Blindness America. Bin. J. Ophthalmol. 120, 699–708 (1995).

Artikel CAS PubMed Google Scholar

Healey, PR, Lee, AJ, Aung, T., Wong, TY & Mitchell, P. Diagnosegenauigkeit des Heidelberger Retina-Tomographen für Glaukom: Eine bevölkerungsbasierte Bewertung. Ophthalmology 117, 1667–1673 (2010).

Artikel PubMed Google Scholar

Liu, H. et al. Entwicklung und Validierung eines Deep-Learning-Systems zur Erkennung einer glaukomatösen Optikusneuropathie anhand von Fundusfotos. JAMA Ophthalmol. 137, 1353–1360 (2019).

Artikel PubMed PubMed Central Google Scholar

Alipanahi, B. et al. Eine groß angelegte, auf maschinellem Lernen basierende Phänotypisierung verbessert die genomische Entdeckung der Morphologie des Sehnervenkopfes erheblich. Bin. J. Hum. Genet. 108, 1217–1230 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Fan, R. et al. Deep Learning zur Erkennung von Glaukomen in der Ocular Hypertension Treatment Study: Auswirkungen auf die Endpunkte klinischer Studien. Investieren. Ophthalmol. Vis. Wissenschaft. 62, 1006 (2021).

Google Scholar

Kass, MA et al. Die Ocular Hypertension Treatment Study: Eine randomisierte Studie stellt fest, dass topische augenblutdrucksenkende Medikamente das Auftreten eines primären Offenwinkelglaukoms verzögern oder verhindern. Bogen. Ophthalmol. Schick. Abb. 1960 120, 701–713 (2002).

Artikel Google Scholar

Christopher, M. et al. Auswirkungen der Studienpopulation, Kennzeichnung und Schulung auf die Glaukomerkennung mithilfe von Deep-Learning-Algorithmen. Übers. Vis. Wissenschaft. Technol. 9, 27 (2020).

Artikel PubMed PubMed Central Google Scholar

Müller, R., Kornblith, S. & Hinton, G. Wann hilft die Etikettenglättung? In: Fortschritte in neuronalen Informationsverarbeitungssystemen, Bd. 32 (Hrsg. Wallach, H. et al.) (Curran Associates, Inc., 2019).

Gros, C., Lemay, A. & Cohen-Adad, J. SoftSeg: Vorteile von weichem gegenüber binärem Training für die Bildsegmentierung. Med. Bild Anal. 71, 102038 (2021).

Artikel PubMed Google Scholar

Estrela, T. et al. Von der Maschine in die reale Welt: Bewertung der Genauigkeit eines Machine-to-Machine (M2M)-Deep-Learning-Modells zur Erkennung von Glaukomen während eines bevölkerungsbasierten Screenings in Brasilien. Investieren. Ophthalmol. Vis. Wissenschaft. 61, 4539 (2020).

Google Scholar

Jammal, AA et al. Mensch versus Maschine: Vergleich eines Deep-Learning-Algorithmus mit menschlichen Bewertungen zur Erkennung von Glaukomen auf Fundusfotos. Bin. J. Ophthalmol. 211, 123–131 (2020).

Artikel PubMed Google Scholar

Lee, J., Kim, J. & Kee, C. Merkmale von Patienten mit einem lokalisierten Defekt der Nervenfaserschicht der Netzhaut und normalem Aussehen der Papille. Auge 26, 1473–1478 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Jonas, JB & Schiro, D. Lokalisierte Defekte der Nervenfaserschicht der Netzhaut bei nichtglaukomatöser Sehnervenatrophie. Graefes Arch. Klin. Exp. Ophthalmol. Albrecht Von. Graefes Arch. Klin. Exp. Ophthalmol. 232, 759–760 (1994).

Artikel CAS Google Scholar

Chihara, E., Matsuoka, T., Ogura, Y. & Matsumura, M. Defekt der Nervenfaserschicht der Netzhaut als frühe Manifestation einer diabetischen Retinopathie. Ophthalmology 100, 1147–1151 (1993).

Artikel CAS PubMed Google Scholar

Wang, D. et al. Lokalisierte Defekte der Nervenfaserschicht der Netzhaut und Schlaganfall. Schlaganfall 45, 1651–1656 (2014).

Artikel PubMed Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-Net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015 (Hrsg. Navab, N., Hornegger, J., Wells, WM & Frangi, AF) 234–241 (Springer International Publishing, 2015). https://doi.org/10.1007/978-3-319-24574-4_28.

Fu, H. et al. Gemeinsame Segmentierung der Sehnervenpapille und des Sehnervenbechers basierend auf einem tiefen Netzwerk mit mehreren Markierungen und polarer Transformation. IEEE Trans. Med. Bildgebung 37, 1597–1605 (2018).

Artikel PubMed Google Scholar

D'Amour, A. et al. Unterspezifikation stellt eine Herausforderung für die Glaubwürdigkeit des modernen maschinellen Lernens dar. Vorabdruck unter http://arxiv.org/abs/2011.03395 (2020).

Guo, C., Pleiss, G., Sun, Y. & Weinberger, KQ Zur Kalibrierung moderner neuronaler Netze. Vorabdruck unter http://arxiv.org/abs/1706.04599 (2017).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. Vorabdruck unter http://arxiv.org/abs/1512.03385 (2015).

Foster, PJ, Buhrmann, R., Quigley, HA & Johnson, GJ Die Definition und Klassifizierung von Glaukom in Prävalenzstudien. Br. J. Ophthalmol. 86, 238–242 (2002).

Artikel PubMed PubMed Central Google Scholar

Cuadros, J. & Bresnick, G. EyePACS: Ein anpassungsfähiges Telemedizinsystem für das Screening auf diabetische Retinopathie. J. Diabetes Sci. Technol. Online 3, 509–516 (2009).

Artikel Google Scholar

Lemij, HG, Kliffen, H. & Vermeer, K. Erstellen eines beschrifteten Datensatzes zum Trainieren eines Algorithmus der künstlichen Intelligenz (KI) für das Glaukom-Screening. Investieren. Ophthalmol. Vis. Wissenschaft. 62, 1019–1019 (2021).

Google Scholar

de Vente, C. et al. Rotterdamer EyePACS AIROGS-Zug. Satz. https://doi.org/10.5281/zenodo.5793241 (2021).

Artikel Google Scholar

Zhang, Z. et al. ORIGA(-light): eine Online-Bilddatenbank zum Netzhautfundus für die Glaukomanalyse und -forschung. Konf. Proz. Annu. Int. Konf. IEEE Eng. Med. Biol. Soc. IEEE Eng. Med. Biol. Soc. Annu. Konf. 2010, 3065–3068 (2010).

Google Scholar

Fang, H. et al. REFUGE2 Challenge: Schatz für Multi-Domain-Lernen bei der Glaukom-Beurteilung. (2022).

ODIR-2019. Internationaler Wettbewerb der Universität Peking zur intelligenten Erkennung von Augenkrankheiten (ODIR-2019). (2019).

Wu, J. et al. GAMMA-Herausforderung: Glaukom-Einstufung anhand von Bildern mit mehreren Modalitäten. Vorabdruck unter http://arxiv.org/abs/2202.06511 (2022).

Fumero, F., Alayon, S., Sanchez, JL, Sigut, J. & Gonzalez-Hernandez, M. RIM-ONE: Eine offene Netzhautbilddatenbank zur Beurteilung des Sehnervs. im Jahr 2011 24. Internationales Symposium für computergestützte medizinische Systeme (CBMS) 1–6 (2011). https://doi.org/10.1109/CBMS.2011.5999143.

Batista, FJF et al. RIM-ONE DL: Eine einheitliche Netzhautbilddatenbank zur Beurteilung des Glaukoms mithilfe von Deep Learning. Bild Anal. Stereol. 39, 161–167 (2020).

Artikel Google Scholar

Diaz-Pinto, A. et al. CNNs zur automatischen Glaukombeurteilung anhand von Fundusbildern: eine umfassende Validierung. Biomed. Ing. Online 18, 29 (2019).

Artikel PubMed PubMed Central Google Scholar

Hu, M.-K. Visuelle Mustererkennung durch Momentinvarianten. IRE Trans. Inf. Theorie 8, 179–187 (1962).

Artikel Google Scholar

Hemelings, R. et al. Arterien-Venen-Segmentierung in Fundusbildern mithilfe eines vollständig Faltungsnetzwerks. Berechnen. Med. Bildgebungsdiagramm. 76, 101636 (2019).

Artikel PubMed Google Scholar

Sun, X. & Xu, W. Schnelle Implementierung des DeLong-Algorithmus zum Vergleich der Flächen unter korrelierten Betriebskennlinien des Empfängers. IEEE-Signalprozess. Lette. 21, 1389–1393 (2014).

Artikel Google Scholar

Virtanen, P. et al. SciPy 1.0: grundlegende Algorithmen für wissenschaftliches Rechnen in Python. Nat. Methoden 17, 261–272 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Niculescu-Mizil, A. & Caruana, R. Vorhersage guter Wahrscheinlichkeiten mit überwachtem Lernen. in Proceedings of the 22nd international Conference on Machine Learning 625–632 (Association for Computing Machinery, 2005). https://doi.org/10.1145/1102351.1102430.

Alber, M. et al. iNNuntersuchen Sie neuronale Netze! J. Mach. Lernen. Res. 20, 1–8 (2019).

Google Scholar

Sun, Y. et al. Testzeittraining mit Selbstüberwachung zur Verallgemeinerung unter Verteilungsschichten. in Proceedings of the 37th International Conference on Machine Learning 9229–9248 (PMLR, 2020).

Referenzen herunterladen

Der Erstautor wird gemeinsam von der Forschungsgruppe Ophthalmologie, der KU Leuven und VITO NV unterstützt. Diese Forschung wurde von der flämischen Regierung im Rahmen des Programms „Onderzoeksprogramma Artificiële Intelligentie (AI) Vlaanderen“ gefördert. Wir danken Prof. Erwin Bellon von den Universitätskliniken Leuven für die umfassende Hilfe bei der Anonymisierung aller Fundusbilder und klinischen Daten. Wir möchten allen Mitarbeitern unseren Dank aussprechen, die uns ihre Daten anvertraut haben, was zu dieser Validierungsarbeit geführt hat.

Forschungsgruppe Ophthalmologie, Abteilung für Neurowissenschaften, KU Leuven, Herestraat 49, 3000, Leuven, Belgien

Ruben Hemelings, João Barbosa-Breda und Ingeborg Stalmans

Flämisches Institut für technologische Forschung (VITO), Boeretang 200, 2400, Mol, Belgien

Ruben Hemelings und Bart Elen

Klinik für Augenheilkunde, Universitätsmedizin Mainz, Langenbeckstr. 1, 55131, Mainz, Deutschland

Alexander K. Schuster, Annika Junglas, Stefan Nickels & Norbert Pfeiffer

ESAT-PSI, KU Leuven, Kasteelpark Arenberg 10, 3001, Leuven, Belgien

Matthew B. Blaschko

Kardiovaskuläres Forschungs- und Entwicklungszentrum, Medizinische Fakultät der Universität Porto, Alameda Prof. Hernâni Monteiro, 4200-319, Porto, Portugal

João Barbosa-Breda

Abteilung für Augenheilkunde, Centro Hospitalar e Universitário São João, Alameda Prof. Hernâni Monteiro, 4200-319, Porto, Portugal

João Barbosa-Breda

Tays Eye Centre, Universitätskrankenhaus Tampere, Tampere, Finnland

Pekko Hujanen & Anja Tuulonen

Abteilung für Augenheilkunde, Universität Sydney, Sydney, NSW, Australien

Andrew White und Paul Mitchell

Zentrum für Umweltwissenschaften, Universität Hasselt, Agoralaan-Gebäude D, 3590, Diepenbeek, Belgien

Patrick De Boever

Universität Antwerpen, Fachbereich Biologie, 2610, Wilrijk, Belgien

Patrick De Boever

Abteilung für Augenheilkunde, UZ Leuven, Herestraat 49, 3000, Leuven, Belgien

Ingeborg Stalmans

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

RH entwarf die externe Teststudie, schrieb den Bewertungscode, generierte die wichtigsten Ergebnismaße, analysierte die Ergebnisse, verfasste das Manuskript und entwarf die Zahlen. BE war Mitgestalter der Studie und überprüfte die Ergebnisse und das Manuskript. AS ermöglichte das Testen der GHS-Daten, überprüfte die Ergebnisse der GHS-Daten und überprüfte das vollständige Manuskript. MBB war Mitgestalter der Studie und überprüfte die Ergebnisse und das Manuskript. JB hat die in BMES- und GHS-Daten erfassten falsch klassifizierten Fälle klinisch ausgewertet und das Manuskript überprüft. PH analysierte die Ergebnisse für BMES-Daten und überprüfte das Manuskript. AJ lieferte die Grundwahrheit für die GHS-Daten und überprüfte das Manuskript. SN ermöglichte das Testen der GHS-Daten und überprüfte das vollständige Manuskript. AW stellte die BMES-Daten zum Testen zur Verfügung, analysierte die Ergebnisse und überprüfte das Manuskript. NP gewährte Zugang zu den GHS-Daten und überprüfte das Manuskript. PM gewährte Zugang zu den BMES-Daten und überprüfte das Manuskript. PDB war Mitgestalter der Studie, stellte Forschungsgelder bereit und überprüfte die Ergebnisse und das Manuskript. AT erleichterte den Zugriff auf die BMES-Daten, bewertete die in den BMES- und GHS-Daten erfassten falsch klassifizierten Fälle klinisch und überprüfte das Manuskript. IS war an der Gestaltung der Studie beteiligt, stellte Forschungsmittel bereit, überprüfte die Ergebnisse, bewertete die in BMES- und GHS-Daten erfassten falsch klassifizierten Fälle klinisch und überprüfte das Manuskript.

Korrespondenz mit Ruben Hemelings.

An der Gestaltung der Studie, an der Sammlung, Analyse und Interpretation von Daten, an der Erstellung des Manuskripts oder an der Entscheidung, das Manuskript zur Veröffentlichung einzureichen, waren keine externen Stellen beteiligt. IS ist Mitbegründer, Anteilseigner und Berater von Mona.health, einem Spin-off der KU Leuven / VITO, auf das das beschriebene Modell übertragen wurde. Das Studiendesign wurde vor dem Modelltransfer im Lichte der Doktorarbeit von RH konzipiert. Im Rahmen ihrer Anstellungsbedingungen an der KU Leuven haben RH und MBB Anspruch auf Aktienoptionen von Mona.health. RH hat Beratungshonorare von Mona.health erhalten.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hemelings, R., Elen, B., Schuster, AK et al. Ein verallgemeinerbares Deep-Learning-Regressionsmodell für das automatisierte Glaukom-Screening anhand von Fundusbildern. npj Ziffer. Med. 6, 112 (2023). https://doi.org/10.1038/s41746-023-00857-0

Zitat herunterladen

Eingegangen: 14. August 2022

Angenommen: 01. Juni 2023

Veröffentlicht: 13. Juni 2023

DOI: https://doi.org/10.1038/s41746-023-00857-0

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt