Schnelle Identifizierung von chronischer Nierenerkrankung in elektronischen Gesundheitsakten durch computable Phänotypen in Kombination mit einem Common Data Model

Die chronische Nierenerkrankung (CKD) stellt eine erhebliche globale Belastung für die öffentliche Gesundheit dar, mit einer Prävalenz von über 10 % weltweit. Dennoch liegt das Bewusstsein für CKD bei nur etwa 10 %. Im Zeitalter von Big Data ist die Verbesserung der Identifizierung von CKD durch den Einsatz informatischer Werkzeuge von entscheidender Bedeutung. Computable Phänotypen haben sich als effiziente Werkzeuge erwiesen, um den Prozess der Patientenidentifizierung anhand von Daten aus elektronischen Gesundheitsakten (EHR) zu erleichtern. Diese Phänotypen sind automatische Algorithmen, die die Zielpopulation durch objektive Kriterien und logische Aussagen identifizieren. Die effektive Implementierung eines computablen Phänotyps hängt von der gültigen Zuordnung von Rohdaten zu einem Standardsatz von Daten und Definitionen ab. Frühere Studien haben computable Phänotypen zur Identifizierung von CKD in englischer Sprache unter Verwendung der Logical Observation Identifiers Names and Codes (LOINC) und der International Classification of Diseases (ICD)-Codes entwickelt. Die Implementierung dieser computablen Phänotypen in nicht-englischen Kontexten und/oder in Abwesenheit eines identischen Codierungssystems ist jedoch aufgrund begrenzter Nutzung und Sprachbarrieren eine Herausforderung.

Ein Common Data Model (CDM) wurde als Lösung für die Datenstandardisierung und die Lokalisierung computabler Phänotypen vorgeschlagen. Der Kern eines CDM besteht in der Extraktion von Schlüsselelementen, deren Transformation in eine Standardterminologie und deren Laden in ein Standardschema durch den Prozess der Extraktion, Transformation und Ladung (ETL). Verschiedene CDMs, wie das Observational Medical Outcomes Partnership CDM, das Sentinel CDM und das Patient-Centered Outcomes Research Network CDM, wurden weit verbreitet und haben erfolgreich die Standardisierung von EHR-Daten gefördert. Ein speziell für die Charakterisierung von CKD entwickeltes CDM fehlt jedoch noch.

Die Bestätigung von CKD dauert in der Regel mindestens drei Monate, was eine zeitnahe Diagnose erschwert und die Anzahl der Fehldiagnosen in der klinischen Praxis erhöht, insbesondere bei Patienten, die in verschiedenen Einrichtungen medizinische Versorgung in Anspruch nehmen. EHR-Datenbanken sammeln kontinuierlich Gesundheitsdaten über verschiedene Einrichtungen hinweg und aktualisieren diese in Echtzeit, was sie zu vielversprechenden Werkzeugen für die Überwachung und Identifizierung von Patienten mit CKD macht. Diese Studie spekuliert, dass ein computabler Phänotyp in Kombination mit einem CDM die Extraktion und Identifizierung von CKD-bezogenen Daten anhand von EHR-Daten erleichtern könnte.

Die Studie wurde in Yinzhou, einem Bezirk in Ningbo, Provinz Zhejiang, China, mit einer Bevölkerung von 1,6 Millionen Menschen durchgeführt. Das Regionale Gesundheitsinformationssystem (RHIS) in Yinzhou sammelt EHRs der Einwohner und aktualisiert die Datenbank in Echtzeit. Ein eindeutiger Identifikationscode (PERSONKEY) wurde unter Verwendung von Personalausweis, Geschlecht, Geburtsdatum und Name generiert, um identische Personen zu erkennen, Gesundheitsprofile in verschiedenen Unterdatenbanken zu verknüpfen und vollständige EHRs zu erstellen. Die EHRs von 976.409 Erwachsenen mit medizinischen Aufzeichnungen wurden als Rohdaten für die Analyse extrahiert. Die Studie wurde von der Ethikkommission des Peking University First Hospital genehmigt.

Das CDM für die Charakterisierung von CKD wurde in Übereinstimmung mit den in The Book of OHDSI: Observational Health Data Sciences and Informatics beschriebenen Prinzipien entwickelt. Schlüsselelemente für die Identifizierung von CKD, wie sie in den klinischen Leitlinien der Kidney Disease: Improving Global Outcomes (KDIGO) für CKD (2012) definiert sind, umfassen Alter, Geschlecht, Nierenfunktion und Urinabnormitäten. Die Datenbereiche des CDM für die Identifizierung von CKD wurden so gestaltet, dass sie Demografie, Labortests und Diagnosen umfassen. Die Standardterminologie für die Datenbereiche wurde in Übereinstimmung mit den KDIGO-CKD-Leitlinien und den ICD-10-Codes sowohl in Englisch als auch in Chinesisch definiert. Formulare mit Demografiedaten (Alter, Geschlecht), Labortests (Nierenfunktion, Albuminurie, Proteinurie, Hämaturie) und Diagnosen (ICD-10-Codes und Texte) in der EHR-Datenbank wurden durch PERSONKEY integriert. Insgesamt wurden 10.981.723 medizinische Aufzeichnungen von 976.409 Personen in der EHR-Datenbank für die Extraktion von Originalvokabular vorbereitet.

Zuordnungsregeln zwischen Originalvokabular und der Standardterminologie wurden durch manuelle Annotation und Formatkonvertierung festgelegt. Zwei Nephrologen führten die Annotation unabhängig voneinander durch, und ein Informatiker führte die Zuordnung durch. Der Algorithmus des computablen Phänotyps für die Identifizierung von CKD wurde in Übereinstimmung mit den klinischen Leitlinien der KDIGO für CKD entwickelt. Patienten, die mindestens eine der folgenden Manifestationen über einen Zeitraum von mehr als drei Monaten zeigten, wurden als CKD-Patienten definiert: (1) reduzierte Nierenfunktion: geschätzte glomeruläre Filtrationsrate (eGFR) weniger als 60 ml/min/1,73 m²; (2) Albuminurie: Urin-Albumin-Kreatinin-Verhältnis ≥30 mg/g oder Urin-Albumin-Konzentration ≥20 mg/L; (3) Proteinurie: Urin-Protein-Kreatinin-Verhältnis ≥150 mg/g oder 24-Stunden-Proteinurie ≥150 mg/24 h oder Urinanalyse-Protein ≥+1; (4) Hämaturie ohne nicht-CKD-bedingte Ursachen, einschließlich urologischer Neoplasien, Harnwegsinfektionen und Verletzungen. Kriterien für Hämaturie: Urin-Erythrozyten ≥3 Zellen/HPF (oder >28 Zellen/ml) oder Urin-Okkultblut ≥+2; (5) CKD-bezogene Diagnosen, einschließlich primärer, sekundärer oder angeborener Nierenerkrankungen, Nierengefäßerkrankungen, Dialysebehandlung und Empfänger/Spender von Nierentransplantationen. Patienten, die über einen Zeitraum von drei Monaten erneut getestet wurden und bei denen das Fehlen der oben genannten Manifestationen bestätigt wurde, wurden als normale Fälle definiert. Patienten, die diese Manifestationen über einen Zeitraum von weniger als drei Monaten zeigten oder keine erneuten Tests erhielten, wurden als Fälle definiert, die in der nächsten Iteration der CKD-Identifizierung bearbeitet werden sollten.

Sieben Einrichtungen wurden aus 42 Gesundheitseinrichtungen in Yinzhou ausgewählt, um den computablen Phänotyp basierend auf dem CDM zu implementieren. Dazu gehörten drei allgemeine Krankenhäuser der Tertiärversorgung, zwei Fachkrankenhäuser (ein Mutter-Kind-Krankenhaus und ein orthopädisches Krankenhaus), ein allgemeines Krankenhaus der Sekundärversorgung und ein kommunales Gesundheitszentrum.

Die Leistung des computablen Phänotyps wurde durch manuelle Überprüfung validiert. Fälle, die als mit/ohne CKD identifiziert wurden, wurden zufällig ausgewählt, und ihre Originalaufzeichnungen von Demografie, Diagnosen und Labortests wurden von zwei Nephrologen manuell überprüft. Bei den Fällen ohne CKD wurden alle Diagnosen und CKD-bezogenen Labortests in der Datenbank extrahiert und manuell überprüft. Bei den Fällen mit CKD wurden alle Diagnosen und Labortests ab dem Datum des Auftretens von CKD bis zum Endpunkt der Datenbank extrahiert und manuell überprüft. Panel-Diskussionen wurden durchgeführt, wenn es unterschiedliche Meinungen gab. Die Überprüfung durch Nephrologen wurde als Goldstandard für die Identifizierung von CKD definiert. Die Datenverarbeitung und -berechnung im RHIS basierte auf dem Hadoop-Framework, wobei die Berechnungsengine Spark und das Data Warehouse Hive für die Unterstützung von Structured Query Language (SQL) verwendet wurden. Der ETL-Prozess des CDM und die Implementierung des computablen Phänotyps wurden mit SQL-Anweisungen durchgeführt.

Die demografischen und klinischen Merkmale von CKD-identifizierten Patienten wurden analysiert. Die Stadien von CKD-identifizierten Patienten wurden anhand der eGFR-Werte in G1–G5 eingeteilt. Kontinuierliche und kategorische Variablen wurden als Mittelwert ± Standardabweichung bzw. Häufigkeit dargestellt. Die Leistung des computablen Phänotyps wurde in Bezug auf Sensitivität, Spezifität und Genauigkeit bewertet und mit MedCalc 15.8 analysiert.

Die Standardterminologie für die Charakterisierung von CKD wird im Prozess der Entwicklung des CDM für die Charakterisierung von CKD und des computablen Phänotyps für die Identifizierung von CKD dargestellt. Insgesamt wurden 617 Originalvokabulare für Labortests gefunden und durch die Verarbeitung von 10.981.723 medizinischen Aufzeichnungen von 976.409 Personen aus 42 medizinischen Einrichtungen standardisiert. Die Formate von Datum, kategorischen Daten und Einheiten von Tests wurden konvertiert. Durch manuelle Annotation wurden 111 Arten von Diagnosen (entsprechend 171 Arten von ICD-10-Codes in englischer und chinesischer Version), einschließlich primärer, sekundärer und angeborener Nierenerkrankungen, Nierengefäßerkrankungen und urämiebezogener Diagnosen, als CKD-bezogene Diagnosen neu organisiert.

Durch das Scannen von 21.474.008 Aufzeichnungen von Labortests und Diagnosen von 557.719 Personen in sieben medizinischen Einrichtungen wurden 64.036 (11,5 %) Patienten mit CKD durch den computablen Phänotyp identifiziert. Davon erhielten 55.682 (87,0 %) Patienten Serumkreatinin-Tests. Die Mehrheit der Patienten befand sich in frühen Stadien (G1: 33.315 Fälle [59,8 %]; G2: 12.980 Fälle [23,3 %]). Patienten in G1 waren die jüngsten (53,7 ± 14,0 Jahre), während Patienten in G4 die ältesten waren (82,3 ± 14,6 Jahre). Der höchste Anteil von Hämaturie und Albuminurie/Proteinurie wurde in G1 (17.187 Fälle [51,6 %]) bzw. G5 (417 Fälle [51,3 %]) beobachtet. Die Häufigkeit von Patienten mit CKD-bezogenen ICD-10-Codes stieg von G1 (16.795 Fälle [50,4 %]) bis G5 (737 Fälle [90,7 %]) an.

Insgesamt wurden die EHRs von 50 CKD-identifizierten Fällen und 50 Fällen ohne CKD zufällig ausgewählt und von zwei Nephrologen überprüft. Fünfzig CKD-identifizierte Fälle wurden als Krankheit bestätigt, und drei Fälle ohne CKD wurden als fehlklassifiziert definiert, da sie das Kriterium der erneuten Testung über drei Monate nicht erfüllten. Die Sensitivität, Spezifität und Genauigkeit des computablen Phänotyps für die Identifizierung von CKD betrugen 94,3 %, 100,0 % bzw. 97,0 %.

Im Vergleich zu früheren Modellen berücksichtigte der vorliegende computable Phänotyp insbesondere die Nutzung bestehender nicht einheitlicher Daten und seine Fähigkeit zur Lokalisierung über Datenbanken mit unterschiedlichen Einstellungen. Der Algorithmus des vorliegenden computablen Phänotyps kombinierte CKD-bezogene Diagnoserecords und Labortests, um die Datennutzung und Identifizierungsrate zu verbessern. Die Terminologie des CDM bevorzugte die Standardbeschreibung gegenüber einem Codierungssystem, um das Potenzial für eine weitere Expansion in fremden Datenbanken in Abwesenheit eines identischen Codierungssystems zu bewahren. In Übereinstimmung mit den vorliegenden Implementierungsergebnissen wurden die EHR-Daten in verschiedenen Ebenen von Gesundheitseinrichtungen erfolgreich gescannt, und die Prävalenz von CKD sowie die Merkmale von identifizierten CKD-Patienten stimmten mit früheren national repräsentativen Studien überein.

Die vorliegende Studie etablierte ein reproduzierbares Paradigma für das Design und die Konstruktion von CDM und computablen Phänotypen in anderen Bereichen und Datenbanken. Eine leichte Erweiterung der Kriterien für die Krankheitsidentifizierung basierend auf der Standarddefinition der Krankheit ist zulässig, um die Datennutzung und die Identifizierungsrate auszugleichen. Die Einbettung eines CDM in den computablen Phänotyp kann die Effizienz seiner Implementierung über verschiedene Datenbanken hinweg verbessern. Ein CDM, das nicht-monotone Terminologie enthält, wird das Potenzial für die Lokalisierung erhöhen. Schließlich kann die Korrespondenz zwischen der englischen und chinesischen Terminologie die Schnittstelle sein, um die Daten in Chinesisch mit den vorhandenen Ressourcen und Techniken in Englisch zu verknüpfen. Diese Strategie könnte machbar sein, um die Datenextraktion und den Informationsaustausch in anderen Sprachen zu fördern.

doi.org/10.1097/CM9.0000000000002168