Automatische Extraktion von Bildgebungsbeobachtungen und Beurteilungskategorien aus Brust-MRT-Berichten mittels Natural Language Processing
Einleitung
Brustkrebs zählt weltweit zu den häufigsten und tödlichsten Krebserkrankungen bei Frauen. Früherkennung und präzise Diagnostik sind entscheidend für die Verbesserung der Behandlungsergebnisse. Die Brust-Magnetresonanztomographie (MRT) hat sich als wesentliches Instrument in der Diagnose und Therapieplanung, insbesondere für Hochrisikopatientinnen, etabliert. Das Breast Imaging Reporting and Data System (BI-RADS) der American College of Radiology (ACR) standardisiert die Terminologie in bildgebenden Berichten, einschließlich der MRT. Dennoch werden die meisten radiologischen Befunde als Freitext verfasst, was die Datenextraktion und -analyse erschwert. Manuelle Extraktionen sind zeitaufwendig, fehleranfällig und ineffizient, insbesondere bei großen Studienkohorten. Natural Language Processing (NLP) bietet eine vielversprechende Lösung, um strukturierte Daten automatisiert aus Freitextberichten zu extrahieren und somit Effizienz sowie Genauigkeit in Diagnostik und Entscheidungsfindung zu steigern.
Diese Studie evaluiert die Leistung eines NLP-Programms zur Extraktion von BI-RADS-Deskriptoren und Beurteilungskategorien aus Brust-MRT-Berichten. Ziel ist es, die Lücke zwischen unstrukturiertem Text und strukturierten Daten zu schließen, die für klinische Entscheidungsunterstützungssysteme essenziell ist.
Methoden
Studienpopulation und Datenerhebung
Retrospektiv wurden 2330 Brust-MRT-Berichte aus dem elektronischen Patientenarchiv des Peking University First Hospital (Erhebungszeitraum: 23. März 2009 bis 1. Juni 2017) analysiert. Das mittlere Patientenalter betrug 50,9 Jahre (Spanne: 13–92 Jahre). Einschlusskriterium war die Verfügbarkeit von Biopsie- oder postoperativen pathologischen Befunden zum Untersuchungszeitpunkt oder innerhalb eines 3-monatigen Follow-ups. Die Berichte wurden in zwei Gruppen unterteilt: 1635 Berichte dienten der Entwicklung des NLP-Systems, 695 Berichte bildeten einen unabhängigen Testdatensatz zur Evaluierung.
Revidierte BI-RADS-MRT-Terminologie
Das ACR BI-RADS-MRT-Lexikon wurde an die dokumentarischen Gewohnheiten der Klinik angepasst. Die revidierte Terminologie umfasst zwei Hauptkategorien: Gesamtbeurteilung und Läsionsbeurteilung. Die Gesamtbeurteilung unterteilt sich in fibroglanduläres Gewebe und Hintergrundparenchymanreicherung. Die Läsionsbeurteilung inkludiert anatomische Lokalisation, Morphologie und Kontrastmittelkinetik. Die Deskriptoren wurden in einer vereinfachten Ontologiestruktur organisiert, um die NLP-Verarbeitung zu erleichtern.
Entwicklung des NLP-Systems
Das NLP-System wurde mit einer intern entwickelten Software (Smartree Clinical Information System, Peking, China) erstellt. Die Verarbeitung der Berichte erfolgte in mehreren Schritten: Sektionssegmentierung, Satzsegmentierung, Tokenisierung, Konzeptabgleich und Negationserkennung. Präprozessierungsschritte beinhalteten die Identifizierung von Abschnitts- und Satzgrenzen, Tokenisierung bildgebender Merkmale, Korrektur von Rechtschreibfehlern und Abkürzungserweiterung. Der Text wurde anschließend mittels exakter und synonymbasierter Abgleiche mit den BI-RADS-Begriffen abgeglichen. Negationen und unsichere Konzepte wurden detektiert, um Bildgebungsdeskriptoren, Lokalisationen und BI-RADS-Kategorien pro Läsion zu extrahieren.
Evaluierung des NLP-Systems
Die Leistung des NLP-Systems wurde anhand manueller Annotationen durch zwei radiologische Fachärzte validiert. Diskrepanzen wurden durch einen dritten Gutachter gelöst. Sensitivität (Recall) und Präzision (positiver prädiktiver Wert) des Systems wurden für die korrekte Identifikation der BI-RADS-Deskriptoren und -Kategorien berechnet. Die Effizienz des Systems wurde hinsichtlich der Bearbeitungszeit pro Bericht mit der manuellen Extraktion verglichen.
Ergebnisse
Manuelle Extraktion
Gutachter 1 identifizierte 1258 Läsionen (Sensitivität: 97,8 %; Präzision: 98,1 %), Gutachter 2 detektierte 1260 Läsionen (Sensitivität: 97,1 %; Präzision: 97,7 %). Die Übereinstimmung zwischen den Gutachtern war hoch (κ-Wert: 0,95).
NLP-Leistung
Das NLP-Programm detektierte 1279 Läsionen mit einer Sensitivität von 78,5 % und einer Präzision von 86,1 %. Die Leistung variierte je nach Deskriptor: Sensitivität und Präzision lagen zwischen 70,0 % und 99,8 %. Das System generierte Ergebnisse in unter einer Sekunde, verglichen mit durchschnittlich 3,38 bzw. 3,23 Minuten pro Bericht bei manueller Auswertung.
Diskussion
Die Studie zeigt die Machbarkeit der NLP-basierten Extraktion strukturierter Daten aus Freitext-Brust-MRT-Berichten. Das System erreichte akzeptable Sensitivitäts- und Präzisionswerte, insbesondere für Deskriptoren wie Hintergrundparenchymanreicherung, Massenform und Lymphadenopathie. Schwächen zeigten sich bei fibroglandulärem Gewebe und Kontrastmittelkinetik aufgrund nicht standardisierter Formulierungen.
Die hohe Effizienz des NLP-Systems unterstreicht dessen Potenzial für großangelegte Studien und klinische Anwendungen, in denen manuelle Auswertungen unpraktikabel sind.
Einschränkungen und zukünftige Arbeit
Die Generalisierbarkeit des Systems ist durch die Einzentren-Daten begrenzt. Zukünftige Studien sollten multizentrische Daten integrieren. Zudem könnte die Fokussierung auf Indexläsionen die klinische Relevanz der Extraktion erhöhen.
Fazit
Das entwickelte NLP-System zeigt hohe Sensitivität und Präzision bei der Extraktion von BI-RADS-Deskriptoren aus Brust-MRT-Berichten. Die schnelle Verarbeitungszeit bietet einen deutlichen Vorteil gegenüber manuellen Methoden und ebnet den Weg für verbesserte klinische Entscheidungsunterstützung und radiologische Anwendungen.
doi.org/10.1097/CM9.0000000000000301