Eine fortgeschrittene Methode des maschinellen Lernens zur Brustkrebsvorhersage in China

Eine fortgeschrittene Methode des maschinellen Lernens zur simultanen Vorhersage und Risikobewertung von Brustkrebs in der chinesischen Bevölkerung: Eine prospektive Kohorten- und Modellierungsstudie

Brustkrebs (BC) bleibt die weltweit am häufigsten diagnostizierte Krebsart bei Frauen, mit schätzungsweise 2,26 Millionen neuen Fällen im Jahr 2020. In China stellt BC die häufigste Krebsneuerkrankung bei Frauen dar, mit etwa 416.000 neuen Fällen im Jahr 2020. Die zunehmende Belastung durch BC in China unterstreicht die dringende Notwendigkeit effektiver Risikobewertungsinstrumente, die speziell auf die chinesische Bevölkerung zugeschnitten sind. Traditionelle BC-Risikovorhersagemodelle wie das Gail-, Claus- und Tyrer–Cuzick-Modell weisen begrenzte Genauigkeit auf, mit Flächen unter der Receiver-Operating-Characteristic-Kurve (AUC) typischerweise zwischen 0,55 und 0,65. Diese Modelle basieren oft auf invasiven Methoden wie Gentests und Brustbiopsien, die in China aufgrund wirtschaftlicher Einschränkungen und ungleich verteilter medizinischer Ressourcen nicht flächendeckend anwendbar sind. Ziel dieser Studie ist die Entwicklung nicht-invasiver, hochpräziser maschineller Lernmodelle zur Risikovorhersage für die chinesische Bevölkerung.

Methoden
Die Studie nutzt Daten der Breast Cancer Cohort Study in Chinese Women (BCCS-CW), einer prospektiven dynamischen Kohorte mit 122.058 Frauen im Alter von 25–70 Jahren aus Ostchina. Die Kohorte wurde 2008–2009 etabliert, mit Nachverfolgung von 2017 bis 2020. Teilnehmerinnen gaben detaillierte Informationen zu Demografie, physiologischen/reproduktiven Faktoren, medizinischer/familiärer Vorgeschichte, Ernährung, Lebensstil und BC-Wissen durch Interviews und physiologische Messungen. BC-Fälle wurden über nationale Krankenversicherungsdaten, Krebsregister und lokale Meldungen identifiziert. Die Studie folgte den TRIPOD-Richtlinien und wurde von den Ethikkommissionen des Second Hospital of Shandong University und des National Center for Chronic and Non-communicable Disease Control genehmigt.

Für die Modellentwicklung kamen Techniken des maschinellen Lernens zum Einsatz, darunter penalized logistic regression (PLR), Bootstrapping und Ensemble-Learning. Das ensemble penalized logistic regression (EPLR)-Modell dient der Kurzzeitrisikovorhersage, während das ensemble penalized long-term (EPLT)-Modell Langzeitrisiken prognostiziert. Beide Modelle basieren auf einem bagging-basierten Framework, das multiple PLR-Modelle aggregiert, um Genauigkeit und Stabilität zu erhöhen. Das EPLR-Modell integrierte 72 nicht-experimentelle Risikofaktoren, das EPLT-Modell 51 Variablen. Die Modelle wurden mit Daten aus Shandong trainiert/validiert und extern über Jiangsu, Hebei und Tianjin validiert.

Ergebnisse
Die Modelle wurden anhand von Diskrimination (AUC, ROC-Kurven, NRI) und Kalibrierung (Kalibrierungsplots, E/O-Ratio) evaluiert. Das EPLR-Modell zeigte eine AUC von 0,800 (interne Validierung) und 0,751 (externe Validierung). Der NRI im Vergleich zum Social Network-inspired Breast Cancer Risk Assessment Model (BCRAM) betrug 0,164 (intern) bzw. 0,268 (extern). Das EPLT-Modell erreichte AUC-Werte von 0,692 (intern) und 0,760 (extern). Der NRI gegenüber dem Gail- und Han Chinese Breast Cancer Prediction Model (HCBCP) lag bei 0,109 bzw. 0,171 (intern) und 0,193 bzw. 0,233 (extern). Kalibrierungsplots bestätigten die präzise Risikoprognose.

Ein Schlüsselergebnis war die Bedeutung nicht-experimenteller Faktoren: „Allgemeine Lebenszufriedenheit“ erwies sich im EPLR-Modell als wichtigster Prädiktor, gefolgt von Menopausenstatus, BC-Familiengeschichte, Brusthyperplasie und Ernährungsgewohnheiten. Die Modelle übertrafen traditionelle Ansätze wie Gail und HCBCP, die weniger Variablen nutzen und invasive Tests erfordern. Durch Bootstrapping und Ensemble-Learning wurden Stichprobenungleichgewichte reduziert und die Robustheit verbessert.

Einschränkungen
Die externe Validierung des EPLT-Modells beschränkte sich auf drei Provinzen, und Langzeitprognosen basieren auf nur drei Jahren Nachbeobachtung. Etablierte Risikofaktoren wie Alkoholkonsum wurden aufgrund geringer Gewichtung ausgeschlossen. Subtypen von BC (z. B. Östrogenrezeptor-Status) wurden nicht berücksichtigt.

Schlussfolgerung
Die EPLR- und EPLT-Modelle bieten eine präzise, nicht-invasive Methode zur BC-Risikostratifizierung in China. Ihre Fähigkeit, Faktoren zu priorisieren und auf psychosoziale Variablen zu fokussieren, macht sie kosteneffizient und breit anwendbar. Zukünftige Forschung sollte die Validierung in diverseren Populationen sowie die Integration von BC-Subtypen anstreben.

doi.org/10.1097/CM9.0000000000002891