Ist das C-TIRADS den ACR-TIRADS oder ATA in der Schilddrüsendiagnose überlegen?

Ist das chinesische Thyroid Imaging Reporting and Data System (C-TIRADS) den Leitlinien des American College of Radiology (ACR-TIRADS) oder der American Thyroid Association (ATA) in Bezug auf Konsistenz und Effizienz bei der Diagnose von Schilddrüsenkrebs überlegen?

Schilddrüsenknoten sind ein häufiger klinischer Befund, wobei ihre Inzidenz in den letzten drei Jahrzehnten signifikant angestiegen ist. Die Ultraschalluntersuchung bleibt ein Eckpfeiler für das Screening und die Differenzierung zwischen malignen und benignen Schilddrüsenknoten. Die zunehmende Detektion kleiner Knoten, insbesondere solcher mit einer Größe von <1 cm, hat jedoch die Herausforderungen bei der Minimierung unnötiger Biopsien verstärkt. Die Entwicklung standardisierter Berichtssysteme, wie die Thyroid Imaging Reporting and Data Systems (TI-RADS), zielt darauf ab, die diagnostische Genauigkeit und die Interobserver-Konsistenz zu verbessern. Unter diesen Systemen wurden das ACR-TIRADS, die ATA-Leitlinien von 2015 und das neu eingeführte C-TIRADS hinsichtlich ihrer klinischen Nützlichkeit verglichen. Diese Studie bewertet die diagnostische Leistung, die Interobserver-Übereinstimmung und die Interguideline-Konsistenz dieser drei Systeme, um festzustellen, ob C-TIRADS einen überlegenen klinischen Nutzen bei der Diagnose von Schilddrüsenkrebs bietet.

Studiendesign und Methodik

Die retrospektive Studie analysierte 1.000 Patienten (1.211 Knoten) aus zwei chinesischen medizinischen Zentren von Januar 2017 bis März 2021. Die Einschlusskriterien erforderten eine Bestätigung der Knoten durch chirurgische Pathologie oder Kernnadelbiopsie (CNB). Ausschlusskriterien umfassten Ultraschallbilder von schlechter Qualität, mehrdeutige pathologische Ergebnisse, vorherige Behandlungen, die die Knotenbewertung beeinflussten, oder Knoten, die nicht mit den Leitlinienkriterien vereinbar waren. Die Ultraschalluntersuchungen wurden mit den Geräten Resona7 (Mindray) oder Siemens Oxana2/S2000 durchgeführt, wobei die Bilder von Radiologen mit ≥5 Jahren Erfahrung interpretiert wurden. Die Knotenmerkmale (Größe, Zusammensetzung, Echogenität, Form, Rand, echogene Foci und Lymphknotenstatus) wurden unabhängig von zwei Radiologen bewertet, wobei Diskrepanzen durch Konsens oder Fachberatung gelöst wurden.

Die pathologischen Ergebnisse klassifizierten 539 Knoten (44,5 %) als benigne (357 Knotenstrumen, 142 Schilddrüsenadenome, 40 lokalisierte Hashimoto-Thyreoiditis) und 672 (55,5 %) als maligne (630 papilläre Karzinome, 28 medulläre Karzinome, 13 follikuläre Karzinome, 1 Plattenepithelkarzinom). Maligne Knoten waren kleiner (mittlerer Durchmesser: 1,09 ± 0,97 cm) im Vergleich zu benignen Knoten (1,92 ± 1,50 cm, P < 0,001), und Patienten mit Malignomen waren jünger (43,17 ± 11,06 Jahre vs. 48,58 ± 11,97 Jahre, P < 0,001).

Leitlinienklassifikation und Risikostratifizierung

Die Knoten wurden gemäß den ACR-TIRADS-, ATA-2015- und C-TIRADS-Kriterien kategorisiert. Die Risikostratifizierung für Malignome wurde über die Systeme hinweg harmonisiert:

ACR-TIRADS: Kategorien 1–2 (Risiko <2 %), 3 (5 %), 4 (5 %–20 %) und 5 (>20 %).
ATA: Klassifikationen „benigne“ (<3 %), „geringer Verdacht“ (5 %–10 %), „mittlerer Verdacht“ (10 %–20 %) und „hoher Verdacht“ (70 %–90 %).
C-TIRADS: Kategorien 1–3 (<2 %), 4A (2 %–10 %), 4B (10 %–50 %), 4C/5/6 (>50 %).

Die diagnostische Effizienz wurde anhand von ROC-Kurven (Receiver Operating Characteristic) bewertet, wobei die Fläche unter der Kurve (AUC) verglichen und die durch den Youden-Index abgeleiteten Cut-off-Werte verwendet wurden. Die Interobserver- und Interguideline-Übereinstimmungen wurden mittels gewichteter Kappa-Statistiken bewertet.

Hauptergebnisse

Interobserver-Übereinstimmung

C-TIRADS zeigte eine nahezu exzellente Interobserver-Übereinstimmung (Kappa = 0,824, 95 %-KI: 0,797–0,851), übertraf ACR-TIRADS (Kappa = 0,798, 95 %-KI: 0,767–0,829) und ATA (Kappa = 0,714, 95 %-KI: 0,675–0,753), die beide als „substanzielle Übereinstimmung“ kategorisiert wurden. Diskrepanzen traten hauptsächlich bei der Randbewertung auf, während andere Merkmale (Form, Zusammensetzung, Echogenität, Verkalkungen) eine hohe Übereinstimmung zeigten.

Interguideline-Konsistenz

C-TIRADS zeigte eine moderate Übereinstimmung mit ACR-TIRADS (Kappa = 0,627), aber nur eine faire Übereinstimmung mit ATA (Kappa = 0,494). Die engere Ausrichtung mit ACR-TIRADS spiegelt wahrscheinlich überlappende Malignitätsrisikostrata und Merkmalsdefinitionen wider.

Diagnostische Leistung

Die ROC-Analyse zeigte signifikante Unterschiede in den AUC-Werten: C-TIRADS (0,846, 95 %-KI: 0,824–0,866) übertraf ACR-TIRADS (0,782, 95 %-KI: 0,758–0,805) und ATA (0,737, 95 %-KI: 0,711–0,761). Die Cut-off-Werte, die Sensitivität und Spezifität maximierten, waren:

C-TIRADS: Kategorie 4C (Malignitätsrisiko >50 %).
ACR-TIRADS: Kategorie 5 (TR5).
ATA: „Hoher Verdacht.“

Sensitivität und Spezifität

C-TIRADS: Sensitivität = 84,08 % (565/672), Spezifität = 78,85 % (425/539), Genauigkeit = 81,75 % (990/1211).
ACR-TIRADS: Sensitivität = 89,43 % (601/672), Spezifität = 63,08 % (340/539), Genauigkeit = 77,70 % (941/1211).
ATA: Sensitivität = 96,73 % (650/672), Spezifität = 49,72 % (268/539), Genauigkeit = 75,81 % (918/1211).

C-TIRADS erreichte die höchste Spezifität und Genauigkeit und reduzierte unnötige Biopsien, während die hohe Sensitivität von ATA (96,73 %) durch eine niedrige Spezifität (49,72 %) ausgeglichen wurde, was die Anzahl der falsch positiven Ergebnisse erhöhte.

Klinische Implikationen

Die diagnostische Überlegenheit von C-TIRADS ist wahrscheinlich auf die vereinfachte Gewichtung der Merkmale und den Ausschluss mehrdeutiger Kriterien zurückzuführen. Im Gegensatz zu ACR-TIRADS, das variable Malignitätspunkte vergibt, verwendet C-TIRADS feste Gewichtungen und integriert benigne Merkmale (z. B. spongiforme oder zystische Komponenten) mit negativen Scores. Dies reduziert die subjektive Variabilität bei der Knotenbewertung. Im Gegensatz dazu führt die Abhängigkeit von ATA von einzelnen malignen Merkmalen ohne kombinierte Risikobewertung zu erhöhten Biopsieraten, wie in früheren Studien gezeigt wurde.

Einschränkungen

Das retrospektive Design führte zu einer Selektionsverzerrung, da nur Knoten, die für eine Biopsie oder Operation überwiesen wurden, eingeschlossen waren. Der Ausschluss von nicht pathologisch bestätigten Knoten könnte die Ergebnisse verzerren. Darüber hinaus begrenzt die Einbeziehung von nur zwei Radiologen die Generalisierbarkeit, obwohl ihr Konsensprozess die Variabilität minimierte.

Schlussfolgerung

C-TIRADS zeigt eine überlegene Interobserver-Konsistenz und diagnostische Genauigkeit im Vergleich zu ACR-TIRADS und den ATA-Leitlinien. Die höhere Spezifität reduziert unnötige Biopsien bei gleichzeitiger Aufrechterhaltung der diagnostischen Sensitivität, was den Zielen entspricht, Überdiagnosen und Überbehandlungen bei Schilddrüsenkrebs zu verringern. Diese Ergebnisse unterstreichen den Nutzen von C-TIRADS in chinesischen Populationen und betonen die Notwendigkeit von regionsspezifischen Leitlinien, die lokale klinische Praktiken und Krankheitsmuster berücksichtigen.

doi.org/10.1097/CM9.0000000000002061