Entwicklung des Scientific, Transparent and Applicable Rankings (STAR)-Tools zur Bewertung klinischer Praxisleitlinien

Entwicklung des Scientific, Transparent and Applicable Rankings (STAR)-Tools zur Bewertung klinischer Praxisleitlinien

Klinische Praxisleitlinien sind wesentliche Instrumente zur Orientierung von Ärzten in der klinischen Praxis. Hochwertige Leitlinien können die medizinische Versorgung standardisieren, die Qualität der Gesundheitsversorgung verbessern und die Kosten senken. In den letzten drei Jahrzehnten wurden in China über 1.000 Leitlinien veröffentlicht, wobei in den letzten Jahren jährlich mehr als 200 hinzukamen. Bestehende Bewertungswerkzeuge weisen jedoch mehrere Einschränkungen auf: Fehlen zentraler Elemente wie Anwendbarkeit, Transparenz der Entwicklungsprozesse und prospektive Registrierungen. Zudem wurde die Reliabilität und Validität vieler Tools unzureichend geprüft, und ihre begrenzte Ausrichtung erfordert oft den Einsatz mehrerer Instrumente für eine umfassende Bewertung, was zeitaufwendig und interpretationsintensiv ist.

Um diese Lücken zu adressieren, entwickelte eine multidisziplinäre Arbeitsgruppe das Scientific, Transparent and Applicable Rankings (STAR)-Tool. Es soll ein einheitliches, umfassendes und praxistaugliches Bewertungsinstrument für klinische Leitlinien sein, das von Gesundheitspersonal, Entscheidungsträgern und Methodologen genutzt werden kann.

Die Entwicklung des STAR-Tools umfasste mehrere Schritte: Bildung von Arbeitsgruppen, Scoping-Review, Delphi-Befragungen, hierarchische Analysen, Konsensmeetings sowie Tests zur Reliabilität, Validität und Benutzerfreundlichkeit. Die Arbeitsgruppen bestanden aus 39 Mitgliedern aus verschiedenen Bereichen, darunter Leitlinienmethodologen, Statistiker, Zeitschriftenredakteure und Kliniker. Die Testgruppe umfasste 90 klinische und 35 methodologische Evaluatoren mit umfassender Erfahrung in Leitlinienerstellung und -bewertung.

Ein Scoping-Review identifizierte sieben Bewertungstools und zwei methodologische Artikel. Daraus leitete die Sekretariatsgruppe eine initiale Liste von 42 Items zu Wissenschaftlichkeit, Transparenz und Anwendbarkeit ab, die 11 Domänen zugeordnet wurden. Zwei Delphi-Runden führten zur Aufnahme von 39 konsentierenden Items. Mithilfe hierarchischer Analysen wurden Gewichtungen für Domänen und Items bestimmt: Die höchsten Gewichte erhielten die Domänen „Klinische Fragestellungen“ und „Evidenz“, die niedrigste die Domäne „Sonstiges“.

Das STAR-Tool wurde anhand von zwei Leitlinienstichproben getestet: den 50 besten chinesischen Leitlinien von 2020 sowie allen 2021 in China veröffentlichten Leitlinien und Konsenserklärungen. Methodologische und klinische Evaluatoren bewerteten unabhängig jedes Item. Die gewichtete Summe der Items ergab den Gesamtscore pro Leitlinie.

Die interne Reliabilität (Cronbachs Alpha) lag zwischen 0,078 und 0,902 (Mittelwert: 0,588). Die Domäne „Registrierung“ zeigte die höchste, die Domänen „Entwicklungsgruppen“, „Interessenkonflikte“ und „Zugänglichkeit“ die geringste Konsistenz. Die Interrater-Reliabilität (Cohens Kappa) betrug 0,774 (methodologische Evaluatoren) und 0,618 (klinische Evaluatoren), was eine starke Übereinstimmung anzeigt.

Die Inhaltsvalidität (Content Validity Index, S-CVI) lag bei 0,905. Die Kriteriumsvalidität, gemessen durch Korrelation mit einem Composite-Score aus drei etablierten Checklisten, ergab einen Pearson-Korrelationskoeffizienten von 0,885. Benutzerfreundlichkeit wurde mit einem Mittelwert von 4,6 (Skala: 1–5) bewertet; Item 2 erzielte die höchste, Item 27 die niedrigste Bewertung. Die mediane Bewertungszeit pro Leitlinie betrug 20 Minuten.

Das STAR-Tool zeigte gute Reliabilität, Validität und Effizienz. Subjektiv festgelegte Gewichtungen können jedoch Gesamtscores und Rankings beeinflussen. Zukünftige Verbesserungen umfassen Benutzerhandbücher und Schulungen.

Zusammenfassend adressiert das STAR-Tool die Limitationen bestehender Bewertungsinstrumente durch ein umfassendes, reliables und effizientes Werkzeug. Seine Entwicklung und Validierung erfolgte rigoros, sodass es für Akteure im Gesundheitswesen breit einsetzbar ist.

doi.org/10.1097/CM9.0000000000002713