Wie Wissenschaft funktioniert

Medizin baute jahrtausendelang auf Erfahrungen auf (Erfahrungsmedizin oder empirische Medizin): Der Arzt führt eine Therapie durch und beobachtet, ob sie wirkt. Auch wenn diese Art des Erkenntnisgewinns recht plausibel erscheint und auch heute noch von den Ärzten hoch geschätzt wird (gerade naturheilkundlich orientierte Ärzte nennen sich oft auch „Erfahrungsmediziner“), so sind die Begrenzungen offensichtlich: Anekdotische Belege („seit ich die Medizin XY nehme, geht es mir 100 % besser“) sind zwar glaubwürdig und menschlich „greifbarer“ als kalte Statistiken, aber nur schwer zu verallgemeinern, da positive Effekte zum erheblichen Teil durch unspezifische Wirkungen zustande kommen.

Die Nachteile der Erfahrungsmedizin erklären, weshalb der Fortschritt in der Medizin bis zum Beginn des wissenschaftlichen Zeitalters so langsam verlief. Ärzte, die ihre Patienten zur Ader ließen, waren jahrhundertelang von der positiven Wirkung ihrer Methode überzeugt, obwohl sie in aller Regel ihre Patienten einen Schritt näher ans Grab brachten.

In der Medizin schlug deshalb dann die Stunde des wissenschaftlichen Experiments: Nicht die Erfahrung, sondern die systematische Messung körperlicher Veränderungen sollte bei der Einschätzung helfen, ob eine Medizin wirkt. Aber auch dieser Weg erwies sich als steinig, denn drei Faktoren galt es auszuschalten:

Den Zufall
Die unspezifische Wirkung (Placebo-Effekt)
Interessen, auch unbewusste, der an einem Experiment beteiligten Personen.

In der Anfangszeit der medizinischen Experimente krankten viele Studien daran, dass diese Einflüsse immer wieder die Forschungsergebnisse verfälschten. Heute kennt man immerhin einige wirksame Werkzeuge, um dies zu verhindern. Eines der wichtigsten davon ist die „randomisierte placebokontrollierte Doppelblindstudie“.

Wie den Zufall ausschalten?

Stellen wir uns das Dilemma eines Forschers einmal so vor: Vor ihm liegt ein großer Sack Murmeln mit gut gemischten weißen und schwarzen Murmeln. Er will herausfinden, wie viele weiße und wie viele schwarze Murmeln in dem Sack enthalten sind. Nun kann er natürlich den ganzen Sack leeren und einzeln nachzählen – eine Sisyphusarbeit. Oder er kann eine Probe entnehmen und schauen, wie die Farben verteilt sind – weitaus einfacher. Aber kann er denn sicher sein, dass die Murmeln in seiner Hand die Verteilung im Sack wiedergeben? Oder hat er sich vielleicht zufällig mehr weiße Murmeln als schwarze genommen? Die Antwort lautet: Der Zufall könnte ihn durchaus zu falschen Schlussfolgerungen verleiten. Aber was auf jeden Fall sicher ist: Je größer die Stichprobe, desto weniger wahrscheinlich ist es, dass ihm der Zufall einen Streich spielt.

Das Zufallsproblem wird heute durch Statistikmethoden eingegrenzt. Statistiker können nämlich genau berechnen, wie viele Murmeln man „ziehen“ muss, um eine einigermaßen sichere Aussage über den Inhalt des Sacks zu treffen. Wohlgemerkt: eine einigermaßen sichere Aussage. Sie können z. B. berechnen, wie viele Murmeln man entnehmen muss, um zu einer 95%-ig sicheren Aussage über die Verteilung der Murmeln im Sack zu kommen. Ein solches – 95%-ig sicheres – Ergebnis nennen sie signifikant (ein unglückliches Wort, da es nur allzu leicht mit „bedeutend“ verwechselt wird). Anders ausgedrückt: Bei einem signifikanten Ergebnis ist die Irrtumswahrscheinlichkeit kleiner als 5 % (Statistiker schreiben: p < 0,05).

Signifikant heißt nicht bedeutend

Jede medizinische Studie muss die Signifikanz-Hürde überwinden – es reicht nicht aus, dass ein Medikament im Schnitt besser wirkt als ein anderes (das könnte durch Zufall bedingt sein) – es muss signifikant besser sein.

Aber auch das heißt noch lange nicht, dass das Medikament zu empfehlen ist: Denn ein signifikantes Ergebnis sagt nur aus, dass der beobachtete Effekt höchstwahrscheinlich (nämlich mit 95%iger Sicherheit) nicht durch Zufall zustande gekommen ist. Es lässt aber keine Aussagen über weitere, mindestens genauso wichtige Fragen zu:

Wie stark ist die Wirkung? Ein signifikanter Unterschied zwischen der Wirkung von Medikament x und Medikament y sagt nichts über die Größe des Unterschieds aus (also über die Wirkstärke): Wirkt das „signifikant bessere“ Medikament nur ein bisschen besser oder aber viel besser? Diese Frage ist aber für die Bewertung einer Therapie entscheidend. Werden etwa zwei Mittel gegen Bluthochdruck verglichen, und das signifikant bessere Mittel senkt den Blutdruck lediglich um 1 mmHg mehr, so kann es vom Hersteller zwar als das „signifikant bessere“ Mittel beworben werden, keinen Arzt dürfte dies aber überzeugen: Denn das Ergebnis ist zwar signifikant, aber unbedeutend.

Wie relevant ist das Ergebnis? Ein signifikant besseres Ergebnis sagt noch nichts über die Relevanz der angeblich besseren Therapie aus: Ein Medikament etwa, das die Knochendichte nachgewiesenermaßen erhöht, den Knochen also fester und stabiler macht, muss noch lange nicht zur Verhinderung von Knochenbrüchen taugen – diese bittere Erfahrung machten Ärzte etwa bei den früher gegen die Osteoporose eingesetzten Fluoriden.

Ergeben sich in der Praxis tatsächlich Vorteile? Leicht wird auch übersehen, dass ein signifikant besser wirkendes Medikament womöglich weitaus nebenwirkungsreicher sein kann als ein althergebrachtes Medikament, so dass es unter dem Strich für den Patienten die schlechtere Wahl ist.

Bei der Beantwortung dieser Fragen muss immer auch dies berücksichtigt werden: Wie die wissenschaftliche Erkenntnis in den Alltag umgesetzt wird, darauf nehmen sehr viele Interessen Einfluss. Welche Erkenntnis „ankommt“ (und dadurch vielleicht zu Geld wird) und welche „liegen bleibt“, darüber entscheidet derjenige, der die „Lufthoheit“ bei der Interpretation der Forschungsergebnisse hat. Wie entscheidend wichtig die Deutungshoheit über wissenschaftliche Erkenntnisse ist, zeigt etwa die Diskussion um die globale Erderwärmung. Gerade in den USA wurde hier lange Zeit auf die Interpretation der wissenschaftlichen Daten politisch massiv Druck ausgeübt – von der Besetzung der wissenschaftlichen Gremien bis hin zur Vergabe öffentlicher Forschungsmittel. Wie Wissenschaft gedeutet bzw. verwertet wird, hat also auch etwas mit Macht zu tun – und mit der Rolle, die eine Gesellschaft der Wissenschaft überhaupt im Erkenntnisprozess zugesteht.

Wie Fremdeinflüsse ausschalten?

Das folgende Beispiel ist unter Statistikern berühmt: In einer Studie wurde die Anzahl der deutschen Störche im Lauf von 20 Jahren erfasst. Gleichzeitig wurde die Geburtenrate der deutschen Bevölkerung analysiert. Und siehe da: Mit der Anzahl der Störche ging auch die Geburtenrate zurück! Der Zusammenhang war hochsignifikant. Bringt also doch der Storch die Kinder?

Für die Forscher ist die Storchenfrage gar nicht witzig: Denn egal, welcher Zusammenhang erforscht wird, überall treten Fremdeinflüsse(konfundierende Einflüsse)auf, die mit den Beobachtungen nichts Ursächliches zu tun haben. Aber nur ursächliche Zusammenhänge sind es wert, dass sie weiter verfolgt werden oder gar die ärztlichen Empfehlungen beeinflussen.

Um einen ursächlichen Zusammenhang nachzuweisen, erfassen Forscher Verschiedenes: zum einen möglichst viele Faktoren, die das Ergebnis möglicherweise beeinflussen können. Im Falle der Störche etwa reichte es schon aus, dass die Forscher eine weitere Einflussgröße in den Computer eingaben: die Entwicklung des Bruttosozialprodukts. Wurde dieser Einfluss berücksichtigt, war der schöne Zusammenhang zwischen Kinderzahl und der Anzahl der Störche pro Quadratmeter auf einmal dahin: Offensichtlich war es der steigende materielle Wohlstand, der die Menschen auf Kinder verzichten ließ, und der gleichzeitig die (Ruhe und Frösche liebenden) Störche in die noch bäuerlich und arm gebliebenen Nachbarstaaten verdrängte.

So einfach wie beim Storchenproblem kommen Forscher allerdings nur selten zum Ziel. In vielen Studien müssen sie 5, 10 oder gar 20 Einflussgrößen berücksichtigen, um einen verlässlichen Zusammenhang zu erhalten!

So viele Daten sind aber nur selten mit angemessenem Aufwand erhebbar – und deshalb müssen Forscher immer Kompromisse eingehen. Sie veröffentlichen ihre Studien, auch wenn sie längst nicht alle Einflüsse berücksichtigen können. Meist werden die Begrenzungen im Kleingedruckten dann erwähnt und diskutiert. Aber die Medien, die Woche für Woche die Fachzeitschriften auf der Suche nach aufregenden Schlagzeilen durchforsten, interessieren solche Feinheiten wenig. Da heißt es in einer Woche pauschal: Kaffee ist gut für ein langes Leben. Und in der nächsten Woche heißt es dann: Kaffee macht alt, schlaff und krank.

Das Idealdesign: kontrolliert und doppelblind

Beim wissenschaftlichen Experiment, also etwa bei Arzneimittelprüfungen, gilt es, den Placebo-Effekt, also die unspezifische Wirkung auszuschalten. Denn eine medizinische Therapie, davon geht zumindest die Schulmedizin aus, soll unabhängig von den Erwartungen des Patienten, d.h. spezifisch wirken. Sie soll mehr bringen als ein Placebo.

Was liegt also näher, als die Wirkung des zu testenden „echten“ Medikaments (des Verums) mit der eines Placebos zu vergleichen? Genau dies wird in der modernen Arzneimittelforschung getan. Ihre Studien sind „placebokontrolliert“. Ein Teil der Teilnehmer bekommt das Verum, ein anderer das Placebo (Letzterer wird als Kontrollgruppebezeichnet). Dies ist allerdings nur dann sinnvoll, wenn der Patient nicht weiß, ob er das Placebo einnimmt oder das Verum, er muss bezüglich des Medikaments „blind“ sein.

Doch auch das schließt den Placeboeffekt nicht ganz aus: Denn auch die Ärzte, die eine Arzneimittelstudie beaufsichtigen, könnten durch ihre eigenen Erwartungen eine bessere Bewertung abgeben oder – bewusst oder unbewusst – die Bewertungen der Studienteilnehmer beeinflussen. Auch sie dürfen deshalb nicht wissen, welches Präparat das Placebo und welches das Medikament ist. Eine solche Studie wird als doppelblind bezeichnet. Und noch etwas ist wichtig: Welcher Versuchsteilnehmer ein Verum, und welcher ein Placebo einnimmt, das entscheidet der Zufall – nur durch eine solche Randomisierung (random = Zufall) lässt sich vermeiden, dass sich die Verumgruppe von der Kontrollgruppe in wichtigen Eigenschaften wie etwa Alter oder Geschlecht unterscheidet.

Fasst man alle Kriterien zusammen, die für eine aussagekräftige Arzneimittelstudie verlangt werden, so wird der lange Name verständlich: randomisierte, placebokontrollierte Doppelblindstudie.

Weiterlesen:

Autor*innen

Dr. med. Herbert Renz-Polster | zuletzt geändert am 02.05.2019 um 12:38 Uhr