Epidemiologische Beobachtungsstudien und Ernährungsempfehlungen

Wissenschaft verstehen Teil 2 – Warum es so wichtig zu verstehen, dass Korrelation keine Kausalität impliziert…

Evidence-based medicine is not a search for truth… it’s a search für consensus.

Jason Fung (Kanadische Nephrologe)

Wie kommen Zeitungen eigentlich zu solchen reisserischen Überschriften wie: „Fleisch erhöht Ihr Krebsrisiko um 30%!“ Abgesehen davon, dass meist mit einem relativen Risiko argumentiert wird, und man sich dringend auch die absolute Risikoreduktion ansehen sollte, liegen diesen Artikeln häufig Kohortenstudien zugrunde, eine Art von Beobachtungsstudien. Und die schauen wir uns jetzt ein bisschen genauer an. 

Was sind Kohortenstudien?

Kohortenstudien sind ein häufig angewandtes Studiendesign mit dem versucht wird, einen Zusammenhang zwischen einer Exposition und der Manifestation von Krankheiten zu ermitteln. Hierfür wird eine Gruppe exponierter und nicht exponierter Personen über eine definierte Zeit hinsichtlich des Auftretens bestimmter Ereignisse, in der Regel Krankheiten oder Sterblichkeit, gegeneinander abgeglichen. Dies kann im Rahmen einer prospektiven (die zu testende Hypothese wird vor Durchführung der Studie definiert und die Kohorte in die Zukunft begleitet) oder retrospektiven (die zu testende Hypothese wird mittels Daten aus der Vergangenheit untersucht) Auswertung erfolgen. Einfach formuliert: wenn in einer Kohorte alle Menschen, die über 10 Jahre mit dem Fahrrad zu Arbeit fahren, weniger Herzinfarkte haben als diejenigen, die mit dem Auto fahren oder zuhause arbeiten, dann gibt es eine gegenläufige Korrelation zwischen „mit dem Rad pendeln“ und „Herzinfarkt erleiden“.

© https://www.lanuv.nrw.de/umwelt/umweltmedizin/umwelt-und-epidemiologie/grundlagen/statistisch-epidemiologische-methoden/kohortenstudie

Leider kann man anhand dieser Studien immer nur Korrelationen und nie Kausalitäten ermitteln – man weiß also anhand der Korrelation alleine nicht, ob das Fahrradfahren tatsächlich die Herzinfarktrate senkt, obwohl das so naheliegend erscheint. 

Korrelation impliziert keine Kausalität

Das Mantra „correlation doesn’t imply causation“ haben die meisten von euch bestimmt schon einmal gehört. Das vergessen nur leider sowohl die eifrigen Journalisten mit den reisserischen Überschriften, als auch wir wenn wir deren Beiträge lesen und vor allem leider regelmäßig die Autoren der Studien selbst, die zwar meist unterstreichen, dass Korrelation keine Kausalität impliziere, nur um kurz darauf unfundierte Thesen aus ihren Ergebnissen abzuleiten. 

© https://towardsdatascience.com/correlation-is-not-causation-ae05d03c1f53

Aber langsam, wir schalten einen Gang zurück. Das alles lässt sich leichter verstehen, wenn man überlegt welch absurden Korrelationen es gibt. Wer würde einen Zusammenhang vermuten zwischen dem Käsekonsum und der Wahrscheinlichkeit, sich derart unglücklich in seinem Bettzeug zu verheddern, dass man sich selbst stranguliert? Niemand würde hier einen Zusammenhang vermuten, obwohl man die nachfolgende schicke Graphik erstellen kann. 

© https://www.tylervigen.com/spurious-correlations

Anders ist das bei Korrelationen, die uns direkt plausibel erscheinen, beispielsweise bei dem obigen Beispiel mit dem Radfahren und der Herzinfarktrate – da können wir oft gar nicht anders als einfach überzeugt zu sein, dass das die Wahrheit ist. Punkt.

Als Küchenpsychologe – diese Qualifikation habe ich nach einem Semester Psychologiestudium in jedem Fall verdient – glaube ich, dass wir im Laufe der Evolution darauf getrimmt wurden, Ursache-Wirkungs-Beziehungen zu erkennen. Und das aus gutem Grund, denn indem wir ein Phänomen beobachten und eine für uns plausible Ursache erkennen, lernen wir uns in der Welt zurecht zu finden und Sinn in unser Handeln zu bringen. 

Das Problem ist, dass wir diesem Drang bei starker Korrelation auch Kausalität zu vermuten widerstehen müssen, wenn wir sinnvolle Forschung betreiben wollen, wir wissen nämlich alleine aufgrund der Korrelation nicht, ob die Radstrecke zur Arbeit das Herzinfarktrisiko senkt. In Fällen in denen die Korrelation zwischen zwei Faktoren sehr stark ist, kann man einen direkten Zusammenhang vermuten, und dann als Aufhänger nutzen, um Hypothesen zu bilden, die dann mit anderen Studiendesigns getestet werden, etwa wie dies bei der Inzidenz von Lungenkrebs unter RaucherInnen der Fall war. Meistens ist das aber nicht zieldienlich bzw. die Korrelation zu schwach, dass manchmal eine Kausalität postuliert wird, die so nicht vorhanden ist. 

© https://en.wikipedia.org/wiki/Lung_cancer
Wie Biases uns den Spaß verderben…

Neben dem über allem stehenden Gesetzt, dass Korrelation keine Kausalität impliziert, gibt es verschiedene Faktoren die zu Verzerrungsfehlern, auch Bias genannt, bei der Auswertung solcher Datensätze führen können. Sie machen deutlich, warum Korrelation keine Kausa… ja, ok, ihr habt es verstanden und ich schreibe den Satz nicht zu Ende. Hier einige wichtige Beispiele:

Confounding

Beim Confounding Bias wird eine zusätzliche Variable, die mit der untersuchten Exposition in möglichem Zusammenhang steht, nicht beachtet. In unserem obigen Beispiel wäre die Frage, ob das Pendeln mit dem Fahrrad immer das Risiko für Herzinfarkte senkt oder ob es Confounder gibt wie ein niedrigerer BMI oder die Tatsache, dass mehr Frauen als Männer radeln und diese sowieso weniger Herzinfarkte haben und so für die niedrigere Rate an Herzinfarkten verantwortlich sind. In Untersuchungen wird versucht, die Daten systematisch um diese Störfaktoren zu bereinigen, aber dass das eine Zahlen-Jongliererei ist, die letztlich immer zu einem Gewissen Grad unzureichend bleiben muss, liegt auf der Hand.

© https://commons.wikimedia.org/wiki/File:Assessing_the_role_of_a_confounder.png
Informationsbias 

Ein Informationsbias kann bei unpräziser oder fehlerhafter Datenerhebung entstehen. Stellt euch vor, in unserer Beispielstudie würde gefragt: „Fahren Sie manchmal mit dem Fahrrad zur Arbeit?“ Das könnten zwei Menschen bejahen, obwohl der eine täglich 30 Kilometer mit dem Drahtesel herunter schrubbt und der andere letzten Sommer auch mal die drei Kilometer zu Arbeit geradelt ist. Beide würden aber in der Auswertung gleich gewichtet, weil sie die Variable erfüllen. Besonders ins Gewicht fällt der Informationsbias übrigens bei Beobachtungsstudien zur Ernährung. Dort werden Fragebögen verwendet, die im Grundsatz nur unzureichend reale Essgewohnheiten abbilden können und zweitens die meisten ProbandInnen überfordern dürften – oder wisst ihr noch genau was ihr die letzten Tage zu jeder Mahlzeit und Zwischensnacks schnabuliert habt? Dafür können natürlich die armen Fragebögen Nichts, ihr erkennt nur vermutlich einen weiteren Grund, warum man die meisten Beobachtungsstudien zum Thema Ernährung in die Tonne treten kann… 😉 

Selektionsbias 

Unter Selektionsbias versteht man, wenn die Studienpopulation die Zielpopulation, für die eine Aussage getroffen werden soll, nicht adäquat abbildet. Angenommen die Daten für unsere fiktive Fahrrad-Herzinfarkt-Studie würden erhoben, indem ein engagierter Doktorand Fragebögen an seiner Uni verteilt. Es würden so praktisch nur Mitarbeitende der Universität und Studierende in die Erhebung einbezogen. Und die sind wohl kaum repräsentativ für die Gesamtbevölkerung, für die am ehesten eine Aussage getroffen werden soll. 

Healthy-User-Effekt

Gesundheitsbewusste Menschen lesen Bücher über Meditation, rauchen nicht, sind im Fitnessstudio angemeldet und gehen da vielleicht auch noch regelmäßig hin. Kurzum: sie unterscheiden sich von solchen, die (aus welchen nachvollziehbaren Gründen auch immer) weniger Acht auf ihre Gesundheit geben. Unsere fleißigen Rad-PendlerInnen fahren also vermutlich nicht nur mit dem Rad zur Arbeit, sondern tun noch zahlreiche anderen Dinge, die ihrer Gesundheit zuträglich sind. Und obwohl ForscherInnen versuchen auch für diese Faktoren zu adjustieren, bleibt es praktisch unmöglich sie alle zu „neutralisieren“.

Umgekehrte Kausalität

Angenommen die Variable „Nicht mit dem Rad zu Arbeit fahren“ korreliert mit „Mehr Herzinfarkte“.  Was ist jetzt Ursache und was ist Konsequenz? Bekommen die AutofahrerInnen mehr Herzinfarkte oder trauen sich die PatientInnen nach einem Herzinfarkt nicht mehr aufs Rad? Die angenommene Ursache und der Effekt können jedenfalls umgedreht sein. Was wofür verantwortlich ist, lässt sich aus einer Korrelation alleine nicht ablesen. 

Und jetzt? Wozu machen wir das dann…

Vielleicht denkt ihr euch zurecht: Wenn diese Kohortenstudien für viele Fragestellungen ungeeignet sind beziehungsweise unvernünftig interpretiert werden, wofür werden sie dann überhaupt durchgeführt?

Eine kurze Antwort: weil ein ideales Setting, um eine Fragestellung zu beantworten häufig nicht möglich ist. In der Epidemiologie, dem Fachgebiet, das sich mit der Entstehung, der Verteilung und der Kontrolle von Epidemien und Erkrankungen beschäftigt, bieten sich diese Studiendesigns an, um große Bevölkerungsgruppen zu untersuchen und liefern teilweise auch wichtige Erkenntnisse.

RCTs als Goldstandard

Randomisierte, kontrollierte Studien (RCTs) gelten als Goldstandard der medizinischen Forschung. Hier wird eine bestimmte Intervention, etwa ein Medikament, randomisiert, also zufällig auf ProbandInnen verteilt und deren Auswirkungen auf die Referenzgruppe abgeglichen, welche ein Placebo, eine andere oder keine Intervention erhält. Wenn dann bei einem blutverdünnenden Medikament nach 10 Jahren in der Interventionsgruppe weniger Schlaganfälle aufgetreten sind, dann weiß man: „Aha, das Medikament hilft wohl dabei, das Risiko für Schlaganfälle zu senken.”

© Kendall JM Designing a research project: randomised controlled trials and their principles
Emergency Medicine Journal 2003;20:164-168.

Aber abgesehen davon, dass dieses Studiendesign ebenfalls methodisch nicht „perfekt“ und außerdem teuer und langwierig ist, kann es ganz praktisch für viele Fragestellungen, vor allem für epidemiologische Untersuchungen an einer großen Zahl an ProbandInnen, nicht umgesetzt werden. Wollten wir die Gefahr des Rauchens hinsichtlich der Gefahr an Lungenkrebs zu erkranken untersuchen, so hätten wir wohl gewisse Schwierigkeiten, NichtraucherInnen zu finden, die sich bereit erklärten für die nächsten 10 Jahre täglich ein Päckchen Zigaretten zu inhalieren…

Weil das also nicht möglich ist, greifen wir auf andere Studiendesigns zurück, um der Wahrheit zu einer bestimmten Frage so nah wie möglich zu kommen. Eine Möglichkeit dafür sind die hier beleuchteten epidemiologischen Beobachtungsstudien beziehungsweise Kohortenstudien.

Metaanalyse = immer valide Forschungsergebnisse? Nope.

Wenn epidemiologische Beobachtungsstudien übrigens in Metaanalysen zusammen gefasst werden, dann ändert sich wenig an der vermeintlichen Aussagekraft, die von vielen angenommen oder gewünscht wird – eine einzelne dieser Studien ist für die Frage nach einer gesunden Ernährung genauso wenig hilfreich wie ein ganzer Haufen davon.

Randnotiz: wie wissen wir dann, was die beste Ernährung ist? 

Wenn die Beobachtungsstudien so wenig taugen, wie finden wir dann heraus, was eine gute Ernährung ausmacht? In dem Wissen, das ich dieser Frage in einem Absatz nicht gerecht werden kann und beizeiten einen eigenen Artikel dazu schreiben möchte, gibt es schon einmal eine kurze, unzureichende Antwort.

Erstens, muss Ernährung meiner Meinung nach immer individuell abgestimmt sein, auf Alter, Geschlecht, Genotyp, Vorerkrankungen, Umsetzbarkeit in der jeweiligen Lebenssituation und vor allem die Frage woraufhin optimiert werden soll – jemand der möglichst lange leben möchte sollte sich anders ernähren als jemand, der dicke Muckis aufbauen möchte. Die Frage nach der einen idealen Ernährungsform ist dumm. Wer pauschal im Sinne einer Paläo-, Keto-, Low-Carb-, High-Carb-, veganen oder sonst einer ideologischen Ernährungsform argumentiert – und das sind die meisten, die ihren Mund dazu aufmachen – hat genau gar nichts verstanden.

© https://www.kymirasport.com/blogs/news/diet-confusion

Zweitens, gibt es neben der Frage nach einer diätischen Restriktion weitere Säulen einer gesunden Ernährung, die im Mainstream und der Medizin noch zu wenig Beachtung finden. Zeitliche Restriktion, Kalorienrestriktion, Schadstoffbelastung und die Frage nach Esskultur und Essen in Gemeinschaft sind unter dem Aspekt Gesundheit essenziell.

Drittens, und jetzt gibt es endlich den Hauch einer Antwort auf die einleitende Frage, können wir Erkenntnisse dafür was eine gute Ernährung ist anderswo fundierter generieren. Zwar könnte man trotz deren grundsätzlichen Einschränkungen RCTs durchführen. Da eine jeweils untersuchte Ernährungsform jedoch meistens mit der Durchschnitts-Standard-Diät mitsamt Döner und Coke, kontrolliert wird, kann man für praktisch jede Ernährungsideologie einen Mehrwert nachweisen und steht am Ende oft nicht viel klüger als vorher da. Noch sinnvoller fände ich es, insbesondere vor dem Hintergrund einer individualisierten Ernährungsempfehlung, vermehrt einen Blick auf biochemische Grundlagen und Tiermodelle zu werfen, vielleicht auch evolutionsbiologische Überlegungen oder Aspekte einer Ernährung in den Blue Zones miteinzubeziehen.

Quintessenz

Wenn ihr das nächste Mal auf eine vielversprechende Ernährungsempfehlung stoßt, die behauptet, dass irgendeine Gruppe von Nahrungsmitteln oder pauschal eine Ernährungsform besonders gut oder schlecht für die Gesundheit sei, dann seht euch die Studie direkt an. Selbst wenn ihr den Volltext nicht zur Verfügung habt, kann man im Abstract (der ist i.d.R. auf Pubmed einsehbar) herausfinden mit welchem Design die Studie durchgeführt hat. Und wenn es sich um eineepidemiologische Beobachtungsstudie (“Observational study”) bzw. Kohortenstudien (“Cohort study”) handelt, dann wisst ihr, dass Korrelationen Korrelationen bleiben und die Überschrift, über die ihr auf die Studie aufmerksam wurdet, vermutlich so nicht haltbar ist.