Correlatie impliceert geen oorzakelijk verband
B veroorzaakt A (omgekeerde oorzakelijk verband of omgekeerde causaliteit)
Reverse oorzakelijk verband of omgekeerde causaliteit of verkeerde richting is een informele drogreden van twijfelachtige oorzaak waarbij oorzaak en gevolg worden omgekeerd. Men zegt dat de oorzaak het gevolg is en omgekeerd.
Voorbeeld 1 Hoe sneller men waarneemt dat windmolens draaien, hoe meer wind men waarneemt. Wind wordt dus veroorzaakt door de draaiing van windmolens. (Of, eenvoudig gezegd: windmolens zijn, zoals hun naam aangeeft, machines die worden gebruikt om wind te produceren).
In dit voorbeeld impliceert de correlatie (gelijktijdigheid) tussen windmolenactiviteit en windsnelheid niet dat wind door windmolens wordt veroorzaakt. Het is eerder omgekeerd, zoals blijkt uit het feit dat wind geen windmolens nodig heeft om te bestaan, terwijl windmolens wind nodig hebben om te draaien. Wind kan worden waargenomen op plaatsen waar geen windmolens zijn of waar windmolens niet draaien – en er zijn goede redenen om aan te nemen dat wind al bestond vóór de uitvinding van windmolens.
Voorbeeld 2
In andere gevallen kan het gewoon onduidelijk zijn wat de oorzaak en wat het gevolg is. Bijvoorbeeld:
Kinderen die veel TV kijken zijn het meest gewelddadig. Het is duidelijk dat TV kinderen gewelddadiger maakt.
Het zou ook andersom kunnen zijn: gewelddadige kinderen kijken graag meer TV dan minder gewelddadige.
Voorbeeld 3
Een verband tussen recreatief drugsgebruik en psychiatrische stoornissen kan beide kanten opgaan: misschien veroorzaken de drugs de stoornissen, of misschien gebruiken mensen drugs als zelfmedicatie voor reeds bestaande aandoeningen. De “Gateway Drug Theory” kan beweren dat marihuanagebruik leidt tot het gebruik van hardere drugs, maar het gebruik van harddrugs kan leiden tot marihuanagebruik (zie ook de verwarring van het omgekeerde). In de sociale wetenschappen, waar gecontroleerde experimenten vaak niet kunnen worden gebruikt om de richting van het oorzakelijk verband te bepalen, kan deze denkfout reeds lang bestaande wetenschappelijke argumenten voeden. Een voorbeeld hiervan is te vinden in de onderwijseconomie, tussen het screening/signalering model en het menselijk kapitaal model: het zou ofwel kunnen zijn dat aangeboren bekwaamheid iemand in staat stelt een opleiding te voltooien, ofwel dat het voltooien van een opleiding iemands bekwaamheid opbouwt.
Voorbeeld 4
Een historisch voorbeeld hiervan is dat Europeanen in de Middeleeuwen geloofden dat luizen goed waren voor de gezondheid, omdat er zelden luizen op zieke mensen zouden zitten. De redenering was dat de mensen ziek werden omdat de luizen weggingen. De echte reden is echter dat luizen extreem gevoelig zijn voor lichaamstemperatuur. Een kleine stijging van de lichaamstemperatuur, zoals bij koorts, doet de luizen op zoek gaan naar een andere gastheer. De medische thermometer was nog niet uitgevonden, dus deze verhoging van de temperatuur werd zelden opgemerkt. Merkbare symptomen kwamen later, waardoor de indruk ontstond dat de luizen waren vertrokken voordat de persoon ziek werd.
In andere gevallen kunnen twee verschijnselen elk een gedeeltelijke oorzaak van het andere zijn; denk aan armoede en gebrek aan onderwijs, of aan uitstelgedrag en een slecht gevoel van eigenwaarde. Wie een betoog houdt op basis van deze twee verschijnselen, moet echter oppassen dat hij de drogreden van de cirkel van oorzaak en gevolg vermijdt. Armoede is een oorzaak van gebrek aan onderwijs, maar het is niet de enige oorzaak, en omgekeerd.
Derde factor C (de gemeenschappelijke-causale variabele) veroorzaakt zowel A als BEdit
De derde-oorzaak drogreden (ook bekend als negeren van een gemeenschappelijke oorzaak of twijfelachtige oorzaak) is een logische drogreden waarbij een onecht verband wordt verward met oorzakelijkheid. Het beweert dat X Y veroorzaakt, terwijl in werkelijkheid X en Y beide veroorzaakt worden door Z. Het is een variatie op de post hoc ergo propter hoc drogreden en een lid van de twijfelachtige oorzaak groep van drogredenen.
Al deze voorbeelden hebben te maken met een loerende variabele, die gewoon een verborgen derde variabele is die beide oorzaken van de correlatie beïnvloedt. Een moeilijkheid doet zich ook vaak voor wanneer de derde factor, hoewel fundamenteel verschillend van A en B, zo nauw verwant is aan A en/of B dat hij ermee verward wordt of er wetenschappelijk zeer moeilijk van te ontwarren is (zie voorbeeld 4).
Voorbeeld 1 Slapen met de schoenen aan is sterk gecorreleerd met wakker worden met hoofdpijn. Daarom veroorzaakt slapen met de schoenen aan hoofdpijn.
Het bovenstaande voorbeeld is een correlatie-implies-causatie drogreden, omdat het voorbarig concludeert dat slapen met schoenen aan hoofdpijn veroorzaakt. Een meer plausibele verklaring is dat beide veroorzaakt worden door een derde factor, in dit geval dronken naar bed gaan, die daardoor een correlatie veroorzaakt. De conclusie is dus onjuist.
Voorbeeld 2 Jonge kinderen die slapen met het licht aan hebben veel meer kans om op latere leeftijd bijziendheid te ontwikkelen. Slapen met het licht aan veroorzaakt dus bijziendheid.
Dit is een wetenschappelijk voorbeeld dat het resultaat is van een studie aan het University of Pennsylvania Medical Center. De studie werd gepubliceerd in Nature van 13 mei 1999 en kreeg destijds veel aandacht in de populaire pers. Een latere studie aan de Ohio State University toonde echter niet aan dat kinderen die slapen met het licht aan, bijziendheid ontwikkelen. Er werd wel een sterk verband gevonden tussen bijziendheid van de ouders en de ontwikkeling van bijziendheid bij kinderen, waarbij ook werd opgemerkt dat bijziende ouders vaker het licht in de slaapkamer van hun kinderen aan lieten. In dit geval is de oorzaak van beide aandoeningen bijziendheid van de ouders, en is de bovenstaande conclusie onjuist.
Voorbeeld 3 Als de ijsverkoop stijgt, neemt het aantal verdrinkingsdoden sterk toe. Daarom veroorzaakt consumptie van ijs verdrinking.
Dit voorbeeld gaat voorbij aan het belang van de tijd van het jaar en de temperatuur voor de ijsverkoop. Tijdens de warme zomermaanden wordt veel meer ijs verkocht dan tijdens koudere perioden, en het is tijdens deze warme zomermaanden dat mensen meer geneigd zijn om activiteiten met water te ondernemen, zoals zwemmen. De toename van het aantal verdrinkingsdoden wordt eenvoudigweg veroorzaakt door meer blootstelling aan activiteiten in het water, niet door ijs. De gestelde conclusie is onjuist.
Voorbeeld 4 Een hypothetisch onderzoek toont een verband aan tussen testangstscores en verlegenheidsscores, met een statistische r-waarde (sterkte van correlatie) van +.59. Daarom kan eenvoudig worden geconcludeerd dat verlegenheid, voor een deel, een causale invloed heeft op testangst.
Echter, zoals men in veel psychologische studies tegenkomt, wordt een andere variabele ontdekt, een “zelfbewustheidsscore”, die een sterkere correlatie (+.73) heeft met verlegenheid. Dit suggereert een mogelijk “derde variabele”-probleem, maar wanneer drie zo nauw verwante maten worden gevonden, suggereert dit verder dat elk van hen bidirectionele tendensen kan hebben (zie “bidirectionele variabele”, hierboven), zijnde een cluster van gecorreleerde waarden die elk in zekere mate elkaar beïnvloeden. Daarom kan de eenvoudige conclusie hierboven onjuist zijn.
Voorbeeld 5 Sinds de jaren 1950 zijn zowel het CO2-niveau in de atmosfeer als het obesitasniveau sterk toegenomen. Daarom veroorzaakt atmosferische CO2 zwaarlijvigheid.
Rijkere bevolkingsgroepen hebben de neiging meer te eten en meer CO2 te produceren.
Voorbeeld 6 HDL (“goed”) cholesterol is negatief gecorreleerd met de incidentie van hartaanvallen. Daarom vermindert het nemen van medicijnen om HDL te verhogen de kans op het krijgen van een hartaanval.
Verder onderzoek heeft deze conclusie in twijfel getrokken. In plaats daarvan kan het zijn dat andere onderliggende factoren, zoals genen, dieet en lichaamsbeweging, zowel het HDL-niveau als de kans op het krijgen van een hartaanval beïnvloeden; het is mogelijk dat medicijnen de direct meetbare factor, het HDL-niveau, beïnvloeden zonder de kans op een hartaanval te beïnvloeden.
Bidirectionele causatie: A veroorzaakt B, en B veroorzaakt AEdit
Causaliteit is niet noodzakelijkerwijs eenrichtingsverkeer; in een roofdier-prooi relatie heeft het aantal roofdieren invloed op het aantal prooien, maar het aantal prooien, d.w.z. het voedselaanbod, heeft ook invloed op het aantal roofdieren. Een ander bekend voorbeeld is dat fietsers een lagere Body Mass Index hebben dan mensen die niet fietsen. Dit wordt vaak verklaard door aan te nemen dat fietsen het niveau van lichamelijke activiteit verhoogt en daardoor de BMI verlaagt. Omdat resultaten van prospectieve studies naar mensen die meer gaan fietsen een kleiner effect op de BMI laten zien dan cross-sectionele studies, kan er ook sprake zijn van enige omgekeerde causaliteit (d.w.z. mensen met een lagere BMI gaan vaker fietsen).
De relatie tussen A en B is toevalligEdit
De twee variabelen zijn helemaal niet gerelateerd, maar correleren door toeval. Hoe meer dingen worden onderzocht, hoe waarschijnlijker het is dat twee ongerelateerde variabelen verwant lijken te zijn. Bijvoorbeeld:
- De uitslag van de laatste thuiswedstrijd van de Washington Redskins voorafgaand aan de presidentsverkiezingen voorspelde de uitslag van elke presidentsverkiezing van 1936 tot en met 2000, ondanks het feit dat de uitkomsten van voetbalwedstrijden niets te maken hadden met de uitslag van de volksverkiezingen. Deze streak werd uiteindelijk doorbroken in 2004 (of 2012 als een alternatieve formulering van de oorspronkelijke regel wordt gebruikt).
- De wet van Mierscheid, die het aandeel van de Sociaal-Democratische Partij van Duitsland in de volksstemming correleert met de omvang van de productie van ruw staal in West-Duitsland.
- Afwijkende kaalharige Russische leiders: Een kale (of duidelijk kalende) staatsleider van Rusland volgt al bijna 200 jaar een niet-kale (“harige”) op, en omgekeerd.
- De Bijbelcode, Hebreeuwse woorden die historische gebeurtenissen voorspellen die in de Thora verborgen zouden zijn: het enorme aantal lettercombinaties maakt verschijningen van elk woord in een voldoende lange tekst statistisch onbelangrijk.