Mietteitä korrelaatiosta ja kausaliteetista

Julkaistu 19.08.2015    Kirjoittanut Jarno Kankaanranta  Tilaa RSS


Monet eri alojen, kuten terveystieteen, sosiaalitieteen, taloustieteen tai käyttäytymistieteen tutkimukset keskittyvät kausaalisuuteen eivätkä niinkään assosiaatioon. Kausaalisuus tarkoittaa syyn ja seurauksen tutkimista. Vastaavasti assosiaatiota tutkittaessa keskitytään tilastotieteen keinoin esimerkiksi korrelaation tutkimiseen.

Korrelaatiohan ei aiheuta kausaalisuutta. Vaikka tilastollisesti merkittävä korrelaatio löytyisikin, vaatii kausaalisuuden tutkiminen tämän lisäksi muuta. Kausaalisuuden ongelmaa ovat monet eri alojen tutkijat pohtineet läpi historian. Filosofit kuten Aristoteles, David Hume, John Stuart Mill ja Patrick Suppes ovat esittäneet aikanaan omia näkemyksiään. Vastaavasti monet tilastotieteilijät kuten R. A. Fisher ovat pohtineet asiaa./1/

Tämän artikkeli pohtii korrelaatiota ja kausaalisuutta. Kausaalisuutta ei tässä käsitellä matemaattisesti, vaan se rajataan tämän artikkelin ulkopuolella. Tämän artikkelin on tarkoitus olla ensimmäinen sarjassa, joka pohtii kausaalisuuden ja korrelaation välistä suhdetta sekä jatkossa laajentaa pohdinnan Six Sigmasta tuttuun juurisyyn pohdintaan.

Korrelaatio

Pearsonin korrelaatio, viralliselta nimeltään Pearsonin tulomomenttikorrelaatiokerroin, on nimetty yhden 1900-luvun tunnetuimman tilastotieteilijän, Karl Pearsonin (Kuva 1) mukaan. Pearsonin työ korrelaatiokertoimen parissa pohjautuu kuitenkin pitkälti Sir Francis Galtonin (Kuva 1) työhön ja ajatuksiin. Galton tutki hajuherneitä ja pitkälti näiden tutkimusten perusteella syntyivät ajatukset muuttujan x ja y välisestä korrelaatiosta ja regressiosta. Näitä ajatuksia Pearson laajensi ja niihin perustuu myös hänen tulomomenttikorrelaatiokertoimensa laskenta./2/

Galton ja Pearson.jpg
Kuva 1. Sir F. Galton (vas.) ja K. Pearson (oik.)

Pearsonin tulomomenttikorrelaatiokerrointa käytetään laskettaessa lineaarista korrelaatiota. Kyseinen korrelaatikerroin kuvaa kahden vähintään intervalliasteikollisen muuttujan välisen keskinäisen lineaarisen riippuvuuden voimakkuutta. Psykologi S. S. Stevensin vuoden 1946 julkaisun mukaan data voidaan luokitella neljään eri luokkaan. Kyseiset luokat ovat nominaaliasteikko, ordinaaliasteikko, välimatka-asteikko ja suhdeasteikko. Nominaaliasteikollisella datalla ei ole mitään luonnollista järjestystä, se voi olla esimerkiksi henkilön lempimusiikkityyli (klassinen, rock, heavy ja rap). Vastaavasti data, jolla on jokin järjestykset mukaiset kategoriat kutsutaan ordinaalisasteikolliseksi, tällaista dataa on esimerkiksi potilaan kunto (hyvä, ok, huono, kriittinen ja kuollut). Välimatka-asteikollinen muuttuja kertoo havaintopisteiden välisen etäisyyden ja pisteiden järjestyksen ja sen mittayksikkö on vakion suuruinen, sekä sillä on absoluuttinen nolla. Esimerkki välimatka-asteikosta on lämpötila Celsiuksina. Suhdeasteikko on kuten välimatka-asteikko, mutta sillä ei ole absoluuttista nollaa, suhdeasteikollista dataa on esimerkiksi lämpötila Kelvineinä/3//4/.

Pearsonin tulomemonttikorrelaatiokertoimen kaava on muodostettu niin, että sen arvo vaihtelee välillä -1…1, jossa luku -1 kuvaa täydellistä negatiivista riippuvuutta sekä luku 1 täydellistä positiivista riippuvuutta ja arvo 0 tilannetta, jossa muuttujien välillä ei ole lineaarista riippuvuutta./5/ Pearsonin tulomomenttikorrelaatiokerroin on esitetty kaavassa 1.

Kaava 1.jpg

Kaikissa tilanteissa muuttujat eivät ole vähintään intervalliasteikollisia, joka on edellytyksenä Pearsonin tulomomenttikorrelaatiokertoimen laskemiselle.

Toinen tilastotieteessä yleisesti käytetty korrelaatiokerroin on Spearmanin korrelaatiokerroin (Kaava 2). Kyseinen korrelaatiokerroin on nimetty kehittäjänsä Charles Spearmanin mukaan, joka julkaisi siihen liittyen vuonna 1904. /5/

Spearman.jpg
Kuva 2. C. Spearman

Spearmanin korrelaatiokertoimen laskenta perustuu järjestyslukujen käyttämiseen ja sitä pitää soveltaa laskettaessa kahden järjestysasteikollisen muuttujan tilastollisen assosiaation voimakkuutta. Kyseisen korrelaatiokertoimen on esitetty alla (Kaava 2). /5/

Kaava 2.jpg

Sekä Pearsonin tulomomenttikorrelaatiokerroin että Spearmanin korrelaatiokerroin ovat pelkästään kahden muuttujan matemaattisen riippuvuuden mittoja. Niiden avulla ei pysty vastaamaan esimerkiksi kysymykseen syystä ja seurauksesta.

Kausaalisuus

Kausaliteettia voidaan arkikielessämme kuvata esimerkiksi seuraavilla ilmauksilla: ”aiheuttaa”, ”vaikuttaa” tai ”antaa tulokseksi”. Pyrimme kausaalisuhteen avulla selittämään jonkin meitä kiinnostavan asian tai ilmiön./6/ Perinteisesti kausaalianalyysi alkaa selvittämällä syyt, jotka saivat aikaiseksi kyseisen seurauksen./1/

Laatutyössä päädytään hyvin usein tilanteisiin, joissa syiden ja seurauksien väliset suhteet ovat kiinnostusten kohteena. Tällaisia tilanteita voivat esimerkiksi olla tapaukset, joissa yritetään selvittää syitä, jotka aiheuttavat tuotteen huonon laadun tai vikaantumisen. Samoin erilaisissa palveluprosesseissa kiinnostuksen kohteena on usein syyt huonon palvelukokemuksen takana.

Korrelaatiosta ja kausaalisuudesta

Kausaliteetin tutkiminen on pitkään ollut monien eri tutkijoiden kiinnostuksen kohteena. Sitä ovat analysoineet niin filosofit kuin tilastotieteilijätkin. Seuraavassa on esitelty joidenkin tutkijoiden näkemyksiä kausaliteetista.

Joitakin filosofien näkemyksiä kausaalisuudesta

Englantilainen filosofi David Hume esitti filosofisessa tutkielmassaan ”Tutkielma Ihmisluonnosta” (”A Treatise of Human Nature ”) myös pohdintaa syyn ja seurauksen ongelmasta. Tässä teoksessa on 8 sääntöä, jotka määrittävät syyn ja seurauksen. Tiivistetysti Humen mukaan, sanoessamme, että ilmiö A on ilmiön B syy (Ilmiö B on A:n seuraus tai A aiheuttaa B:n) teemme kolme eri väitettä./7//8/

  1. Syy ja seuraus ovat avaruudessa lähellä toisiaan
  2. Syy ja seuraus ovat ajallisesti lähellä toisiaan
  3. Syyn ja seurauksen välillä on välttämätön yhteys

Patrick Suppesilla/9/ on Humen kanssa samankaltaisia ajatuksia kausaalisuudesta. Myös hänelle syy ja seuraus voivat olla mitä vain, niiden pitää vain olla ilmaistavissa tapahtumina, jotka esiintyvät ajassa. Hän kehittikin mallin, joka kuvaa keskimääräistä käyttäytymistä, ei yksittäistä käyttäytymistä.


Joitakin tilastotieteilijöiden näkemyksiä kausaalisuudesta

Eräs tunnetuimmista kausaliteetin pohdinnoista on Sir Austin Bradford Hillin vuoden 1965 julkaisussa oleva 9 kohtainen lista. Hillin mukaan kyseisen listan avulla voidaan hahmottaa sitä, missä tilanteissa kyseinen assosiaatio voisi johtua kausaalisuudesta. Toisaalta Hill on jättänyt selittämättä, mitä hän tarkoittaa kausaalisuudelle. Tiivistetysti listasta voi kuitenkin olla apua mietittäessä, onko A:n ja B:n välillä kausaalisuhde./10/

Paul Holland/1/ on kirjoittanut tilastotieteestä ja kausaalipäätelmistä. Hän esittää kausaalimalleja monille eri aloille, kuten sosiaalitieteeseen, lääketieteeseen ja taloustieteeseen. Yhteenvedossaan hän toteaa, että kausaalisuustutkimusten pitäisi alkaa syiden seurauksista eikä niinkään perinteisesti määrittelemällä, mikä kyseisen vaikutuksen syy on. Hän mukaansa syiden seurauksilla on aina vaikutus muihin syihin. Tämä tarkoittaa, että tarvitaan kaksi syytä, jotta voidaan määitellä vaikutus ja, että kaikki eivät voi olla syitä, esimerkiksi tiettyjen yksiköiden attribuutit eivät ole koskaan syitä.

Toisaalta Cox ja Wermuth/11/ ovat käsitelleet konsepteja ja oletuksia, jotka liittyvät tilastollisten riippuvuuksien tulkitsemiseen. He toteavat, esimerkiksi että on olemassa tilanteita, joissa kausaalisuus on itsestään selvää. Vaikutus voi olla suurta ja pitkän aikavälin kokemus osoittaa, että vakiintunut teoria tukee sitä. Monessa tilanteessa kausaalisuuden löytäminen on tärkeää, mutta sen saavuttaminen voi olla todella vaikeaa.

Pearlin/12/ mukaan kausaalipäätelmien teko vaatii kaksi tekijää. Nämä ovat tiedeystävällinen kieli, jonka avulla puetaan sanoiksi kausaalinen tieto ja matemaattiset menetelmät, jotka käsittelevät tätä tietoa. Lisäksi matemaattiset menetelmät yhdistävät tämä datan kanssa ja mahdollistavat uusien kausaalipäätelmien tekemisen tutkittavasta ilmiöstä.

Johtopäätökset ja yhteenveto

Tämä artikkeli käsittelee korrelaatiota ja kausaalisuutta. On tärkeää huomata, että vaikka muuttujien välillä olisi voimakas tilastollisesti merkittävä korrelaatio, siitä ei automaattisesti seuraa kausaalisuhde kyseisten muuttujien välille.

Moni tutkija on miettinyt kausaalisuutta ja tällä perusteella voidaan todeta muutama ohje, joita voi käyttää mietittäessä, onko A:n ja B:n välillä kausaalisuhde. A:n ja B:n välillä pitää olla yhteisvaihtelu, syyn pitää olla ennen seurausta, teorian pitää tukea kausaalisuutta. Lisäksi ulkopuolisten tekijöiden vaikutus voidaan sulkea pois, eikä kausaalisuus aiheudu mistään kolmannesta muuttujasta./13/

Korrelaatio kuvaa pelkästään tutkittavien muuttujien matemaattisen riippuvuuden (assosiaation) voimakkuutta ja se voi olla esimerkiksi sattuman tai jonkun kolmannen muuttujan aiheuttama, jonka vaikutusta ei ole analysoitu. Tällaisia tilanteita voisi syntyä, vaikkapa hukkumiskuolemien ja jäätelön syöntimäärän välistä korrelaatiota. Suomessa hukkuu ihmisiä enemmän kesällä, kuin talvella ja vastaavasti jäätelöä syödään enemmän kesällä kuin talvella. Laskemalla korrelaatio näiden välille on hyvin todennäköistä, että kyseessä on voimakas tilastollisesti merkittävä positiivinen korrelaatio. Kausaalisuudesta tämä ei kuitenkaan kerro mitään. Jäätelön syöntimäärillä ei voida selittää hukkumisia, vaan taustalla on muitakin tekijöitä, joita tässä ei ole otettu huomioon.

Teollisuudessa syntyy monenlaista dataa. Tällaisen datan analysoinnista erilaisilla tilastomatemaattisia menetelmiä, kuten korrelaatiosta käyttäen saa hyvän käsityksen osallistumalla eri tasoisille Six Sigma -kursseille. Näillä kursseilla käydään läpi myös tämän kirjoituksen aiheena olevaa pohdintaa siitä, että korrelaatio ei tarkoita kausaalisuutta.

 

Jarno_pieni.jpg
TkT Jarno Kankaanranta


Lähteet:

  1. Holland, P. W. 1986. Statistics and Causal Inference. Journal of the American Statistical Association. 81(396), pp. 945-960.
  2. Stanton, J. M. 2001. Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors. Journal of Statistics Education. 9(3).
  3. Agresti, A., 2002. Categorical Data Analysis. Wiley-Interscience.
  4. Agresti A., 2010. Analysis of Ordinal Categorical Data. Wiley.
  5. Grönroos, M., 2003. Johdatus tilastotieteeseen kuvailu, mallit päättely. 1. Painos, Oy Finn Lectura Ab.
  6. Dahler-Larsen, P. Vaikuttavuuden arviointi. Stakes 2005.
  7. Hume, D. 1909. A Treatise of Human Nature: Being an Attemp to introduce the Experimental method of Reasoning into Moral Subjects and Dialogues Concerning Natural Religion. Ed. With preliminary Dissertations and Notes by Green, T. H. And Grose, T. H. London 1909.
  8. Sajama, S. 2010. Tieteenfilosofia. Luentomoniste. Kuopion ja Joensuun yliopisto
  9. Suppes, P. C. A Probabilistic Theory of Causality. North-Holland 1970.
  10. Hill, A. B. 1965. The Environment and Disease: Association of Causation?.Proceedings of the Royal Society of Medicine. 58(5), pp. 295-300.
  11. Cox, D. R., Wermuth, N. 2004. Causality: A Statistical View. International Statistical Review.
  12. Pearl. J. 2009. Causal inference in statistics: An overview. Statistical Surveys. 3 pp. 96-146.
  13. Six Sigma Black Belt -kurssimateriaali. Kevät 2015. Quality Knowhow Karjalainen Oy.

 

Kommentoi

(Sähköpostiosoitettasi ei julkisteta.)
Syötä kuvassa näkyvät kirjaimet ja numerot.
Captcha Code

Klikkaa kuvaa nähdäksesi uuden koodin.