Big Data - Suuri mahdollisuus vai suuri erehdys

Julkaistu 29.04.2015    Kirjoittanut Jarno Kankaanranta  Tilaa RSS

Big datasta puhutaan tällä hetkellä paljon. Monet tutkijat tutkivat asiaa ja kirjoittavat siitä. Yliopistot ja muut oppilaitokset kehittävät koulutusohjelmia siihen liittyen. Big datan myötä on jopa syntynyt uusi datatieteilijän (Data Scientist) ammatti, jonka harjoittajat keskittyvät työssään Big datan analysointiin.

Vuonna 2012 uutta dataa luotiin 2,5 exatavua (1018) joka päivä ja on sanottu, että tämä määrä tuplaantuu 40 kuukauden välein. Samoin on arvioitu, että vähittäiskauppayritys Walmart kerää yli 2,5 petatavua erilaista transaktiodataa joka tunti. (Mayer-Schönberger & Cukier, 2013) Onkin varsin todennäköistä, että uuden datan luomisen tahti on vain kiihtynyt vuoden 2012 jälkeen. Tällä perusteella voidaankin helposti ajatella, että tuo uuden datan luomisen määrä on jo tuplaantunut ja tällä hetkellä uutta dataa luodaan varmaankin yli 5 exatavua joka päivä.

Big Datan luonnehdinta

Big dataa voidaan kuvata termillä "löydetty data" ("found data"). Se on dataa, jota ei välttämättä ole tarkoitettu analysoitavaksi. Se on dataa jota syntyy, esimerkiksi luottokorttiostoksistamme, hauista joita teemme Internetissä ja päivityksistämme erilaisissa sosiaalisen median sovelluksissa, kuten Twitterissä, Facebookissa ja LinkedInissä. (Harford, 2014; McAfee & Brynjolfson, 2012)

Andersonin (2008) mukaan datan eri aikakausia voidaan kuvata seuraavasti: 60 vuotta sitten digitaaliset tietokoneet tekivät informaatiosta luettavaa, 20 vuotta sitten Internet teki informaatiosta saavutettavaa ja 10 vuotta sitten ensimmäiset hakukoneet tekivät Internetistä yhden tietokannan. Vastaavasti kilotavuja tallennettiin erilaisille levykkeille, megatavuja tallennettiin kiintolevyille. Teratavun kokoisia määriä tallennettiin ja petatavut tallennetaan pilveen. (Anderson, 2008)

Esimerkkejä Big Datan soveltamisesta

Paljon julkisuutta Big data sai vuoden 2009 sikainfluessapandemian aikana. Tällöin Googlen tutkijat huomasivat, että he pystyivät ennustamaan CDC:tä (Centers for Disease Control) nopeammin, miten epidemia USA:ssa etenee. Googlen tutkijat huomasivat, että kun he analysoivat 50 miljoonaa Googlella eniten haettua termiä, hakusanat, kuten "influenssa oireet" ja "apteekkeja minua lähellä" yleistyivät joillain alueilla. Lisäksi he huomasivat tämän ennakoivan epidemian leviämistä kyseiselle alueelle. (Harford, 2014)

Maailman suurin vähittäistuotteiden myyjä, Walmart kehitti 1990-luvulla "Retail Link" -järjestelmän, jonka avulla tavarantoimittajat pystyvät seuraamaan myyntimääriä ja voluumejä sekä varastomääriä. Tämän järjestelmän voidaan ajatella perustuvan Big Dataan. Samoin USA:ssa on kehitteillä Big dataan perustuva hanke, jossa järjestelmä auttaa lääkäreitä tekemään parempia diagnooseja liittyen keskosiin. Ohjelma kerää reaaliaikaista dataa, kuten sydämen syke, verenpaine ja veren happipitoisuus. Ohjelma pystyy tällä perusteella havaitsemaan muutoksia keskosten voinneissa ja tällä perusteella ennakoimaan infektioita 24 tuntia ennen niiden puhkeamista. (Mayer-Schönberger & Cukier, 2013)

Joitakin Big Datan analyysimenetelmiä

Big datan kannattajat ovat tehneet neljä mielenkiintoista väitettä Big dataan liittyen. On muun muassa esitetty, että Big datan myötä perinteiset tilastomatemaattiset otantamenetelmät ovat tulleet tarpeettomiksi. Lisäksi on esitetty, että tilastollisia malleja tai tieteellisiä malleja ei tarvita, koska riittävän datamäärän perusteella numerot puhuvat itsestään. Lisäksi on todettu, että korrelaatio kertoo riittävästi siitä, mitä halutaan tietää. Pienen datan kohdalla korrelaatiot ovat hyödyllisiä, mutta Big datan kohdalla ne todella ovat hyödyllisiä. Korrelaatioiden laskenta tarjoaa näkymiä dataan helpommin, nopeammin ja selvemmin, kuin aikaisemmin. (Mayer-Schönberger & Cukier, 2013)

Yksi pisimmälle väitteessä mallien tarpeettomuudesta mennyt on Chris Anderson. Anderson toteaa Wired-lehdessä julkaistussa kirjoituksessaan, että Big Datan myötä malleista on tullut täysin tarpeettomia – data itsessään "puhuu". Lisäksi Andersonin mielestä enää ei pitäisi miettiä, mitä Google voi oppia tieteestä. Nyt pitäisikin miettiä, että mitä tiede voi oppia Googlelta. (Anderson)

Seuraavassa on esitelty ja käyty läpi joitakin Big Dataan liittyviä analyysimenetelmiä, jotta saadaan käsitys niistä. Mayer-Schönberger ja Cukier (2013) esittävät, että tärkein Big Datan analysointimenetelmä on korrelaatio. Pienen datan kohdalla korrelaatioanalysi on hyödyllinen, mutta Big Datan kohdalla se "loistaa". Vastaavasti Siegel (2013) esittää päätöspuuanalyysiä käytettäväksi.

Korrelaatio

Korrelaation laskemiseen on olemassa ainakin kaksi vaihtoehtoa. Lineaarista korrelaatiota laskettaessa käytetään Pearsonin tulomomenttikorrelaatiokerrointa (Kaava 1). Kaava on nimetty kehittäjänsä Karl Pearsonin (Kuva 1) mukaan. Järjestysasteikollisten muuttujien tilanteessa voidaan käyttää Spearmanin järjestyskorrelaatiota. (Grönroos, 2003)

Jarnon kaava1.jpg

Karl Pearson.jpg
Pearsonin tulomomenttikorrelaatiokerroin kuvaa kahden vähintään intervalliasteikollisen muuttujan välisen keskinäisen lineaarisen riippuvuuden voimakkuutta. Pearsonin tulomomenttikorrelaatiokertoimen kaava on muodostettu niin, että sen arvo vaihtelee välillä -1...1, jossa luku -1 kuvaa täydellistä negatiivista riippuvuutta ja luku 1 täydellistä positiivista riippuvuutta. Pearsonin tulomomenttikorrelaatiokertoimen arvo 0, kuvaa tilannetta, jossa muuttujien välillä ei ole lineaarista riippuvuutta. (Grönroos, 2003)

Kuvassa 2 on graafisesti esitetty kahden muuttujan välinen positiivinen ja negatiivinen lineaarinen riippuvuus. Lisäksi on mahdollista, että muuttujien välinen riippuvuus ei ole lineaarista, vaan esimerkiksi neliöllistä (Kuva 3) tai muuttujien välillä ei ole riippuvuutta olenkaan (Kuva 4).

 

Riippuvuus.jpg
Kuva 2. Kahden muuttujan välinen positiivinen (vasemmalla) ja negatiivinen lineaarinen riippuvuus.

Kuvasta 2 huomataan, että kun muuttujien välillä on positiivinen lineaarinen riippuvuus, pisteet sijoittuvat lähelle suoraa, jolla on positiivinen kulmakerroin. Vastaavasti negatiivisen lineaarisen riippuvuuden tilanteessa pisteet sijoittuvat lähelle suoraa, jonka kulmakerroin on negatiivinen.

ei lineaarinen riippuvuus.jpg
Kuva 3. Kahden muuttujan välinen ei lineaarinen riippuvuus.

Kuvasta 3 huomataan, että suoran kulmakerroin on tilanteessa 0, mutta pisteistä voidaan silti havaita jonkinlainen, tässä tapauksessa neliöllinen riippuvuus.

ei riippuvuutta.jpg
Kuva 4. Kahden muuttujan välillä ei ole minkäänlaista riippuvuutta.

Kuvasta 4 huomataan, että suoran kulmakerroin on tilanteessa 0. Pisteistä ei kuitenkaan havaita minkäänlaista muuta riippuvuutta.

Kaikissa tilanteissa muuttujat eivät ole vähintään intervalliasteikollisia. Tällaisissa tilanteissa pitää korrelaation laskemisessa käyttää järjestyslukuihin perustuvia korrelaatiokertoimia. Järjestysasteikollisten muuttujien välistä riippuvuutta laskettaessa, korrelaationa käytetään Spearmanin järjestyskorrelaatiota (Kaava 2). Kyseinen korrelaatiokerroin on nimetty kehittäjänsä Charles Spearmanin (Kuva 5) mukaan. (Grönroos, 2013)

Jarnon kaava 2.jpg

Charles Spearman.jpg

Korrelaatioon on kaikkinensa suhtauduttava varauksella, korrelaatio voi myös olla sattuman aiheuttamaa. On lukuisia esimerkkejä, kun asioiden välille on löydetty korrelaatio, joka kuitenkaan ei ole pitänyt paikkaansa. Voidaan esimerkiksi ajatella tilannetta, jossa todetaan Suomessa syötävän paljon jäätelöä kesällä. Samoin hukkumiskuolemat ovat Suomessa kesällä valitettavan yleisiä. Näiden välille pystytäänkin löytämään korrelaatio, jonka mukaan hukkumiskuolemien määrää kesällä Suomessa voidaan selittää suurella jäätelönsyöntimäärällä. Asiaa tarkemmin ajatellen voidaan helposti todeta, että tässä on kyse puhtaasta sattumasta.

 

 

Päätöspuut

Eräs tapa Big Datan analysointiin on päätöspuut (decision trees). Siegelin mukaan ne ovat osa ennakoivaa analytiikkaa (Predictive Analytics = PA). Ennakoiva analytiikka on tekniikka, joka oppii kokemuksesta (data) ennakoidakseen yksilöiden käytöstä tehdäkseen parempia päätöksiä. (Siegel, 2013)

paatospuu.jpg
Kuva 6. Esimerkki päätöspuusta (Siegel, 2013)

Kuvassa 6 on yksinkertainen esimerkki päätöspuusta. Kyseisen puun avulla analysoidaan asuntolainan maksua. Kyseisen päätöspuun perusteella voidaan todeta, että jos talletuskorko on pienempi kuin 7,98% asuntolainan ennakkomaksun todennäköisyys on 3,8%. Vastaavasti, jos talletuskorko on suurempi kuin 7,94, asuntolainan ennakkomaksun todennäköisyys on 19,2%. (Siegel 2013)

Yhteenveto

Nykyinen Big Dataan liittyvä kehitys tarjoaa monia mahdollisuuksia yrityksille ja muille, kuten terveydenhuoltoon. Menetelmistä on oikein käytettynä hyötyä, kunhan muistetaan, että datan määrä itsessään ei ratkaise datan analysointiin liittyviä ongelmia. Tilastotieteen professori David Spiegelhalter Cambridgen yliopistosta toteaa Big Datasta seuraavaa. Hänen mukaansa monet pienen datan ongelmat eivät poistu siirryttäessä Big Dataan – ongelmat vain pahenevat. Tilastotieteilijät ovat käyttäneet viimeiset 200 vuotta tutkien millaisia ongelmia mahdollisesti kohtaamme, kun yritämme ymmärtää maailmaa datan avulla. Vaikka data on isompaa, nopeampaa ja halvempaa, se ei poista datan analysointiin liittyviä ongelmia. (Harford, 2014)

Konsultit suhtautuvat Big dataan naivisti ja on todettu, että esimerkiksi USA:n terveydenhuoltojärjestelmä voisi säästää 300 biljoonaa dollaria vuodessa – 1000 dollaria USA:laista kohden vuodessa soveltamalla Big dataan perustuvia järjestelmiä. Vaikka Big Data lupaa paljon tutkijoille, yrittäjille ja hallituksille, olemme tuomittuja epäonnistumaan, jos unohdamme keskeisiä tilastomatemaattisia asioita. (Harford, 2014)

 

Jarno_pieni.jpg
TkT Jarno Kankaanranta

 

Lähteet:

  1. Anderson, C., Kesäkuu 2008. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine
  2. Grönroos, M., 2003. Johdatus tilastotieteeseen kuvailu, mallit päättely. 1. Painos, Oy Finn Lectura Ab
  3. Harford, T., Maaliskuu 2014. Big data: are we making a big mistake? Financial Times
  4. Mayer-Schönberger, V. & Cukier, K., 2013. Big Data A Revolution That Will Transform How We Live, Work and Think. 1. Painos, John Murray
  5. McAfee, A. & Brynjolfson, E., Lokakuu 2012. Big Data: The Management Revolution. Harvard Business Review
  6. Siegel, E., 2013. Predictive Analytics, The Power to Predict who Will Click, Buy, Lie, or Die. 1. Painos, John Wiley & Sons, Inc.

Internet -lähteet:

  1. http://www.york.ac.uk/depts/maths/histstat/people/pearson_k.gif
  2. http://www.york.ac.uk/depts/maths/histstat/people/spearman.gif

 

Kommentoi

(Sähköpostiosoitettasi ei julkisteta.)
Syötä kuvassa näkyvät kirjaimet ja numerot.
Captcha Code

Klikkaa kuvaa nähdäksesi uuden koodin.

  • Kyösti Huhtala

    Havainnollinen juttu!

    Aikoinaan opiskeluaikana sain käsiini John W. Tukeyn kirjan "Exploratory Data Analysis". Tässä EDA:n klassikossa Tukey esittelee upeita menetelmiä, joilla havainnollistaa ja analysoida aineistoa ihan vaikkapa vain tupakkiaskin kanteen.

    Big data ei mahdu useankaan tupakkiaskin kanteen, mutta kun pieniäkin aineistoja on maailma väärällään, niin mitäs niille tehdään, jos unohdamme tilastolliset menetelmät?

    Toinen juttu taas on, että big data kertyy olemassaolevasta asiaintilasta. Kuinka se siis voisi kertoa jotain turvallisen alueen ulkopuolelta (vrt. koesuunnittelun ja otantatutkimuksen ero)?

  • Jarno

    Tervehdys Kyösti,

    Olen aikanaan myös tuota Tukeyn loistavaa klassikkoa lukenut.

    Paljon tuosta Big datasta tällä hetkellä puhutaan. Tuo lähteenä käyttämäni Harfordin Financial Timesissa ollut juttu on mielestäni hyvä. Siinä Cambridgen yliopiston tilastotieteen professori Sir David Spiegelhalter kommentoi monia Big dataan liittyviä juttuja.

    Tällä hetkellä luen mm. ennakoivasta analytiikasta. Mikäli olen oikein ymmärtänyt, tuon avulla pyritään nimenomaan ennustamaan tulevaisuudesta.

    Ehkäpä tämä Big dataan ja sen perusteella ennustamiseen liittyvät asiat johttuvat siitä, että monet sen kanssa työskentelevien ihmisten koulutustausta ei ole tilastotieteessä, vaan tietojenkäsittelytieteessä.

    Aikaisemmassa elämässä mietin tuota tilastotieteilijöiden ja tiedonlouhijoiden eroa. Törmäsin Hoskingin kirjoittamaa julkaisuun (Hosking, J.R.M., Pednault, E.P.D. & Sudan, M., 1997. A Statistical Perspective on Data Mining. Future Generation Computer Systems, 13. pp. 117-134), jossa hän vertaa tilastieteilijöiden ja tiedonlouhijoiden datan käsittelyä.

    Olen myös Big datasta lukemani perusteella alkanut miettimään populaatioon ja otokseen liittyviä juttuja. Jotkut Big datasta kirjoittavat tutkijat ovat sitä mieltä, että Big datan myötä ei tarvitse ottaa otosta datasta, koska (n=all). Onko tuo edes mahdollista, onko tutkittavana koko populaatio...

    Tällaisia ajatuksia nuo kommenttisi herättivät

    T. Jarno

Kommentoi

(Sähköpostiosoitettasi ei julkisteta.)
Syötä kuvassa näkyvät kirjaimet ja numerot.
Captcha Code

Klikkaa kuvaa nähdäksesi uuden koodin.