Mitä pitäisi ymmärtää datasta - tilastoista? OSA I

Julkaistu 27.01.2009    Kirjoittanut Antti Piirainen  Tilaa RSS


Eletään informaatioaikakautta, on olemassa dataa – tietoa – numeraalisessa ja ei-numeraalisessa muodossa. Tästä datasta pitäisi päätellä jotain.

Katsot mihin tahansa, ympärilläsi on vuorittain – gigatavuja – dataa. On vuosikatsauksia, neljännesvuosikatsauksia, asiat esitetään tilastoin ja graafein, on tilastoja jos mistäkin.

Mitä datasta pitäisi päätellä? Kuinka dataa analysoidaan? Mitä johtopäätöksiä tästä tehdään? Vastaus lyhyesti: varmista datan oikeellisuus, analysoi, tulkitse ja omaksu.

laadun_historia_new.jpg
Kuva 1: Kuvassa on esitetty laadun historian kehittymisjaksot: siirtyminen tuotteen tarkastuksesta prosessien kuvaamiseen ja valvontaan, ja siitä prosessien ohjaukseen ja kausaalisuuden tutkimiseen.

Varmista datan oikeellisuus

Organisaatioissa ja yrityksissä on kerätty, kerätään ja parasta aikaa mietitään, kuinka kerättäisi tietoa ja dataa toiminnasta ja/tai prosessista.

Kun käytetään dataa, tai kun joku esittelee analyysinsä tuloksia, tulee miettiä seuraavia Donald J. Wheelerin perustavaa laatua olevia ehtoja. Näin voidaan arvioida lopputuloksen luotettavuutta.

  1. datan täytyy olla oikeaa dataa,
  2. dataa täytyy pystyä analysoimaan ja esittämään ymmärrettävällä tavalla, ja
  3. tuloksia saa tulkita vain siinä ympäristössä, kontekstissa, josta alkuperäinen data on otettu/vedetty.

Muutama sana ehdoista:

  1. Oikea data tarkoittaa, että data ei saa sisältää virhettä tai ainakin virheen määrä on tunnettu ja olla oikeassa suhteessa dataan. Virhettä tulee lukuisista lähteistä, joista tärkeimmät ovat mittausvirheet ja näytteenottovirheet.
  2. Datan analysoinnin mahdollisuus on ehkä kaikkein suurin ongelma. Jokainen analyysi ja esittämistapa vaativat datan keräämistä jollain tietyllä tavalla, jotta tulos olisi oikea. Jos keräät dataa tietämättä, kuinka sitä analysoidaan, ei todennäköisesti pystytä dataa käyttämään! Datan keräämisessä on noudatettava rationaalista näytteenottoa. Analyysiä EI siis voi tehdä mielivaltaisesti ja sattumalta keräystä datasta, jota tyypillisesti tuotantodata edustaa!
  3. Dataa käytetään hyvin helposti väärissä yhteyksissä. Esimerkiksi yritykselle tulee viime kesänä valmistuneesta tuotteesta reklamaatio. Reklamaation selvittäminen käynnistyy tutkimalla tuotantoprosessia (nyt talvella)! Mitä on vialla? Liki kaikki.

Luotettavien ja oikeiden johtopäätösten tekemisen perusehto on, että data on oikeaa, kerätty ja kohdennettu hyvin ja analysoitu oikein.

Muista: AINA, kun hankitaan ja kerätään dataa, kulutetaan aikaa ja energiaa ja synnytetään kustannuksia. Tämän kustannuksen tulee maksaa itsensä takaisin, kun tarvittava tieto on saavutettu. Toisaalta, mikäli käytettävä data on laadultaan alhaista, liki käyttökelvotonta, voi tästä datasta tehtävät johtopäätökset olla monta kertaa kalliimmat. Esimerkiksi taloissa, jos talon perustukset on suunniteltu puutteellisten lähtötietojen pohjalta ja rakenteesta tulee heikko, kasvaa heikon datan laadun kustannus moninkertaisiksi. On siis kaksi vaihtoehtoa; joko talon perustukset maksavat liikaa, on oikein arvioitu tai talo alkaa vajota. Viimeksi mainitusta syntyy esimerkiksi lohkeamia ja tätä kautta kustannuksia. Usein ajaudutaan viimeksi mainittuun tilanteeseen, koska ei osata arvioida datan laatua suhteessa käyttötarkoitukseen.


Ymmärtääksemme tiedonkeruuprosessia paremmin, voidaan datan käyttökohteet jakaa viiteen luokkaan käyttötarkoituksen mukaan.

datan_epvarmuuden_kasvaminen.jpg
Kuvassa 2 on punaisella pylväällä esitetty datan epävarmuuden kasvaminen x -akselilla olevan käyttötarkoirtuksen funktiona. Sininen katkoviiva esittää epävarmuusastetta, jona datan käyttäjä epävarmuudenasteen olettaa olevan.

 

Datan käyttökohteet:

  1. Katseleminen – Monitoring
  2. Kuvaaminen – Description
  3. Luonnehtiminen – Characterization
  4. Edustaminen – Representation
  5. Ennustaminen – Prediction

Seuraavana lyhyesti, mitä nämä viisi datankeräysvaatimusta tarkoittavat.

Katseleminen – Monitoring

Monitorointi tarkoittaa karkealuontoista asioiden, esineiden tai toiminnan tarkkailua "päältäpäin". Oleellista on, että monitorointiväline pystyy karkealla tasolla ilmaisemaan poikkeaman.

Palvelutuotannossa, esimerkiksi ravintolassa, tämä voisi tarkoittaa, että tarjoilija katsoo salin yleisilmettä normaalilla tavalla. Kun taas tavaratuotannossa työntekijä tai esimies katselee tuotantotilojen yleisilmettä.

Datan oikeellisuutta tulisi arvioida aina. Asiaa voisi ajatella käänteisesti, mitä virheitä datassa tässä tilanteessa voisi tapahtua? Monitorointia suorittava henkilö on aina oikeassa, mikäli monitoroija on "kunnossa". Virhe tapahtuu, jos tarjoilija on vaikkapa päihtynyt tai muuten työkyvytön ja havaitsemisen ja ajatuksen välillä ei ole yhteyttä. On muistettava, että hän vain katselee normaalisti.

monitoreinti.jpg
Kuva 3. Katseleminen – Monitoring – esimerkki: tarkkailen, miltä ulkona näyttää?

Kuvaaminen – Description

Kuvaaminen on monitorointia hienompi taso, jonka tarkoituksena on antaa parempi kuva esimerkiksi valvottavasta kohteesta. Tiedon keräämisen motiivina on havaita jotain "erityistä". Yleensä erityisen havaitsemiseen tarvitaan mittari.

Ravintolassa tarjoilija valvoo salia. Hän tarkastelee ilmaantuuko uusia asiakkaita ja laskee esim. tyhjät paikat. Tavaratuotantoyrityksessä tämä taas voisi tarkoittaa, että tuotantotilaa valvotaan mittarein ja katsellaan mittarein pysyvätkö koneet käynnissä.

Silloin kun arvioidaan kuvaavan datan luotettavuutta, selvitetään voiko tarjoilija mitata saapuvia asiakkaita ja laskea tyhjiä paikkoja, vai tarvitseeko hän esimerkiksi silmälasit. Laatuteknologia auttaa datan luotettavuuden selvittämisessä. Mittaussysteemin luotettavuuden tutkimisen (MSA) tarkoituksena on saada kuva datan laadusta ja tarvittaessa kehittää sen keräysjärjestelmää.

kuvaaminen.jpg
Kuva 4. Kuvaaminen – description – esimerkki: katson lämpömittarista lämpöasteet ja päättelen millainen keli ulkona on.

Luonnehtiminen – Characterization

Luonnehtimisella tarkoitetaan vertailu jotain rajaa tai toista asiaa vastaan. Tyypillisesti verrataan, onko jokin asia tai tuote sovittujen rajojen mukainen. Tämä edellyttää luonnollisesti, että vertailua suorittavat osapuolet ovat yhdessä sopineet rajoista, spekseistä. Tämä karakterisointi on selvästi vaativampi tehtävä ja vaatii huomattavasti parempaa dataa.

Jos taas mietitään ravintolaympäristöä, tarjoilija laskee huomatessaan tulevien asiakkaiden määrän ja vertaa niitä tyhjiin paikkoihin. Tarjoilija vie heille ruokalistat sekä aloittaa palvelun palvelumallin mukaisesti. Tuotantoyrityksessä taas tämä tarkoittaisi, että mitataan tuotetta tai prosessia ja verrataan tulosta toleransseihin tai ohjausrajoihin.

Luonnehdintatiedon luotettavuuden nostamisen apuna käytetään tilastollista prosessin ohjausta (SPC) sekä hyvä/huono -tilan kuvaamiseen suorituskykyanalyysiä. Ravintolaympäristössä tiedon virheellisyys voi johtaa siihen, että tyhjiä paikkoja ei ole ja asiakkaat joutuvat odottamaan.

karakterisointi.jpg
Kuva 5. Karakterisointi – characterization – esimerkki: vertaan lämpömittarin näyttämää lukua rajaan, joka tässä tapauksessa on > 0 astetta. Tarkoitukseni on lähetä hiihtämään, siksi haluan, että on pakkasta.

Edustaminen – Representation

Edustavuudella tarkoitetaan, että mitattujen tai tarkastettujen tulosten pohjalta voidaan päätellä että, ei mitatut tai ei tarkastetut tapahtumat tai tuotteet ovat mitattujen tapahtumien tai tuotteiden mukaiset. Toisin sanoen pystytään päättelemään, että kaikki rajatun populaation yksiköt kuvaavat koko populaatiota; mitatut tuotteet edustavat ei mitattuja. Tässä tapauksessa virhemahdollisuus kasvaa huikeasti. Suurimmat laatuvirheet johtuvat juuri tästä.

Ravintolassa tarjoilija ja johtaja miettivät, edustaako tämä kävijämäärä normaalia arkipäivän kävijämäärää. Tuotannon henkilökunta miettii, edustaako koneen pysähtyminen normaalia tuotantopäivää tai näyte kokopäivän tuotantoa.

Edustavuus tiedon kerääminen on huomattavasti vaativampaa. Kysymys on siitä, edustaako näyte, yhden hetken asiakasmäärän koko esimerkiksi viime vuoden asiakasmäärää. Laatuteknologiassa tilastollinen näytteenotto mm. AQL sekä näytemäärä ja tehoanalyysi auttavat päätöksenteossa ja virheen minimoinnissa.

edustavuus_.jpg
Kuva 6. Edustavuus – Representation - esimerkki: edustaakohan Lahdessa parvekkeella oleva lämpötila Vierumäen tai Jämsän hiihtokelejä?

Ennustaminen – Prediction

Viides vaihtoehto, ennustaminen, on kaikkein vaativin datan käyttömuoto. Tämä edellyttää datan keräysjärjestelmältä huippulaatua. Dataan liittyvät virheet on lähes ennakoitava. Tätä data käytetään pääteltäessä tulevaisuutta. Tässä vaaditaan, että dataa tuottava järjestelmä on tunnettu ja se on ennustettava.

Lounasravintolan työntekijä ja johtaja päättelevät, voivatko he ennustaa tämän päivän perusteella, kasvaako seuraavan kuukauden myynti? Tehtaalla mietitään, ennustavatko nämä virheet seuraavalle kuulle erityisen paljon vikoja. Päätöksentekoon, ennustamiseen, liittyvää virhettä mietittäessä, olisi syytä pystyä päättelemään, pystynkö yhden päivän asiakasmäärästä todella tekemään päätöksen myynnin kasvamisesta? Tiedon luotettavuuden nostamiseen käytetään apuna, empiiristä testiä, koesuunnittelua (DOE), jossa on ennalta annettu tarkat ohjeet, kuinka dataa on kerättävä, kuinka paljon sitä on kerätty ja miten suojaudutaan häiriöiltä ja kuinka arvioidaan virheen suuruus. Koesuunnittelutekniikalla tutkitaan dataa tuottavaa toiminto ja/tai prosessia ja tämän pohjalta, voidaan luoda malli, jonka avulla ennustetaan tulevaa. Tämä pätee yhtä hyvin myyntiin kuin tuotanto- ja palvelutoimintoja.

AINA ennen tiedon, informaation, käyttöä täytyy hahmottaa tiedon tuleva käyttötarkoitus ja tiedon laatu. Jos huomaat, että nykyinen datan keräystä ja käyttötapa eivät kohtaa, tulee ottaa käyttöön tarvittava laatuteknologia.

ennustaminen_2.jpg
Kuva 7. Ennustaminen – Prediction - esimerkki: olen lähdössä talvilomalla hiihtämään, pystynköhän ennustamaan tästä, millainen hiihtokeli on kuukauden päästä?

epvarmuuden_kasvaminen_ja_laatuteknologian_rooli_epvarmuuden_pienentmisess.jpg
Kuvassa 8 punaisilla pylväillä on kuvattu tiedon epävarmuuden kasvu käyttökohteen mukaan. Siniset matalat pylväät esittää epävarmuusastetta, jona datan käyttäjä epävarmuudenasteen olettaa olevan. Sininen käyrä kuvaa oikein käytetyn laatuteknologian tuomaa vaikutusta tiedokuvattun laatuun.

Seuraavissa artikkeleissa jatketaan aihetta ja käsitellään tarkemmin datan keräämistä, analysointia, tulkintaa ja omaksuntaa. Jos analysoit oikein ja tulkitset oikein, mutta silti jostain syytä et pääse haluttuun tulokseen, missä vika?

 

Koko artikkelisarja:

Osa I: käsittelee datan laatua ja laatuteknologian rooli datan laadun parantamisessa, 27.1.2009
Osa II: käsittelee datan analyysiä; signaali vs. kohina, 13.2.2009
Osa III: käsittelee datan keräystä ja signaalityyppejä, 11.3.2009
Osa IV: 14.4.2009

 

antti_uusi.jpg  eerooikee2.jpg
Antti Piirainen ja Eero E. Karjalainen

Kommentoi

(Sähköpostiosoitettasi ei julkisteta.)
Syötä kuvassa näkyvät kirjaimet ja numerot.
Captcha Code

Klikkaa kuvaa nähdäksesi uuden koodin.

    Tagipilvi

    TuottavuusPDCAtilastoSPC-korttiBOKmittausprosessiTQMoperaatiotutkimuskustannussäästötdatan käsittelyDFSSTPMtoiminnan laitHarryjaksoaikalaatu ratkaiseeVSMISO 9001:2015mielenmallitsyy-seurauskaavioFeigenbaumvaihteluaivoriihiEDAtehdasfysiikkaFMEADemonstraatiotControl PlanHukkaDOEKingmanin yhtälöDesign for Six SigmaneukkarikoeqfdJatkuva parantaminenCDAparannusmenetelmädatan luokitteluOhnot-testimittavirheTätä on LeanasiakastyytyväisyysOpetusmenetelmätROIdatan keräysTPSparannustoimintaLaatujärjestelmä8DkuvaaminenCTPMinitab 18Gage R&RhyväksymisnäytteenottoLaatutyökalutDSDTOCPDSADesign of ExperimentshävikkifunktioriskinkartoitusGagepuhdistaminenkoesuunnitteluTaguchiOpettaminenvalvontatoiminnan lainalaisuudetDMAICsitoutuminenParetoKingmanarvovirtasekoitekoemenetelmätkvantitatiiviset menetelmätLean HandbookMSAluotettava mittausregressioanalyysiCTQlaatu SuomessahistogrammitilastomatematiikkaIATF 16949jidokasatunnaissyySix SigmaparantaminenlaatutyökaluterityissyyPDSA-ympyräShingoMarkkinointitoleranssiparannustoiminnan kehittyminendatan käsittelyLean-visiogurutShewhartkorrelaatioarvovirta-analyysiL8-matriisihypoteesitestijitKataLean-taloasiakaslaadunkehittäjämalliLean Six SigmamixtureparannusmalliMinitabohjauskorttisatunnainen vaihteluideointiJohtaminenlainalaisuudetIATFtehollinen aikaVOCarvovirtakuvausongelmanratkaisuacceptance samplinguutiskirjeBalanced ScorecardpäämäärämalliISO 9000prosessikuvausBig DataLean Six Sigma Black BeltohjausCombanion by MinitabläpimenoaikastabiilivuodiagrammiCrosbydataparannusmonimuuttujakoeJuranmittaussysteemiMonte CarloinnovaatioHall of FamelaadunhallintaIshikawaKaizensysteemiryhmittelykaavioLittlen lakiDemingBlack BeltKaikakukausaliteettitehokkuusreunalajittelusuorituskykymittaritohjaussuunnitelmavaihtelun vaikutusOFATtäystekijäkoeSPCISO 9001työkalutkoulutusoeeWheelertilastollinen päätöksentekoLaatukonferenssiSigmakalanruotoparannuksen johtaminendatan laaturyhmätyöskentelyDMADVmonimuuttujatestiFactory PhysicsMarkkinointiprosessimuutospaloautopelilaadunohjausjohtamisjärjestelmä0-virhedata-analyysiriskidatan käsittelyValue Stream MappinghypoteesitestausLeanmittaaminenlaatutaulutjärjestäminenlaadunparannus5W2H Body of KnowledgestandardointiToyotalaatuANOVAtiedonkerääminennollavirheennustaminenhukan muodotASQprosessiAsiakastarvemuutoksen tuska5Sasiakastyytyväisyysturvallisuus

    Arkisto