Tilaa uutiskirjeemme
Tilaa uutiskirjeemme

CINIAN BLOGI

Askellusta analytiikan hyödyntämiseen

Blogi 1.6.2016

Big datasta, data sciencestä ja analytiikasta puhutaan tällä hetkellä hyvin paljon. Tästä huolimatta näiden termien täsmällinen määrittely näyttää olevan jo hieman hankalampaa. Tämä onkin odotettavissa, kun ajatellaan aiheen ympärillä olevaa innostusta ja hypeä. Laajasti esillä olevaan aiheeseen löytyy monta näkökulmaa kommentoijasta riippuen.

Käsittelen tässä aihetta käytännönläheisesti pyrkien kuvaamaan askelmerkit data-analytiikan hyödyntämiseen organisaatiossasi.

Yllämainituista termeistä varsinkin big data näyttäisi tarjoavan jokaiselle jotakin puhujasta ja hänen kulloisista tarpeistaan riippuen. Big data keskustelun pohjalla on teknisen kehityksen mahdollistama suhteellisen tuore mahdollisuus käsitellä ja tallentaa reaaliaikaista, suurivolyymista dataa, jota aiempaan verrattuna voidaan hakea myös yrityksen ulkopuolisista tietolähteistä (kuten sosiaalinen media, erilaiset avoimen datan lähteet, IoT -sensoridata, paikkatieto etc.). Kaikesta hypetyksestä huolimatta big dataan näyttää siis selvästi liittyvän uusi ominaisuus eli pyrkimys tarkastella ja ymmärtää omaa liiketoimintaa, asiakaskuntaa ja sidosryhmiä laajempien lasien läpi, joita nämä ulkoiset tiedonlähteet tarjoavat.  Aiemmin analytiikan keinoin saatu kuva on ollut tavallaan ”sisäänpäin kääntynyt”, koska analytiikan ja päätöksenteon pohjana on käytetty vain yrityksen sisällä kerättyä tietoa.

Määritelmien mukaan data science puolestaan vaatii harjoittajaltaan laaja-alaisen renesanssi-ihmisen ominaisuudet. Tarvetta on niin tekniselle kuin visuaalisellekin taituruudelle dataa analysoitaessa – unohtamatta tietenkään loppuvaiheen päätelmien perustelua päätöksentekijöille mieleenpainuvalla, henkilökohtaisella ja koskettavalla tarinankerronnalla. Kaiken tarvittavan osaamisen löytäminen yhdessä ja samassa henkilössä ei ole kovin todennäköisestä.  Tästä syystä analytiikkaa onkin hyvä ajatella lähtökohtaisesti tiimityönä.

Analyysin polttoaineena on yrityksen hallussa oleva data. Tallennuskapasiteetin halpeneminen on monessa yrityksessä mahdollistanut tilanteen, jossa dataa on voitu kerätä, vaikkei sille ole löydetty selkeää käyttöä. Dataa tuottava organisaatio ei välttämättä ole aivan selvillä siitä, mikä on kerätyn datan sisältö tai arvo ja lisäksi yrityksen sisäisen datan rikastaminen ulkoisista lähteistä saatavalla datalla voi avata uusia liiketoimintamahdollisuuksia. Onnistuneet esimerkit maailmalta saavat yhä useamman pohtimaan, voisiko olemassa olevasta datasta saada jotakin lisähyötyä irti analyysin keinoin.

Analytiikan ja datan suhde on tavallaan kaksisuuntainen. Toisaalta pyritään löytämään, ymmärtämään ja kommunikoimaan datasta löytyvät hienovaraisetkin vihjeet, jotka voisivat tukea organisaation päätöksentekoa tai avata uusia mahdollisuuksia. Toisaalta analyysissa saatetaan havaita puutteita tai tiedon heikkoa laatua, joka estää johtopäätösten teon. Analytiikka tarjoaa jälkimmäisessä tilanteessa ohjeita siihen, mitä dataa vanhan datan ohella tulisi kerätä tai kuinka olemassa olevan datan sisältöä tulisi kehittää tiedon laadun parantamiseksi.

Koko analytiikan lähtökohta on se, että asiakkaalla ylipäätään on liiketoimintaansa liittyvä kysymys, johon halutaan löytää vastaus kerättyä dataa tutkimalla. Analytiikkaratkaisun tarjoajalta vaaditaan asiakkaan toimintaympäristön hyvää tuntemusta, jotta tämä kysymys ymmärretään oikein.

Analytiikkasykliin sisältyy aina alkuvaiheessaan datan siivoaminen ja valmistelu analyysia varten. Vaikkakaan tämä vaihe ei tarjoa vielä mitään analyyttistä näkemystä dataan, se on välttämätöntä datan saattamiseksi sellaiseen muotoon, että sitä ylipäätään voidaan käsitellä. Tässä vaiheessa datasta mm. poistetaan virheellisiä tietoja sekä pyritään ymmärtämään datassa olevien parametrien merkitys liiketoiminnan kannalta.

Kuvailevassa eli deskriptiivisessä analyysissa dataan perehdytään tarkemmin mm. luokittelulla, parametrien ääriarvojen haulla tai etsimällä datassa mahdollisesti esiintyviä havaintoryppäitä.  Kuvailevassa analytiikassa pyritään ymmärtämään mitä on tapahtunut.

Tämä ensimmäisen vaiheen kuvaileva analyysi tarjoaa jo osalle yrityksistä hyödyllistä tietoa. Joillekin organisaatioille voi esimerkiksi organisaation palvelemien asiakkaiden määrä tai vikaraporttien jakauma vikojen suhteen olla toimintaa ohjaava uusi tieto. Tämä kiteyttää hyvin sen variaation, joka yritysten analytiikkatarpeissa ja -valmiuksissa on. Kuvailevassa analyysissa haetut perusmetriikat ovat vielä kaukana oppikirjojen menestystarinoista, mutta siitä huolimatta ne voivat olla tärkeitä analytiikkataipaleen ensi askelia ottavalle organisaatiolle.

Diagnostinen analytiikka pyrkii vastaamaan kysymykseen, miksi jokin asia tapahtui. Menetelminä tässä vaiheessa on mm. korrelaatioiden löytäminen ja datan yksityiskohtiin kaivautuminen tietokanta- tai visualisointityökalujen avulla. Tässä analytiikan vaiheessa saadaan selville datassa suoraan havaittavissa olevia keskinäisiä riippuvuuksia.

Ennustavassa analytiikassa käytetään edellisiä vaiheita raskaampaa tilastollista ja matemaattista koneistoa datan tulkinnassa. Siinä pyritään rakentamaan tilastollisia malleja tai hyödynnetään koneoppimisalgoritmeja, joiden perusteella pyritään löytämään datassa syvemmällä piilossa olevat yhteydet.

Mallit verifioidaan tai koneoppimisalgoritmit opetetaan lähtöaineistosta valitulla mahdollisimman edustavalla otoksella ja sen jälkeen mallin toimivuus testataan koko aineistolla. Mikäli mallit osoittautuvat testauksen perusteella toimiviksi, voidaan niitä käyttää ennustamaan tulevia tapahtumia.

Toimintaa ohjaava (preskriptiivinen) analytiikka pyrkii muokkaamaan yrityksen toimintaa aiempien analytiikkasyklien antamien vihjeiden pohjalta.  Tällaisesta analytiikasta ovat esimerkkeinä mm. räätälöidyt asiakaskohtaiset tuotesuosittelut ja -hinnoittelut, jotka perustuvat asiakkaan käytöstä ennustaviin malleihin. Toimintaa ohjaavassa analytiikassa ennustemallien antama informaatio on siis ”tuotteistettu” osaksi yrityksen liiketoimintaa. Analytiikan oppikirjaesimerkit edustavat usein tapauksia, joissa on menestyksellisesti hyödynnetty preskriptiivistä analytiikkaa. Toimintaa ohjaava analytiikka ei kuitenkaan ole mahdollista, jos sen perustana olevat aiemmat analytiikkavaiheet on jätetty tekemättä.

Analytiikan kannalta big dataan ei itse konkreettisen tekemisen tasolla sisälly läheskään niin paljon mystiikkaa kuin markkinointipuheiden perusteella voisi päätellä.  Viime vuosien aikana on big datan hyödyntämiseen kehitetty massiivisesti skaalautuvia hajautettuihin tietovarastoihin perustuvia tiedon tallennus- ja prosessointijärjestelmiä (mm. Hadoop) ja tähän hajautettuun ympäristöön soveltua analysointityökaluja (mm. Hive, Mahout), joilla analytiikkaa tehdään hajautetusti isommassa mittakaavassa kuin perinteisessä analytiikassa. Vaikkakin esimerkiksi datan määrässä mitattuna big data poikkeaa merkittävästi perinteisestä analytiikasta, niin itse datan analysointiin käytetyt mallit ja algoritmit kuitenkin pohjautuvat samoihin lainalaisuuksiin kuin pienemmänkin mittakaavan analytiikassa.

Analytiikkapartneria valittaessa kannattaakin kiinnittää huomiota siihen, että valitulla partnerilla on kyky ja halu nousta yhdessä asiakkaan kanssa analytiikan portaita pitkin niin ylös kuin tarve vaatii – olipa data suurta tai pientä.

– Kaj Sihvo, Senior Software Developer, Cinia Solutions –

Jaa

kiitos-viesti

Tilaa bloggaukset sähköpostiisi