Skip to main content
Takaisin

Jalosta runsas datasi pilvessä: Tekoälyn sovellukset hyötykäyttöön

Blogi-OR-Tekoalyn-sovellukset-hyotykayttoon

Olipa kerran yritys, jonka liiketoiminnan prosesseista syntyi valtaisat määrät jatkuvasti kertyvää uutta dataa. 

Aineistoa oltiin jo kevyesti analysoitu ja todettu, että se voisi soveltua liiketoiminnan kehittämiseen useillakin tonteilla: asiakkaille palvelutarjonnan parantamiseen, tuotekehitykselle toiminnan tehostamiseen, ja työntekijöille dataohjautuvaan päätöksentekoon. 

Tutulta kuulostava tilanne monessa organisaatiossa. Jos liiketoiminnan ongelma on määritelty ja datan laatukin on hyvä, ollaan jo pitkällä. Entäpä koneoppimisen jalkauttaminen tuotantoon?

Yhteenveto: Hyödynnä pilven natiiveja sovelluksia tekoälyprojekteissa

  • Kaiken kokoiset organisaatiot pystyvät aloittamaan tekoälyn sovelluskokeilut maltillisilla kustannuksilla, sillä julkipilvialustat tarjoavat tekemiseen valmiita työkaluja
  • Esimerkiksi AWS:n SageMaker -kehikko mahdollistaa data science -työvaiheet eksploratiivisesta analytiikasta mallien elinkaarien hallintaan
  • Pilven kustannustehokas hyödyntäminen vaatii asiantuntemusta, jotta laskentatehon tarpeen kasvaessa kulut eivät pääse yllättämään

Keinot koneoppimisen sovelluksiin löytyvät omasta julkipilviympäristöstä

Isojen datamassojen kerääminen ja prosessointi vaatii laskentatehoa. Useimmille yrityksille ratkaisu on jo pidempään ollut pilvilaskenta. Kalliiden ja työläiden konesalien rakentamisen sijaan vuokrattava rauta on helppokäyttöistä ja kustannustehokasta. Pilvi on demokratisoinut pelikenttää mahdollistamalla pienillekin toimijoille kilpailukykyiset resurssit ketterästi ja maltillisilla kustannuksilla. 

Lisäksi julkipilvipalvelujen tarjoajat ovat laajentaneet erityisesti koneoppimista tukevien työkalujensa tarjoamaa merkittävästi. Vaikka osaamista ja ymmärrystä koneoppimisesta tarvitaan luonnollisesti edelleen, on monista asioista saatu erittäin suoraviivaisia. 

Kaikki vaiheet datan keräämisestä mallien julkaisuun ja operointiin löytyvät modulaarisina palveluina, joita yhdistelmällä voi kasata monimutkaisiakin ratkaisuja ilman, että kaikkea tarvitsee tehdä itse niin sanotusti pitkästä tavarasta.

Esimerkkinä SageMaker ja muut AWS-työkalut

Otetaanpa esimerkiksi AWS:n palvelutarjoama. Yksinkertainen datalake-ratkaisu syntyy keräämällä datat S3-palveluun. Sanoista "simple storage service" nimensä saanut palvelu nimensä mukaisesti mahdollistaa kaikenlaisen datan säilömisen raakamuodossaan kustannustehokkaasti.

Nyt data on muiden AWS:n tarjoamien palveluiden saavutettavissa; esimerkiksi jalostettavissa erilaisiin tietokantoihin liiketoiminnan analytiikan tarpeita varten, tai käytettävissä sellaisenaan AWS:n koneoppimis- ja tekoälypalveluissa. 

Näistä voisi mainita oleellisimpina generatiivisen tekoälyn mallit tarjoavan Bedrock-palvelun, sekä SageMaker-kehikon, jossa eri data science -työvaiheet eksploratiivisesta analytiikasta mallien elinkaarien hallintaan on niputettu yhden, kattavan palvelun sisälle.

Keskitytään vielä tarkemmin jälkimmäiseen. SageMaker AI -framework tarjoaa ympäristön, jossa laskentaresurssi-instanssien käyttöönotto on suoraviivaista. Lisäksi nämä resurssit sisältävät jo valmiiksi yleisesti käytetyimpiä data science -työkaluja ja -kirjastoja, joita mallinkehityksessä tarvitaan. 

Datatieteilijä tuntee olonsa kotoisaksi Jupyter -notebook-ympäristössä. Ja mikäli konfiguraatiot ovat kunnossa, hänellä on sieltä pääsy organisaation S3-datalakeen, josta hän voi lukea dataa ja alkaa tehdä mallinnusta. 

Tekoälykokeiluista sovelluksen julkaisuun 

Kun kokeilukelpoinen malli on olemassa, sen voi julkaista vaivattomasti valmiiksi kontitettuna lyhyitä tuotantokokeiluja varten. Mikäli kokeilun tulokset ovat lupaavia, onnistuu myös pysyvä tuotantoonvienti ja MLOps-operointi orkestroinnista monitorointiin Sagemakerista käsin. Tarvittaessa mukaan voi integroida muita AWS:n tarjoamia palveluita. 

Olipa kyseessä sitten ennuste- tai suosittelualgoritmin, vahvistusoppimisen tai generatiivisen tekoälyn sovelluskohde, SageMaker tarjoaa tarvittavat työkalut.

Kun kaikki tämä tapahtuu pilvessä, organisaation ei tarvitse sitoutua rautainvestointeihin, joiden hyötysuhteesta ei ole varmuutta. Jos lyhyet kokeilut osoittavat, ettei menetelmää ehkä kannatakaan kehittää pidemmälle, voi kokeilun lopettaa eikä rahaa tarvitse käyttää sen enempää. 

Kustannustehokkuuden puolesta puhuu myös se, että käytöstä maksetaan vain toteuman mukaisesti; pilven skaalautuvuus tarkoittaa, että kysyntäpiikkien aikana resursseja voi tarvittaessa nostaa, mutta toisaalta vajaakäytöllä olevat resurssit voi ajaa automaattisesti alas ilman jolloin niistä ei aiheudu turhia kustannuksia.

Vaikka ulkoistaisit datan varastoinnin ja käsittelyn pilveen, sinulla on yhä monia tietoturvaan liittyviä vastuita. Muista siis esimerkiksi tarkistaa, että S3-tietovarantojen konfiguraatiot ovat kunnossa. 

Katso Arvoa AI:sta -webinaaritallenne, jossa näytetään demo Amazon SageMakerin käytöstä

 

Milloin pilven natiivit työkalut eivät ehkä ole paras vaihtoehto tekoälyn sovelluksiin?

Äsken kuvattu yhdistelmä pilven natiiveja työkaluja sopii koneoppimisprojekteihin, joissa data joko sijaitsee jo pilvessä tai on helposti siirrettävissä sinne, ja joissa laskentatehoa tarvitaan oletettavasti enemmän kuin mihin yksittäinen työasema riittää. 

Julkipilven valmiissa frameworkeissa koko koneoppimisen työnkulun pystyy hoitamaan yhdessä paikassa, ja niinpä valmiita komponentteja hyödyntämällä voi helposti tehdä kevyitä tuotantokokeiluja ja prototyyppeja, ja jalkauttaa julkaista onnistuneet ratkaisut palveluiksi liiketoiminnan tarpeisiin. 

Kuitenkin, jos projekti on mittakaavaltaan hyvin pieni ja data paikallista, ei pilven skaalautuvuus välttämättä tuo tekoälyn sovellusten testaamiseen merkittävää lisäarvoa. Näin voi olla erityisesti silloin, jos omaan infraan on ehditty jo investoida. 

Jos voit ennakoida datamäärien pysyvän samanlaisina, ja etenkin jos menetelmä on ajossa 24/7, on mahdollista tehdä luotettavia laskelmia siitä, miten paljon edullisempaa on ajaa menetelmää itse hankitulla laskentateholla kuin vuokraamalla sama määrä rautaa pilvestä.

Vaikka pilvilaskennalta usein haetaan ja saadaankin kustannussäästöjä, pitää pilviresurssien käyttöä valvoa tarkasti. Kustannuksia pitää pystyä arvioimaan jo etukäteen, jotta edessä ei ole ikäviä yllätyksiä. 

Suuret datamassat ja kompleksit mallit voivat vaatia yllättävän paljon resursseja. Erityisesti GPU-pohjaisten laskentaresurssien käytön arviointi kannattaa tehdä tarkasti. 

Pilvipalveluntarjoajien hinnoittelumallit voivat vaikuttaa mutkikkailta, jos alustojen kanssa ei ole päivittäin tekemisissä. Tämä haaste on onneksi helppoa taklata ottamalla projektiin mukaan asiantuntijatiimi, joka tuntee juuri kyseisen alustan optimoinnin kuin omat taskunsa.

Jos projektia säätelevät korkean tason tietoturvavaatimukset, dataa voi olla jopa mahdotonta säilyttää ja pureksia julkipilvessä. Tällaisissa tapauksissa voi kuitenkin olla mahdollista rakentaa hybridiratkaisu, jossa julkipilvessä tehdään ne asiat jotka siellä on mahdollista ja kannattavaa tehdä, ja loput tehdään on-premisessä. Myös tässä osaava asiantuntijatiimi osaa yhdistää eri ratkaisut parhaalla mahdollisella tavalla.

Miten käy tarinamme mittausdataa keränneen organisaation?

Artikkelin alussa pohdittiin, miten runsasta dataa keräävän organisaation kannattaisi edetä. Suositus kuuluu näin: Jos julkipilvi näyttää mahdolliselta vaihtoehdolta, kannattaa ottaa sen natiivit työkalut kokeiluun ja lähteä liikkeelle ensin pienessä mittakaavassa. 

Lupaavien tulosten ja mitattavien liiketoimintahyötyjen nojalla tekoälyn sovellusten jatkokehittämiseen voi satsata luottavaisemmin mielin. Ja kuten aiemmin todettiin – pilven avulla sekin vaihe käy ketterästi.

Miten saisit omasta datastasi enemmän irti? Katso kaikki Arvoa AI:sta -webinaarit!

 

 

 Teppo Ahonen
Kirjoittaja Teppo Ahonen Teppo Ahonen on Cinian Lead Data Scientist, jolla on pitkä kokemus koneoppimisen teknologioista.