Tekoäly on niin hyvä kuin sen data

Vanha tietojenkäsittelyn sanonta kuuluu: garbage in, garbage out. Syötä roskaa, saat roskaa ulos. Tekoälyn kohdalla tämä pätee erityisen hyvin.

Paras algoritmi maailmassa tuottaa huonoja tuloksia jos sen pohjalla oleva data on sekavaa, vanhentunutta tai puutteellista. Ja toisin päin: kohtuullinen algoritmi toimii yllättävän hyvin kun data on kunnossa.

Enemmän ei tarkoita parempaa

Yleinen harhaluulo on että tekoäly vaatii valtavia datamääriä. Vaatii joskus – mutta ei aina. Pienempi, hyvin jäsennelty ja ajantasainen data tuottaa monessa käyttötapauksessa paremman lopputuloksen kuin massiivinen sekakaaos jossa on kaikki ikinä kerätty.

Tämä on hyvä uutinen pk-yritykselle. Sinulla ei tarvitse olla miljoonan rivin tietokantaa. Tarvitset oikean datan oikeassa kunnossa.

Mitä laadukas data tarkoittaa käytännössä

Johdonmukaisuus. Sama asia kirjataan aina samalla tavalla. Jos asiakkaasta käytetään välillä nimeä, välillä asiakasnumeroa ja välillä sähköpostiosoitetta, järjestelmä ei tiedä että kyse on samasta henkilöstä. Tuntuu pieneltä yksityiskohdalta – aiheuttaa isoja ongelmia.

Kattavuus. Data edustaa todellisia tilanteita, ei vain helppoja tapauksia. Jos asiakaspalautteista on tallennettu vain positiiviset, AI oppii että kaikki asiakkaat ovat tyytyväisiä. Se ei ole hyödyllistä.

Ajantasaisuus. Vanhentunut data johtaa vääriin päätelmiin. Hintatiedot kolmen vuoden takaa, asiakaskontaktit joiden sähköpostit eivät toimi, tuotetiedot joita ei enää myydä – kaikki nämä sotkevat tuloksia.

Dokumentointi. Pitää tietää mistä data tulee, kuka sen on syöttänyt ja mitä se tarkoittaa. Sarake nimeltä "status" ei kerro mitään jos kukaan ei muista mitä arvot 1, 2 ja 3 tarkoittavat.

Mitä tehdä ennen kuin AI-projektia aloitetaan

Neljä vaihetta jotka kannattaa käydä läpi:

Kartoita datalähteet. Missä tieto asuu tällä hetkellä? CRM, taulukkolaskennat, sähköpostit, paperit? Listaa kaikki.
Arvioi laatu ja puutteet. Onko data johdonmukaista? Onko siinä aukkoja? Kuinka vanhaa se on?
Suunnittele kerääminen ja ylläpito. Miten data pysyy jatkossa ajan tasalla? Kuka vastaa laadusta?
Varmista tietosuoja ja käyttöoikeudet. Saako dataa käyttää tarkoitukseen johon sitä aiotaan hyödyntää? GDPR koskee myös AI-projekteja.

Tämä ei ole glamouria. Se on kuitenkin se vaihe joka eniten vaikuttaa lopputulokseen.

Pohjatyö maksaa itsensä takaisin

Datan siivoaminen ja jäsentäminen ennen projektin aloittamista tuntuu hitaalta. Mutta se on nopeampaa kuin rakentaa järjestelmä huonolle datalle ja ihmetellä miksi tulokset ovat outo.

Kymen.ai auttaa asiakkaitaan usein juuri tässä vaiheessa – katsomme yhdessä mitä dataa on, missä kunnossa se on ja mitä pitää tehdä ennen kuin kannattaa rakentaa mitään. Se tunti tai kaksi säästää helposti viikkoja myöhemmin.

Tekoäly on niin hyvä kuin sen data

Tekoäly on niin hyvä kuin sen data

Enemmän ei tarkoita parempaa

Mitä laadukas data tarkoittaa käytännössä

Mitä tehdä ennen kuin AI-projektia aloitetaan

Pohjatyö maksaa itsensä takaisin

Haluatko lukea lisää?