"Garbage in, garbage out" – vanha tietojenkäsittelyn sanonta pätee erityisen hyvin tekoälyyn. Ilman laadukasta dataa parhaimmatkin algoritmit tuottavat heikkoja tuloksia.
Datan laatu vs. määrä
Usein ajatellaan, että tekoäly vaatii valtavia datamääriä. Todellisuudessa pienempikin, mutta laadukas ja hyvin jäsennelty data tuottaa parempia tuloksia kuin sekava massadata.
Mitä hyvä data tarkoittaa?
- **Johdonmukaisuus**: Sama asia kirjataan aina samalla tavalla
- **Kattavuus**: Data edustaa todellisia käyttötilanteita
- **Ajantasaisuus**: Vanhentunut data johtaa vääriin päätelmiin
- **Dokumentointi**: Tiedetään, mistä data tulee ja mitä se tarkoittaa
Käytännön valmistautuminen
Ennen tekoälyprojektia kannattaa: 1. Kartoittaa olemassa olevat datalähteet 2. Arvioida datan laatu ja puutteet 3. Suunnitella datan kerääminen ja ylläpito 4. Varmistaa tietosuoja ja käyttöoikeudet
Autamme asiakkaitamme usein juuri tässä vaiheessa – hyvä pohjatyö maksaa itsensä takaisin projektin edetessä.