Tilastojen tutkiminen on hauskaa ja joskus opettavaistakin. Ensimmäinen reaktio odottamattomaan tilastotietoon on yleensä hämmennys. Sitten tutkitaan muutoksia tai lasketaan eroja tavoitetilaan, vertaillaan ja ihmetellään lisää. Eihän se noin voi olla. Seuraavaksi tulee vähättely. No, ne on vain tilastoja. Niitä tehdään ja vääristellään tarpeen mukaan. Sattuman kauppaa koko juttu. Kuinka niin vääristelty tai sattumaa? Jos mittaus on tehty samalla menetelmällä samasta joukosta, eihän se mittausten välillä vääristy. Ja kun kyse on kokonaismittauksesta eikä satunnaisotannasta ei siinä ole sattumaakaan.



Tilaston luotettavuuden valjettua alkaa varsinainen vääristely, eli tilaston tulkinta. Riippumatta siitä, mitä tilastoissa lukee, selittäjät kyllä keksivät mistä se johtuu. Tilasto ei juuri koskaan ole heille huono, se vain pitää selittää oman linjan mukaisesti. Ja jos kuitenkin näyttää pahalta, keksitään jokin syy tai syyllinen ja sanotaan, että ei tuo nyt niin ihme ollut. Lopuksi kerätään pisteet haukkumalla syylliset tai onnettomat olosuhteet.

Tilastoista voidaan lukea kaikenlaisia asioita, mutta tilasto on vain satunnainen joukko näytteitä, varsinkin jos näytteiden lukumäärä on pieni. Tilastollinen analyysi kertoo enemmän tapahtumista kuin varsinaiset näytteet. Yksinkertaisuuden vuoksi käytetään normaalijakautumaa. Toki tarkemmat analyysit voisivat antaa aihetta käyttää jotain muuta jakautumaa, sillä tarkastelujaksolla kaikissa joukoissa esiintyi näytteitä, jotka olivat normaalipoikkeaman ulkopuolella, mutta ero oli kuitenkin pienempi kuin kaksi kertaa normaalipoikkeama.

Oletuksen perusteella laskettuja tunnuslukuja tanssinetin kirjoittajatilastosta: viimevuoden viisi viimeistä kuukautta verrattuna sitä edellisen vuoden vastaaviin kuukausiin viittaa todelliseen muutokseen (todennäköisyys 99,99%). Loppuvuoden 2007 vertailu alkuvuoteen antaa saman tuloksen.

EDIT: Aikaisemmin tässä vertailussa esitetty pienempi todennäköisyys oli vahingossa verrattu pitkäaikaiseen keskiarvoon. Tätä vertailua ei voida pitää relevanttina, sillä aluksi kirjoittajien määrä oli kasvava, vasta alkuvuodesta 2005 vuoden 2007 kesäkuuhun kirjoittajien määrä on ollut tasainen, keskiarvo 309 ja vaihteluväli 9%.