Tilastollinen merkittävyys?? Apua kaivataan.

Timo Virkki

unread,

Feb 15, 2003, 11:31:57 AM2/15/03

to

Eli tilanne on tämä. Minun pitäisi analysoida erästä tutkimusta ja
tulosten yhteydessä on sarake "Significance".

Eli voisiko joku selittää selkeästi mitä tämä tilastollinen
merkittävyys oikein tarkoittaa?

Isompi luku parempi, merkittävämpi vai???

kiitokset etukäteen,

-Timo

Jukka K. Korpela

unread,

Feb 16, 2003, 1:21:18 AM2/16/03

to

virkk...@hotmail.com (Timo Virkki) wrote:

> Eli tilanne on tämä. Minun pitäisi analysoida erästä tutkimusta ja
> tulosten yhteydessä on sarake "Significance".

Suomen kielessä käytetty termi on "merkitsevyys".

> Eli voisiko joku selittää selkeästi mitä tämä tilastollinen
> merkittävyys oikein tarkoittaa?

Tilastollinen merkitsevyys on lyhyesti sanottuna sitä, että on
todennäköistä, että otannalla saatu tulos on yleistettävissä koko
perusjoukkoa koskevaksi. Ks. tarkemmin esim.
http://www.uiah.fi/projects/metodi/088.htm

> Isompi luku parempi, merkittävämpi vai???

Merkittävyys on kokonaan toinen juttu. Merkitsevyydessä isompi luku
tarkoittaa suurempaa todennäköisyyttä sille, että mitatut ja lasketut
tulokset eivät koske vain sitä osajoukkoa, joka sattui päätymään
otokseen, vaan myös koko sitä perusjoukkoa, josta otanta tehtiin.

Jos esimerkiksi otetaan otos Suomen äänioikeutetusta väestöstä ja
kysytään äänestysaikomuksia ja saadaan tulos, jonka mukaan kaikki
äänestävät demareita, niin ennen päätelmien tekoa kannattaa kysyä muun
muassa sitä, onko tulos tilastollisesti merkitsevä. Jos otoskoko oli
esimerkiksi kolme, niin merkitsevyys on aika pieni. Tämä heijastaa
sitä, että on hyvin mahdollista, että mukaan vain _sattui_ tulemaan
pelkästään demareita äänestäviä.

--
Yucca, http://www.cs.tut.fi/~jkorpela/indexfi.html
Juttuja matematiikasta ja fysiikasta:
http://www.cs.tut.fi/~jkorpela/matikka/

Jori Mantysalo

unread,

Feb 16, 2003, 11:39:55 PM2/16/03

to

Jukka K. Korpela <jkor...@cs.tut.fi> kirjoitti:

> Tilastollinen merkitsevyys on lyhyesti sanottuna sitä, että on
> todennäköistä, että otannalla saatu tulos on yleistettävissä koko
> perusjoukkoa koskevaksi.

Tämä lause jotenkin tökkii vastaan. Se, mitä minä olen ymmärtänyt
tilastollisella merkitsevyydellä on "vain matemaattinen" käsite, ja
järkevien tulosten välttämätön mutta ei riittävä ehto. Tutkimus voi
mennä pieleen ellei varmisteta tilastollista merkittävyyttä, esim.
päätellään liian pienestä otoksesta, mutta myös vaikka vääristyneestä
otannasta.

> Jos esimerkiksi otetaan otos Suomen äänioikeutetusta väestöstä ja
> kysytään äänestysaikomuksia ja saadaan tulos, jonka mukaan kaikki
> äänestävät demareita, niin ennen päätelmien tekoa kannattaa kysyä muun
> muassa sitä, onko tulos tilastollisesti merkitsevä. Jos otoskoko oli
> esimerkiksi kolme, niin merkitsevyys on aika pieni.

Eli tätä esimerkkiä jatkaakseni, jos kysytään Keskustan kannatusta ja
otoskoko on tuhat mutta kaikki ovat helsinkiläisiä, tulokset vääristyvät
eri tavalla.

Voi olla, että tarkoititkin tätä, mutta minusta se ei tullut kovin
selvästi ilmi.

--
- "Ei vaimo saa erota, se on heitteillejättö. Ei mies osaa pestä pyykkiä ja
tehdä ruokaa."
- "Osasit sinäkin Nekalassa asuessasi. Tosin kyllä olit laihempi ja haisit
pahalle" -- Vaimo

Jukka K. Korpela

unread,

Feb 18, 2003, 7:31:38 AM2/18/03

to

Jori Mantysalo <jm5...@uta.fi> wrote:

> Jukka K. Korpela <jkor...@cs.tut.fi> kirjoitti:
>
>> Tilastollinen merkitsevyys on lyhyesti sanottuna sitä, että on
>> todennäköistä, että otannalla saatu tulos on yleistettävissä koko
>> perusjoukkoa koskevaksi.
>
> Tämä lause jotenkin tökkii vastaan. Se, mitä minä olen ymmärtänyt
> tilastollisella merkitsevyydellä on "vain matemaattinen" käsite, ja
> järkevien tulosten välttämätön mutta ei riittävä ehto.

Itse asiassa se ei ole välttämätönkään ehto. On täysin mahdollista,
että otantamenetelmällä saatu tulos vastaa perusjoukon jakaumaa, vaikka
tilastollinen merkitsevyys on olematon.

Merkitsevyys on _todennäköisyyskäsite_. Jos esimerkiksi otetaan
miljoonan yksilön populaatiosta satunnaisotannalla 10 000:n yksilön
otos ja vielä kaikki saadaan tutkituiksi, on tilastollinen merkitsevyys
hyvin suuri. Käytännössä voidaan pitää varmana, että tulosten jakauma
on hyvin lähellä perusjoukon jakaumaa, siis sitä, mitä saataisiin
tutkimalla koko miljoona. Matemaattisesti kyse on kuitenkin vain
todennäköisyydestä, joka on erittäin lähellä yhtä. On loogisesti
mahdollista, että koko populaatiosta tasan 10 000 kannattaa XYZ-
puoluetta ja että juuri he sattuvat päätymään otokseen. Kyse ei ole
satunnaisotannasta, ellei se ole mahdollista! Mutta todennäköisyys
sille, että niin tapahtuisi, on naurettavan pieni.

Seppo Pitkänen

unread,

Feb 28, 2003, 7:50:27 PM2/28/03

to

Vähän tuntuu kuin puurot vellit olisivat menemässä hieman sekaisin,
vaikka oikeista asioista puhutaankin, eivätkä Jukka K. ja Jori väärässä
mitenkään sinänsä ole. Koetan vähän selkeyttää (?). Ehkä selkeintä
olisi lähteä siitä, että on määritetty perusjoukko, josta on otettu
_satunnaisotos_, jonka antamat tulokset halutaan yleistää koko
perusjoukkoa koskeviksi. Tutkija tekee (vaikkapa implisiittisesti) ns.
nollahypoteesin, joka tilastollisessa päättelyssä aina väittää, ettei
eroa tai riippuvuutta ole.; vaihtoehtoinen hypoteesi päinvastaista.
Merkitsevyystaso (level of significance, sing, alpha, p, jne.) on
todennäköisyys hyväksyä väärä vaihtoehtoinen hypoteesi, ts. päätellä,
että ero tai riippuvuus on olemassa, kun sitä perusjoukossa ei ole. Tämä
lienee kysymyksen esittäjän intresseissä lähinnä.

Oleellista tässä on otoksen satunnaisuus, joka tarkoittaa sitä, että
jokaisella perusjoukon alkiolla (tuotteella, laaduntarkastuskappaleella
sarjatuotannossa, jne.) on sama todennäköisyys tulla valituksi otokseen.
ja jokaisella mahdollisella otoksella on yhtä suuri todennäköisyys tulla
tutkituksi. Jos halutaan ns. edustava 1000 henkilön otos suomalaisista,
on täysin mahdollista, että otos tavallisella satunnaisotannalla koko
Suomen väestörekisteristä koostuu pelkistä helsinkiläisistä,
mielisairaista tai vaikkapa vasenkätisistä.

Tällaisen otoksen saaminen on kyllä hyvin harvinaista, ja hallittavissa.
Oikeastaan merkitsevyystestaus palautuu juuri tuohon ns.
otantasattumaan. Siis todennäköisyyteen,onko kohdalle osunut sellainen
otos, että tulokset sen perusteella voidaan yleistää perusjoukkoon.
Satunnaisotannan määritelmän täyttäviä otantatapoja on paljonkin, eräs
parhaista juuri ositettu otanta.

Klassinen tilastollinen testaus perustuu usein olettamukseen, että
tutkittava ilmiö/muuttuja noudattaa perusjoukossa normaalijakaumaa, ns.
Gaussin kellokäyrää. Näinhän ei tosi elämässä läheskään aina satu, eikä
kaikkia ilmiöitä voida edes mitata kuin jollain tavalla laadulliseti.
Vaihtoehtona ovat kombinatoriikkaan perustuvat ns. ei-parametriset
testit (joista osalla on yhteys myös normaalijakaumaan). Oikeastaan
niiden tuloksia monelta osin ei voida yleistää perusjoukkoon
"teoriassa"; ne ovat vain otosta kuvaavia. Mutta käytännössä usein
paljon luotettavampia - jos otos on satunnaisotos.

Kaikki testit kuitenkin osoittavat tulokset nollahypoteesin
hylkäämisestä sitä epävarmmemmiksi, mitä heterogeenisempi otos on , ja
mitä pienempi on otoskoko.

En käsitä, että tulokset voisivat olla vääriä, jos otoksessa
"sattumalta" jakaumat ovat samat kuin perusjoukossa. Juuri muuttujien
jakaumien samanlaisuushan on edustavan otoksen keskinen ominaisuus.
Millä ihmeen tavalla tulokset olisivat tällöin otoksessa ei-merkitseviä
ja perusjoukossa merkitseviä? Tai päinvastoin? Päätelmäthän tehdään
juuri jakaumien tunnuslukujen perusteella.

Pieni otoskoko ei testauksessa testin luotettavuuden kannalta siis
sinänsä varsinainen ongelma. "Sokea Reettakin" ymmärtää, että mitä
vähemmän tapauksia, sitä huonompi yleistettävyys.

Onnetonta sinänsä, että ei ole teoriaa, josta, josta voitaisiin päätellä
etukäteen tarvittava otoskoko tietynsuuruiselle perusjoukolle
(jälkikäteen kyllä: Bayes´laisessa otannassa ja Waldin
sekvenssiotantannassa otoskokoa lisätään, kunnes tulokset eivät enää
merkitsevästi muutu). Mutta testeissä tämä tulee automaattisesti
otetuksi huomioon. Pienessä otoksessa eron tai riippuvuuden täytyy olla
todella suuri, ennen kuin testi osoittaa, että nollahypoteesi voidaan
hylätä, siis väittää, että ero tai riippuvuus on suuri, ettei sitä voida
laskea onnettoman otantasattuman (= merkitsevyystaso) tiliin.

Kysyjä tiedusteli, onko suuri vai pieni sign "hyvä". Yleensä pieni,
omaksutussa käytännössä alle 0.05, jos halutaan eron tai riippuvuuden
olevan olemassa perusjoukossa yli 95 %:n varmuudella, ts. hylätä
nollahypoteesi tällä riskillä. maksuttu normi on siis aika ankara:
mihinkään eroon tai riippuvuuten ei uskota, ellei olla vähintään noin
varmoja.

Suuri on parempi, jos halutaan nollahypoteesin jäävän voimaan. Vaikkapa
testatattaessa, noudattavatko muuttujat normaalijakaumaa jatkoanalyysia
varten.

Sitä paitsi, merkittävä tulos voi olla sellainenkin, joka asettaa
yleiset uskomukset tai viralliset totuudet kysenalaisiksi vastoin
ilmiselviä" olettamuksia: odottamaton nollahypoteesi
jää voimaan tai kumotaan.
S.P.

P.S. Mielenkiintoinen filosofisluontoinen kysymys on, onko
kokonaistutkimuksessa (siis tutkitaan kaikki perusjoukon alkiot) mieltä
tehdä testausta? Tällöinhän tulokset ovat todellisia perusjoukkoa
koskevia, eivätkä mahdollisen otantasattuman aiheuttamia. Tällöin
testaus on joko turhaa tai sille täytyy jokuu muu tulkinta kuin
otostuloksen yleistämistodennäköisyys perusjoukkoon.

p.s.s. Jori,välttämättömien ja riittävien kausaliteteettiedellytysten
stokastinen (vs. deterministinen) tulkinta on minulle kyllä aika hämärää
(ellei tarkoitata triviaaliehtoja, että syy on ennen seurausta ja
muuttujien yhteisvaihtelu ei ole näennäistä, molempiin vaikuttavan
taustamuuttujan aiheuttamaa). Mehr Lihct?!

Jori Mantysalo

unread,

Mar 3, 2003, 5:09:55 AM3/3/03

to

Seppo Pitkänen <sp...@sci.fi> kirjoitti:

> p.s.s. Jori,välttämättömien ja riittävien kausaliteteettiedellytysten
> stokastinen (vs. deterministinen) tulkinta on minulle kyllä aika hämärää

En ilmaissut kai itseäni kovin selvästi. Tarkoitin vain sanoa, että
maalaisjärjelläkin on selvää, että tutkimus voi mennä pieleen kahdella
eri tavalla: 1. otos on liian pieni tai 2. otos on jotenkin vino.
Alkuperäinen kysyjä halusi tietää mitä tilastollinen merkittävyys
tarkoittaa, ja minä olen ymmärtänyt sen viittaavan vain tuohon otoskokoon.

Äh, eikun... jos sanotaan että tulos ei ole tilastollisesti merkittävä,
niin tulosta ei voi pitää luotettavana. Jos tulos on tilastollisesti
merkittävä, niin se voi silti olla pielessä. Siis välttämätön ehto sille,
että voin uskoa jonkin tilastojen nojalla tehdyn tuloksen pitävän paikkansa,
on se että tulos on tilastollisesti merkitsevä. Se ei kuitenkaan ole
riittävä ehto.

Ymmärtääkö joku ryhmässä mitä yritän sanoa?

Jussi Piitulainen

unread,

Mar 3, 2003, 7:10:14 AM3/3/03

to

Jori Mantysalo writes:

> En ilmaissut kai itseäni kovin selvästi. Tarkoitin vain sanoa, että
> maalaisjärjelläkin on selvää, että tutkimus voi mennä pieleen
> kahdella eri tavalla: 1. otos on liian pieni tai 2. otos on jotenkin
> vino. Alkuperäinen kysyjä halusi tietää mitä tilastollinen
> merkittävyys tarkoittaa, ja minä olen ymmärtänyt sen viittaavan vain
> tuohon otoskokoon.

Käsittääkseni termi on "merkitsevä", e. significance.

Tilastollinen testisuure lasketaan yleensä olettaen, että jokin
nollahypoteesi pätee. Testit suunnitellaan niin, että vähintään yhtä
äärimmäisen tuloksen todennäköisyys p osataan laskea - yhä olettaen,
että nollahypoteesi pätee. Jos p on pieni, on saatu tilastollinen
perustelu nollahypoteesin hylkäämiselle merkitsevyystasolla p.

Testisuureessa otetaan huomioon, että pienissä otoksissa sen arvo
vaihtelee paljon enemmän kuin suurissa. Siksi liian pieni otoskoko
heijastuu suurina p-arvoina: nollahypoteesin hylkäämiselle ei saada
perusteita. Toisaalta suuri otoskoko voi heijastua pieninä p-arvoina
silloinkin, kun populaatio eroaa nollahypoteesin mukaisesta vain
vähän: tulos on kyllä tosi mutta ei kovin mielenkiintoinen.

Monissa testeissä tehdään lisäksi yksinkertaistavia oletuksia, jotka
pätevät esimerkiksi vain, kun otos on tarpeeksi suuri. Testin käyttö
tilanteessa, jossa sen käyttöehdot eivät ole voimassa, on testin
väärinkäyttöä.

Satunnaisotantaan perustuvan testin käyttö silloin, kun otos ei ole
satunnaisotos, on myös väärinkäyttöä. On hämmentävää nähdä, että tätä
tehdään ilman, että edes yritetään perustella, miksi otos jotenkin
kuitenkin on ikään kuin satunnainen.

Jos ollaan valmiita hylkäämään nollahypoteesi jollain merkitsevyyden
tasolla, jota ei sitten kuitenkaan saavuteta, niin testin toistaminen
tarpeeksi monta kertaa saattaa auttaa: sattumalta saadaankin lopulta
tulos, joka nollahypoteesin vallitessa saadaan todennäköisyydellä p.
Tämäkin on testin väärinkäyttöä, mutta tapahtuu, kun riittävän moni
tutkija tekee saman testin ja ainoastaan positiivinen tulos ylittää
julkaisukynnyksen.

> Äh, eikun... jos sanotaan että tulos ei ole tilastollisesti
> merkittävä, niin tulosta ei voi pitää luotettavana.

Jos tulos ei ole tilastollisesti merkitsevä, niin nollahypoteesi jää
voimaan. Jos sanotaan, että tulos on merkitsevä p-arvolla sejase, niin
nollahypoteesi voidaan hylätä sitä luotettavammin, mitä pienempi
sejase on. Ne p-arvot ilmoitetaan nimenomaan siksi, että lukija voi
itse päättää, riittääkö merkitsevyystaso.

Kuvaamasi tilanne olisi lähinnä sellainen, jossa sanotaan, että
nollahypoteesin hylkäämiselle ei ole perusteita, mutta se hylätään
silti. Toisaalta, jos tarkoitat, että testillä perustellaankin
nollahypoteesin hyväksymistä, koska sitä ei voitu hylätä, niin olet
oikeassa. Testisuure perustui nollahypoteesiin, eikä sitä ole
suunniteltu osoittamaan sen paikkansapitävyyttä.

> Jos tulos on tilastollisesti merkittävä, niin se voi silti olla

> pielessä. [...]

Kyllä. Nollahypoteesin hylkääminen merkitsevyystasolla p, kun testiä
on muuten käytetty asianmukaisesti, merkitsee, että hyväksytään riski
erehtyä todennäköisyydellä p.

(Moore and McCabe: To help distinguish these two types of error, we
give them specific names ... Type I error ... Type II error.)
--
Jussi

Sampo Smolander

unread,

Mar 3, 2003, 8:44:29 AM3/3/03

to

Jussi Piitulainen <jpii...@ling.helsinki.fi> wrote:
> (Moore and McCabe: To help distinguish these two types of error, we
> give them specific names ... Type I error ... Type II error.)

Ei ole kyllä minulle selvinnyt, miten nuo mitäänsanomattomat nimet
muka auttaisivat asiaa. Ei sitä koskaan muista kumpi on kumpi...

(Hyvää muistisääntöä kellään?)

Jukka K. Korpela

unread,

Mar 4, 2003, 2:42:17 PM3/4/03

to

Seppo Pitkänen <sp...@sci.fi> wrote:

> Koetan vähän selkeyttää (?). Ehkä selkeintä
> olisi lähteä siitä, että on määritetty perusjoukko,

P.o. määritelty. Määrittelemisen (määritelmän esittämisen) ja määrittämisen
(selville ottamisen) ero on tässä olennainen.

> josta on otettu
> _satunnaisotos_, jonka antamat tulokset halutaan yleistää koko
> perusjoukkoa koskeviksi.

Aivan, sehän juuri on otannan asetelma.

> Tutkija tekee (vaikkapa implisiittisesti) ns.
> nollahypoteesin, joka tilastollisessa päättelyssä aina väittää, ettei
> eroa tai riippuvuutta ole.;

Tämä on yksi erikoistapaus. Ei otantatutkimuksessa välttämättä ole kyse
mistään sellaisesta. Hyvä esimerkki on otantaan perustuva selvitys
puolueiden kannatuksesta. Siinä saadaan tuloksia, joiden tulosten lasketaan
kuvaavan kannatusta koko väestön keskuudessa jollakin tarkkuudella.
Tiedotusvälineissä tarkkuus tyypillisesti unohdetaan - tehdään uutisia ja
päätelmiä muutoksista, jotka ovat otantavirheen luokkaa tai pienempiä eli
voivat hyvin johtua vain siitä, että tänä vuonna sattuma sai jonkin
puolueen kannattajia otokseen enemmän kuin viime vuonna. Eri asia sitten
on, että otannan luonteen ymmärtävätkin helposti unohtavat, että
otantavirhe on vain yksi virhelähde, kun tuloksista tehdään päätelmiä sen
suhteen, mikä eri puolueiden todellinen kannatus on.
(Mutta se ei enää ole matematiikkaa oikein miltään kannalta.)

> Oleellista tässä on otoksen satunnaisuus, joka tarkoittaa sitä, että
> jokaisella perusjoukon alkiolla (tuotteella, laaduntarkastuskappaleella
> sarjatuotannossa, jne.) on sama todennäköisyys tulla valituksi otokseen.

Tasaisessa otannassa kyllä. Mutta yleisemmin on olennaista, että
todennäköisyydet ovat _tunnettuja_. Ositettuun otantaan kyllä viittaatkin
myöhemmin.

> Pieni otoskoko ei testauksessa testin luotettavuuden kannalta siis
> sinänsä varsinainen ongelma. "Sokea Reettakin" ymmärtää, että mitä
> vähemmän tapauksia, sitä huonompi yleistettävyys.

En tunne sokeaa Reettaa, mutta en usko, että tuo seikka on yleisesti
tunnettu. Lisäksi se ei pidä yleisesti ottaen paikkaansa. Jos tehdään
esimerkiksi otantakysely, perusjoukkona Suomen väestö ja otoskokona 1000,
tulokset ovat aivan varmasti paljon yleistettävämpiä kuin veppisivulla
olevan kyselyn tulokset, joissa on 100 000 vastausta.

Otoskoon pienuus on sikäli ongelma, että otoskoon pienentäminen kasvattaa
otantavirhettä. (Kun mennään tarpeeksi pieneen otoskokoon, otantavirhe
kasvaa niin suureksi, että koko tutkimuksessa ei ole mieltä. Mutta siitä on
harvoin kyse. Toisaalta ei olisi yleensä kovin kiinnostavaa tietää, että
suomalaisista 20 ± 10 % kannattaa X-puoluetta. Tutkittaessa maata, jossa
juuri on sallittu puolueenmuodostus eikä vaaleja vielä ole ollut tai
mielipidetutkimuksia järjestetty, sellainenkin tulos olisi parempi kuin ei
mitään tietoa.)

Jussi Piitulainen

unread,

Mar 5, 2003, 7:21:57 AM3/5/03

to

Sampo Smolander writes:

> Jussi Piitulainen wrote:
>> (Moore and McCabe: To help distinguish these two types of error, we
>> give them specific names ... Type I error ... Type II error.)
>
> Ei ole kyllä minulle selvinnyt, miten nuo mitäänsanomattomat nimet
> muka auttaisivat asiaa. Ei sitä koskaan muista kumpi on kumpi...

Tismalleen niin. Olen nähnyt jossain sellaiset kuin hyväksymisvirhe ja
hylkäämisvirhe (acceptance error ja rejection error, kai).
Hyväksymisvirhe lienee se, että nollahypoteesi jää voimaan vaikka
vaihtoehtoinen hypoteesi olisi kuvannut populaatiota paremmmin.

> (Hyvää muistisääntöä kellään?)

Ei liene.
--
Jussi