Tilastollinen merkitsevyys vs. kliininen merkittävyys vs. efektikoko
Edellisessä kirjoituksessa kävimme läpi tuoretta ketoruokavaliotutkimusta masennuksen hoidossa. Siinä mainittiin, että ero ryhmien välillä oli tilastollisesti merkitsevä (p=0,05), mutta kliininen merkitys jäi epävarmaksi ja efekti koko oli keskikokoinen. Mitä nämä termit oikein tarkoittavat? Moni fuksi sekoittaa ne helposti toisiinsa – ja se on ihan ymmärrettävää, sillä ne kuulostavat samalta mutta kertovat tyystin eri asioista.
1. Tilastollinen merkitsevyys: ”Tämä ei todennäköisesti ole sattumaa”
Tilastollinen merkitsevyys (statistical significance) vastaa kysymykseen: Onko havaittu ero tai yhteys todennäköisesti oikea ilmiö vai voisiko se olla pelkkää sattumaa?
- Tutkijat testaavat pääsääntöisesti nollahypoteesia eli oletusta, että mitään eroa ei ole (esim. ”uusi lääke ei auta yhtään enempää kuin plasebo eli lumelääke”).
- Jos data näyttää eroa, lasketaan p-arvo (probability-arvo). Se kertoo, kuinka todennäköistä olisi saada näin iso (tai isompi) ero pelkällä sattumalla, jos nollahypoteesi olisi tosi.
- Yleinen raja on p<0,05 → alle 5 % todennäköisyys sattumalle → tulos katsotaan tilastollisesti merkitseväksi.
HUOM. Isolla otoskoolla suoritettu tutkimus voi tehdä pienestäkin erosta tilastollisesti merkitsevän. Pieni ero voi olla ”todellinen”, mutta silti täysin yhdentekevä käytännössä.
2. Efektikoko: ”Kuinka iso ero oikeasti on?
Efektikoko (effect size) kertoo vaikutuksen voimakkuuden eli kuinka iso ero tai yhteys on.
- Se ei riipu otoskoko, vaan mittaa itse ilmiön kokoa.
- Yleinen mittari esim. ryhmien vertailussa on Cohenin d: se kertoo, kuinka monta keskihajontaa (standardipoikkeamaa) ryhmien keskiarvojen ero on.
- d ≈ 0,2 = pieni efekti (tuskin huomaa)
- d ≈ 0,5 = keskikokoinen (selvä ero, muttei jättimäinen)
- d ≈ 0,8 = iso efekti (lähes kristallinkirkas ero)
Esimerkki: Kaksi ryhmää opiskelee tenttiin. Toinen saa keskiarvon 7,5 ja toinen 8,0 (asteikolla 4–10). Jos hajonta on pieni, ero voi olla tilastollisesti merkitsevä – mutta efektikoko on pieni, sillä 0,5 pistettä tuskin muuttaa kenenkään elämää.
Efektikoko vastaa kysymykseen: Kuinka paljon tämä asia oikeasti vaikuttaa? Se on usein paljon tärkeämpi kuin pelkkä p-arvo.
3. Kliininen tai käytännön merkittävyys: ”Merkitseekö tämä mitään oikeassa elämässä?”
Kliininen tai käytännön merkittävyys (clinical/practical significance) menee vielä askelta pidemmälle: Onko ero niin iso, että se oikeasti hyödyttää ihmisiä tai muuttaa käytäntöjä?
- Tilastollisesti merkitsevä tulos voi olla kliinisesti täysin yhdentekevä (esim. verenpaine laskee 1 mmHg – ok tilastoissa, mutta potilas ei huomaa mitään).
- Toisaalta iso efekti voi olla kliinisesti tärkeä silloinkin, jos se ei ihan ylitä p<0,05-rajaa (esim. pieni otos, mutta selkeä hyöty potilaille).
Esimerkki masennustutkimuksesta: Ketoryhmän masennusoireet laskivat keskimäärin 10,5 pistettä, vertailuryhmällä 8,3. Ero oli tilastollisesti juuri ja juuri merkitsevä (p=0,05), efekti koko keskikokoinen (d ≈ 0,68). Mutta tutkijat totesivat, että kliininen merkitys jäi epävarmaksi – ero oli melko pieni eikä näkynyt muissa mittareissa (esim. elämänlaatu, ahdistus). Eli vaikka p-arvo sanoi ”ei sattumaa”, moni potilas ei välttämättä koe riittävää eroa arjessaan.
Yhteenveto – ota aina huomioon kaikki kolme
- Tilastollinen merkitsevyys → Onko tämä todennäköisesti todellinen tulos? (p-arvo)
- Efektikoko → Kuinka iso ero on? (Cohenin d)
- Kliininen/käytännön merkittävyys → Kannattaako tätä käyttää oikeassa elämässä?
Seuraavalla kerralla kun luet tutkimusartikkelia, katso ensin efektikoko ja mieti kliinistä tai käytännön merkitystä – p-arvo on vain portinvartija, ei koko tarina.
Anssi H. Manninen (aka ”Kant II”)

Kommentit
Lähetä kommentti