Tilastollinen merkitsevyys vs. kliininen merkittävyys vs. efektikoko

 


Edellisessä kirjoituksessa kävimme läpi tuoretta ketoruokavaliotutkimusta masennuksen hoidossa. Siinä mainittiin, että ero ryhmien välillä oli tilastollisesti merkitsevä (p=0,05), mutta kliininen merkitys jäi epävarmaksi ja efekti koko oli keskikokoinen. Mitä nämä termit oikein tarkoittavat? Moni fuksi sekoittaa ne helposti toisiinsa – ja se on ihan ymmärrettävää, sillä ne kuulostavat samalta mutta kertovat tyystin eri asioista.

1. Tilastollinen merkitsevyys: ”Tämä ei todennäköisesti ole sattumaa”

Tilastollinen merkitsevyys (statistical significance) vastaa kysymykseen: Onko havaittu ero tai yhteys todennäköisesti oikea ilmiö vai voisiko se olla pelkkää sattumaa?

- Tutkijat testaavat pääsääntöisesti nollahypoteesia eli oletusta, että mitään eroa ei ole (esim. ”uusi lääke ei auta yhtään enempää kuin plasebo eli lumelääke”).

- Jos data näyttää eroa, lasketaan p-arvo (probability-arvo). Se kertoo, kuinka todennäköistä olisi saada näin iso (tai isompi) ero pelkällä sattumalla, jos nollahypoteesi olisi tosi.

- Yleinen raja on p<0,05 → alle 5 % todennäköisyys sattumalle → tulos katsotaan tilastollisesti merkitseväksi.

HUOM. Isolla otoskoolla suoritettu tutkimus voi tehdä pienestäkin erosta tilastollisesti merkitsevän. Pieni ero voi olla ”todellinen”, mutta silti täysin yhdentekevä käytännössä.

2. Efektikoko: ”Kuinka iso ero oikeasti on?

Efektikoko (effect size) kertoo vaikutuksen voimakkuuden eli kuinka iso ero tai yhteys on.

- Se ei riipu otoskoko, vaan mittaa itse ilmiön kokoa.

- Yleinen mittari esim. ryhmien vertailussa on Cohenin d: se kertoo, kuinka monta keskihajontaa (standardipoikkeamaa) ryhmien keskiarvojen ero on.

  - d ≈ 0,2 = pieni efekti (tuskin huomaa)

  - d ≈ 0,5 = keskikokoinen (selvä ero, muttei jättimäinen)

  - d ≈ 0,8 = iso efekti (lähes kristallinkirkas ero)

Esimerkki: Kaksi ryhmää opiskelee tenttiin. Toinen saa keskiarvon 7,5 ja toinen 8,0 (asteikolla 4–10). Jos hajonta on pieni, ero voi olla tilastollisesti merkitsevä – mutta efektikoko on pieni, sillä 0,5 pistettä tuskin muuttaa kenenkään elämää.

Efektikoko vastaa kysymykseen: Kuinka paljon tämä asia oikeasti vaikuttaa? Se on usein paljon tärkeämpi kuin pelkkä p-arvo.

3. Kliininen tai käytännön merkittävyys: ”Merkitseekö tämä mitään oikeassa elämässä?”

Kliininen tai käytännön merkittävyys (clinical/practical significance) menee vielä askelta pidemmälle: Onko ero niin iso, että se oikeasti hyödyttää ihmisiä tai muuttaa käytäntöjä?

- Tilastollisesti merkitsevä tulos voi olla kliinisesti täysin yhdentekevä (esim. verenpaine laskee 1 mmHg – ok tilastoissa, mutta potilas ei huomaa mitään).

- Toisaalta iso efekti voi olla kliinisesti tärkeä silloinkin, jos se ei ihan ylitä p<0,05-rajaa (esim. pieni otos, mutta selkeä hyöty potilaille).

Esimerkki masennustutkimuksesta: Ketoryhmän masennusoireet laskivat keskimäärin 10,5 pistettä, vertailuryhmällä 8,3. Ero oli tilastollisesti juuri ja juuri merkitsevä (p=0,05), efekti koko keskikokoinen (d ≈ 0,68). Mutta tutkijat totesivat, että kliininen merkitys jäi epävarmaksi – ero oli melko pieni eikä näkynyt muissa mittareissa (esim. elämänlaatu, ahdistus). Eli vaikka p-arvo sanoi ”ei sattumaa”, moni potilas ei välttämättä koe riittävää eroa arjessaan.

Yhteenveto – ota aina huomioon kaikki kolme

- Tilastollinen merkitsevyys → Onko tämä todennäköisesti todellinen tulos? (p-arvo)

- Efektikoko → Kuinka iso ero on? (Cohenin d)

- Kliininen/käytännön merkittävyys → Kannattaako tätä käyttää oikeassa elämässä?

Seuraavalla kerralla kun luet tutkimusartikkelia, katso ensin efektikoko ja mieti kliinistä tai käytännön merkitystä – p-arvo on vain portinvartija, ei koko tarina.

Anssi H. Manninen (aka ”Kant II”)


Kommentit

Tämän blogin suosituimmat tekstit

Ozempic oikeustaisteluissa: Miljardien dollarien korvausvaateet vatsahalvausten ja näönmenetysten vuoksi

Ketogeeninen ruokavalio ja sydän: Kritiikkiä tulosten raportoinnista

Valheenpaljastuksen tapaustutkimus nro 1: Jari Sillanpään anteeksipyyntö syynissä