P-arvon ja Cohenin d:n filosofia: Matemaattisesta totuudesta tulkinnan mielivaltaan

 


Edellisessä kirjoituksessani pureuduimme siihen, miten tilastollinen merkitsevyys, efektikoko ja kliininen merkitys eroavat toisistaan. Se oli käytännönläheinen opas fukseille, mutta nyt mennään syvemmälle: filosofiseen pohdintaan näistä käsitteistä. Keskitymme erityisesti p-arvoon ja Cohenin d:hen, mutta sama logiikka pätee kaikkiin vastaaviin kategorisoiviin käsitteisiin – kuten diagnostisiin määritelmiin (esim. "masennusdiagnoosi yli 15 pisteen PHQ-9:ssa") tai laboratorion viitearvoihin (esim. "verenpaine yli 140/90 mmHg on kohonnut"). Nämä eivät ole pelkkiä numeroita; ne paljastavat, miten tiede sekoittaa puhtaan matematiikan inhimilliseen tulkintaan.

Lyhyt kertaus: Mitä p-arvo ja Cohenin d oikein ovat?

p-arvo on tilastollinen todennäköisyys, joka kertoo, kuinka todennäköisesti havaittu tulos (esim. ryhmien välinen ero) olisi pelkän sattuman ansiota, jos nollahypoteesi ("ei eroa") pitäisi paikkansa. Yleinen kynnys on p < 0,05: sen alittava tulos katsotaan "tilastollisesti merkitseväksi".

Cohenin d mittaa efektikokoa eli vaikutuksen voimakkuutta. Kaava on yksinkertainen: d = (keskiarvo1 − keskiarvo2) / SD (missä SD on yhdistetty eli poolattu keskihajonta – kahden tai useamman ryhmän varianssien perusteella laskettu yhteinen hajonta-arvio). Cohen ehdotti suuntaa antavia kategorioita: pieni (≈ 0,2), keskikokoinen (≈ 0,5) ja iso (≈ 0,8). Nämä auttavat arvioimaan, kuinka "iso" ero on suhteessa datan luonnolliseen vaihteluun.

Molemmat ovat puhdasta matematiikkaa laskennassa – mutta soveltavaa matematiikkaa käytännössä

Sekä p-arvo että Cohenin d ovat puhdasta matematiikkaa itse laskutoimituksessa. Ne ovat deduktiivisia operaatioita: syötä luvut, algoritmi pyörii ja tulos on aina sama – aivan kuten 2 + 2 = 4. Ei mielipiteitä, ei sattumaa, ei tulkintaa laskennassa itsessään. Tämä on tieteen objektiivinen ydin.

Kuitenkin molemmat kuuluvat soveltavaan matematiikkaan, jossa empiirinen komponentti on aina läsnä. Data, josta luvut lasketaan, tulee reaalimaailmasta: kokeista, mittauksista, kyselyistä. Tämä tuo mukanaan epävarmuutta, mittausvirheitä, kohinaa ja tilastollisia oletuksia (normaalijakauma, riippumattomuus, homoskedastisuus jne.).

- p-arvossa empiirinen luonne näkyy siinä, että se on induktiivinen: se yleistää näytteestä populaatioon perustuen havaittuun dataan. Jos data on vinoutunutta tai oletukset eivät päde, p-arvo voi olla harhaanjohtava – vaikka itse laskutoimitus on matemaattisesti virheetön.

- Cohenin d:ssä empiirinen komponentti on keskihajonnassa (SD) ja keskiarvoissa: ne kuvaavat todellisen maailman vaihtelua, eivät abstraktia ideaa.

Yhteenvetona: laskutoimitus on puhdasta matematiikkaa (deduktiivista, tuottaa välttämättömiä totuuksia), mutta soveltavassa kontekstissa data on empiiristä, mikä tekee tuloksista käytännöllisiä mutta myös alttiita virheille ja tulkintaeroille.

Matematiikasta filosofiaan: Kun numerot kohtaavat reaalimaailman

Kun numerot ovat valmiit – esim. p = 0,042 tai d = 0,68 – astumme ulos puhtaan matematiikan maailmasta. Nyt kysymme: Mitä tämä tarkoittaa? Onko p < 0,05 "merkitsevä"? Onko d = 0,5 "keskikokoinen"? Tässä loikkaamme filosofian kentälle.

Perinteisen tieteenfilosofisen näkemyksen mukaan tiede kuvaa, miten maailma toimii, mutta ei voi määrätä, miten sen pitäisi toimia. p-arvo kertoo vain todennäköisyydestä datan valossa, ei siitä, mikä on "tärkeää". Cohenin d kuvaa eron suuruutta, mutta ei sanele, milloin se on "riittävän iso". Nämä rajat ovat inhimillisiä konstruktioita, eivät luonnonlakeja.

Mielivaltaiset rajat ja kontekstuaalinen merkitys

p-arvon raja 0,05 on peräisin Ronald Fisheriltä 1920-luvulta (alun perin maatalouskokeisiin). Fisher korosti, että se on joustava ohje, ei absoluuttinen sääntö. Silti siitä tuli lähes universaali konsensus – yksinkertaisuuden, opetettavuuden ja julkaisupaineen vuoksi. Raja on pohjimmiltaan mielivaltainen: miksei 0,01 tai 0,10? Se heijastaa konventionalismia: tiede perustuu sopimuksiin.

Cohenin d:n kategoriat ovat yhtä lailla mielivaltaisia. Cohen itse totesi, että ne ovat heuristisia ehdotuksia (nyrkkisääntöjä), eivät absoluuttisia totuuksia – ne riippuvat täysin alasta ja ilmiöstä.

Psykologiassa d = 0,2 saattaa olla "pieni" (vaikea havaita arjessa), mutta esimerkiksi farmakologisissa tai fysiologisissa kokeissa d-arvot voivat olla huomattavasti suurempia (jopa d > 3–5), jolloin sama suhteellinen ero vastaa dramaattista, helposti havaittavaa vaikutusta (esim. voimakkaan lääkkeen vaikutus vs. lumelääke tai fysiologiset vasteet ulkosyntyiseen hormoniin). Toisaalta lääketieteessä jopa d ≈ 0,2–0,3 voi olla kliinisesti erittäin merkittävä, jos kyse on harvinaisesta taudista tai eloonjäämisestä.

Tämä korostaa keskeistä pointtia: efektikoon "pieni–keskikokoinen–iso" -luokittelu ei ole universaali, vaan kontekstisidonnainen. Se, mikä on "pieni" yhdellä tieteenalalla, voi olla "valtava" toisessa – ja päinvastoin. (Jos artikkelissa sanotaan vice versa, se tarkoittaa päinvastoin/kääntäen.)

Ekstrapointteja, jotka kannattaa huomioida

- Efektikoko paljastaa enemmän kuin p-arvo yksinään – iso otos voi tehdä mitättömästäkin erosta tilastollisesti merkitsevän (p < 0,05), mutta Cohenin d pysyy samana. Siksi kriittinen lukija katsoo ensin d:tä (ja luottamusvälejä), ei pelkkää p-arvoa.

- Kategorioiden sumeus – Kun Cohenin d leimataan "pieneksi" tai "isoksi", se voi johtaa automaattiseen tulkintaan, vaikka todellinen merkitys riippuu aina ilmiöstä, potilaan tilanteesta ja kustannuksista/riskeistä.

- Vaihtoehtoiset mittarit – Nykyään moni tutkija suosittelee raportoimaan myös muita efektimittareita (esim. risk ratio, odds ratio, number needed to treat, Pearsonin r, eta²), koska ne ovat usein intuitiivisempia kuin standardoitu d.

- Filosofinen kotiläksy – Rajat kuten p = 0,05 tai d = 0,5 eivät ole "luonnon omia" – ne ovat työkaluja päätöksentekoon. Tiede on tässä suhteessa nominalistinen: kategoriat ovat ihmisen keksimiä nimiä jatkuvalle spektrille, eivät ontologisia totuuksia.

Anssi H. Manninen (aka ”Kant II”)


Kommentit

Tämän blogin suosituimmat tekstit

Ozempic oikeustaisteluissa: Miljardien dollarien korvausvaateet vatsahalvausten ja näönmenetysten vuoksi

Ketogeeninen ruokavalio ja sydän: Kritiikkiä tulosten raportoinnista

Valheenpaljastuksen tapaustutkimus nro 1: Jari Sillanpään anteeksipyyntö syynissä