P-arvon ja Cohenin d:n filosofia: Matemaattisesta totuudesta tulkinnan mielivaltaan

 


Edellisessä kirjoituksessani pureuduimme siihen, miten tilastollinen merkitsevyys, efektikoko ja kliininen merkitys eroavat toisistaan. Se oli käytännönläheinen opas fukseille, mutta nyt mennään syvemmälle: filosofiseen pohdintaan näistä käsitteistä. Keskitymme erityisesti p-arvoon ja Cohenin d:hen, mutta sama logiikka pätee kaikkiin vastaaviin kategorisoiviin käsitteisiin – kuten diagnostisiin määritelmiin (esim. "masennusdiagnoosi yli 15 pisteen PHQ-9:ssa") tai laboratorion viitearvoihin (esim. "verenpaine yli 140/90 mmHg on kohonnut"). Nämä eivät ole pelkkiä numeroita; ne paljastavat, miten tiede sekoittaa puhtaan matematiikan inhimilliseen tulkintaan.

Lyhyt kertaus: Mitä p-arvo ja Cohenin d oikein ovat?

p-arvo on tilastollinen mittari, joka kertoo todennäköisyyden saada havaittu tulos (esim. ryhmien välinen ero) tai vieläkin äärimmäisempi tulos, jos nollahypoteesi ("ei eroa") on totta ja kaikki muut tilastollisen mallin oletukset pitävät paikkansa.

Yleinen kynnysarvo on p < 0,05: jos havaittu p-arvo jää tämän alapuolelle, tulos katsotaan "tilastollisesti merkitseväksi" – eli data on riittävän ristiriidassa nollahypoteesin kanssa, jotta sen voi hylätä tavanomaisella merkitsevyystasolla.

HUOM. p-arvo ei kerro suoraan sitä, kuinka todennäköistä on, että nollahypoteesi on totta, eikä sitä, että ero johtuisi "pelkästään sattumasta" – se mittaa ainoastaan datan yhteensopivuutta nollahypoteesin kanssa.

Cohenin d mittaa efektikokoa eli vaikutuksen voimakkuutta. Kaava on yksinkertainen: d = (keskiarvo1 − keskiarvo2) / SD (missä SD on yhdistetty eli poolattu keskihajonta – kahden tai useamman ryhmän varianssien perusteella laskettu yhteinen hajonta-arvio). Cohen ehdotti suuntaa antavia kategorioita: pieni (≈ 0,2), keskikokoinen (≈ 0,5) ja iso (≈ 0,8). Nämä auttavat arvioimaan, kuinka "iso" ero on suhteessa datan luonnolliseen vaihteluun.

Molemmat ovat puhdasta matematiikkaa laskennassa – mutta soveltavaa matematiikkaa käytännössä

Sekä p-arvo että Cohenin d ovat puhdasta matematiikkaa itse laskutoimituksessa. Ne ovat deduktiivisia operaatioita: syötä luvut, algoritmi pyörii ja tulos on aina sama – aivan kuten 2 + 2 = 4. Ei mielipiteitä, ei sattumaa, ei tulkintaa laskennassa itsessään. Tämä on tieteen objektiivinen ydin. Puhtaan matematiikan deduktiivinen mylly pukkaa ulos vain ja ainoastaan välttämättömiä totuuksia.

Kuitenkin molemmat kuuluvat soveltavaan matematiikkaan, jossa empiirinen komponentti on aina läsnä. Data, josta luvut lasketaan, tulee reaalimaailmasta: kokeista, mittauksista, kyselyistä. Tämä tuo mukanaan epävarmuutta, mittausvirheitä, kohinaa ja tilastollisia oletuksia (normaalijakauma, riippumattomuus, homoskedastisuus jne.).

- p-arvossa empiirinen luonne näkyy siinä, että se on induktiivinen: se yleistää näytteestä populaatioon perustuen havaittuun dataan. Jos data on vinoutunutta tai oletukset eivät päde, p-arvo voi olla harhaanjohtava – vaikka itse laskutoimitus on matemaattisesti virheetön.

- Cohenin d:ssä empiirinen komponentti on keskihajonnassa (SD) ja keskiarvoissa: ne kuvaavat todellisen maailman vaihtelua, eivät abstraktia ideaa.

Yhteenvetona: laskutoimitus on puhdasta matematiikkaa (deduktiivista, tuottaa välttämättömiä totuuksia), mutta soveltavassa kontekstissa data on empiiristä, mikä tekee tuloksista käytännöllisiä mutta myös alttiita pienille virheille ja lieville tulkintaeroille.

HUOM. Soveltava matematiikka joka tapauksessa pukkaa ulos säännönmukaisesti "lähes-sata-varmoja" totuuksia. Eli käytännössä lähes erehtymättömiä totuuksia – kunhan data ja mallin oletukset ovat kunnossa.

Matematiikasta filosofiaan: Kun numerot kohtaavat reaalimaailman

Kun numerot ovat valmiit – esim. p = 0,042 tai d = 0,68 – astumme ulos puhtaan matematiikan maailmasta. Nyt kysymme: Mitä tämä tarkoittaa? Onko p < 0,05 "merkitsevä"? Onko d = 0,5 "keskikokoinen"? Tässä vaiheessa loikkaamme kuin veitsellä leikaten filosofian temmellyskentälle.

Perinteisen ja vankkumattoman tieteenfilosofisen näkemyksen mukaan tiede pyrkii kuvaamaan, miten maailma toimii, muttei omaa mitään toimivaltaa määrätä, miten sen pitäisi toimia. p-arvo kertoo vain todennäköisyydestä datan valossa, ei siitä, mikä on "tärkeää". Vastaavasti Cohenin d kuvaa eron suuruutta, muttei sanele, milloin se on "riittävän iso". Nämä rajat ovat inhimillisiä konstruktioita, eivät luonnonlakeja.

Mielivaltaiset rajat ja kontekstuaalinen merkitys

p-arvon raja 0,05 on peräisin Ronald Fisheriltä 1920-luvulta (alun perin maatalouskokeisiin). Fisher korosti, että se on joustava ohje, ei absoluuttinen sääntö. Silti siitä tuli lähes universaali konsensus – yksinkertaisuuden, opetettavuuden ja julkaisupaineen vuoksi. Raja on pohjimmiltaan mielivaltainen: miksei 0,01 tai 0,10? Se heijastaa konventionalismia: tiede perustuu sopimuksiin.

Cohenin d:n kategoriat ovat yhtä lailla mielivaltaisia. Cohen itse totesi, että ne ovat heuristisia ehdotuksia (nyrkkisääntöjä), eivät absoluuttisia totuuksia – ne riippuvat täysin alasta ja ilmiöstä.

Psykologiassa d = 0,2 saattaa olla "pieni" (vaikea havaita arjessa), mutta esimerkiksi farmakologisissa tai fysiologisissa kokeissa d-arvot voivat olla huomattavasti suurempia (jopa d > 3–5), jolloin sama suhteellinen ero vastaa dramaattista, helposti havaittavaa vaikutusta (esim. vahva kipulääke vs. lumelääke tai fysiologiset vasteet ulkosyntyiseen hormoniin). Toisaalta lääketieteessä jopa d ≈ 0,2–0,3 voi olla kliinisesti erittäin merkittävä, jos kyse on harvinaisesta taudista tai eloonjäämisestä.

Tämä korostaa keskeistä pointtia: efektikoon "pieni–keskikokoinen–iso" -luokittelu ei ole universaali, vaan kontekstisidonnainen. Se, mikä on "pieni" yhdellä tieteenalalla, voi olla "valtava" toisessa – ja päinvastoin. (Jos artikkelissa sanotaan vice versa, se tarkoittaa päinvastoin/kääntäen.)

Ekstrapointteja, jotka kannattaa huomioida

- Efektikoko paljastaa enemmän kuin p-arvo yksinään – iso otos voi tehdä mitättömästäkin erosta tilastollisesti merkitsevän (p < 0,05), mutta Cohenin d pysyy samana. Siksi kriittinen lukija katsoo ensin d:tä (ja luottamusvälejä), ei pelkkää p-arvoa.

- Kategorioiden sumeus – Kun Cohenin d leimataan "pieneksi" tai "isoksi", se voi johtaa automaattiseen tulkintaan, vaikka todellinen merkitys riippuu aina ilmiöstä, potilaan tilanteesta ja kustannuksista/riskeistä.

- Vaihtoehtoiset mittarit – Nykyään moni tutkija suosittelee raportoimaan myös muita efektimittareita (esim. risk ratio, odds ratio, number needed to treat, Pearsonin r, eta²), koska ne ovat usein intuitiivisempia kuin standardoitu d.

- Filosofinen kotiläksy – Rajat kuten p = 0,05 tai d = 0,5 eivät ole "luonnon omia" – ne ovat työkaluja päätöksentekoon. Tiede on tässä suhteessa nominalistinen: kategoriat ovat ihmisen keksimiä nimiä jatkuvalle spektrille, eivät ontologisia totuuksia.

Anssi H. Manninen (aka ”Kant II”)


Kommentit

Tämän blogin suosituimmat tekstit

Ozempic oikeustaisteluissa: Miljardien dollarien korvausvaateet vatsahalvausten ja näönmenetysten vuoksi

Ketogeeninen ruokavalio ja sydän: Kritiikkiä tulosten raportoinnista

Valheenpaljastuksen tapaustutkimus nro 1: Jari Sillanpään anteeksipyyntö syynissä