Reziduali v tabelah

Ko v zavihku 'ANALIZE' - 'Statistike' - 'Tabele' naredimo kontingenčno tabelo, se prikaže vrednost Hi kvadrata in znotraj tabele se obarvajo celice, kar se izvede na osnovi rezidualov.

Reziduali omogočajo izredno enostavno in učinkovito analizo dogajanja v tabeli. Za razliko od hi kvadrata, ki podaja zgolj neko splošno diagnostiko o povezanosti v tabeli, pa reziduali natančno pokažejo, kje točno se dogaja povezava. Hi kvadrat je namreč lahko statistično značilen zgolj zaradi povezanosti v eni sami celici, ne pove pa nam, kje je to.

Rezidual je termin iz analize nominalnih spremenljivk. Rezidual je enostavno razlika med dejansko frekvenco v določeni celici in teoretično frekvenco, kakršna bi bila, če spremenljivki dvorazsežne tabele v tej celici ne bi bili povezani (predpostavka ničelne domneve). Teoretično frekvenco izračunamo zelo enostavno kot produkt obeh margin, ki ga delimo s skupno velikostjo tabele.

Če osnovne reziduale - ki po običajni predpostavki sledijo Poissonovi porazdelitvi - standardiziramo (odštejemo pričakovano vrednost in delimo s standardnim odklonom), dobimo standardizirane reziduale (standardised residuals), ki se porazdeljujejo asimptotično normalno. Zanje zato lahko uporabimo običajno interpretacijo iz preverjanja domnev in tudi običajne kritične vrednosti, npr.  1.65 ali 1.96  pri 10% ali 5% tveganju.

Prilagojeni reziduali (adjusted residuals) dodatno korigirajo za neenake dimenzije margin in nekateri raziskovalci dokazujejo, da so bolj primerni od običajnih standardiziranih rezidualov, kar je tudi naše priporočilo, zato pri analizi (obarvanju) uporabljamo prilagojene reziduale.

Aplikacija 1KA uporablja in obarva meje 1.0, 2.0 in 3.0 za vrednosti prilagojenih rezidualov, ki zato v grobem označujejo jakost povezave v določeni celici oziroma jakost odstopanja od predpostavke ničelne domneve. Pomen vrednosti za standardizirane reziduale:

  • nad 1.0 pomeni določeno povečanje in pozornost,
  • nad 2.0 (gre za poenostavitev vrednosti 1.96) pomeni statistično značilno razliko (sign<0.05), torej se z razmeroma majhnim tveganjem reziduali razlikujejo od nič
  • nad 3.0 pa pomenijo že močno odstopanje (sign<0.01). kar pomeni, da so reziduali skoraj zagotovo različni od nič in se torej v celici nekaj "dogaja"

Modro obarvane celice pomenijo, da je v celici manj enot kot bi pričakovali, rdeče pa več.

Če je v celici npr. 30 enot, pričakovana vrednost pa je 20, je osnovni rezidual 10. V tej celici je torej 10 enot več kot bi pričakovali, če spremenljivki v teh dveh kategorijah ne bi bili povezani. Če gre npr. za spol in mnenje, zato rečemo, da so npr. moški bistveno bolj ZA kot bi pričakovali, če spol ne bi imel vpliva. Če rezidualu 10 odštejemo pričakovano vrednost in delimo z njenim korenom (koren iz 20 je 4.5, saj ima Poissonova porazdelitev pričakovano vrednost enako varianci), dobimo standardizirani rezidual, ki je v tem primeru večji od 2, saj imamo (20-10)/4.5>2.0.

Če to nekoliko popravimo na osnovi formul v prilogah spodaj, pa dobimo prilagojeni rezidual, ki ima - če ni res izjemnih asimetrij v marginah (DA:NE, moški:ženske) - precej podobno vrednost.  V vsakem primeru lahko zaključimo, da so v tej celici statistično značilna odstopanja in na tej osnovi se lahko lotimo tudi vsebinske interpretacije (npr. razlogi, zakaj so moški bolj ZA).

Obarvanje celic v 1KA je okvirno, poenostavljeno in zgolj v funkciji pregledovalne (eksploratorne) analize. V formalni interpretaciji bodisi navedemo točen standardizirani ali - še bolje - prilagojeni rezidual in ga interpretiramo v običajnem smislu kot navajajo primeri spodaj.

Točne vrednosti rezidualov dobimo v 1KA tako, da označimo njihov izračun v opciji 'Nastavitve'

Lahko seveda interpretiramo celotno tabelo in njen hi kvadrat. So pa - kot rečeno - reziduali bolj precizni kot celoten hi kvadrat, ker se osredotočajo točno na vsako posamezno celico, kjer se odstopanja dogajajo. Dodaten vpogled dobimo z analizo razlike deležev na osnovi t-testa.

Seveda pa vse to skupaj velja le za nominalne spremenljivke. V primeru "dobre" ordinalne urejenosti ene od spremenljivk - še bolj pa v primeru nedvomne intervalne ali razmernostne skale - pa seveda raje uporabimo kar T-test ali analizo variance.

Nekaj koristnih povezav:

Povezave

Orodje 1KA je brezplačno za osnovne uporabnike.