Regressio ja korrelaatio

Korrelaation avulla voidaan tutkia onko kahden muuttujan välillä yhteyttä tilastossa. Eli vaikuttaako toisen arvo toiseen. Tälläistä yhteyttä kutsutaan korrelaatioksi. Mikäli toisen muuttujan arvot kasvaa ja tämän seurauksena myös toisen arvot kasvaa, on korrelaatio positiivinen. Mikäli toisen kasvaessa toinen pienenee, on korrelaatio negatiivinen.

Esimerkki 1

Alapuolella on Liisa-Petterin lyhyen matikan kurssien arvosanat sekä tehtävien määrä, jotka hän teki ennen koetta. Selvitä onko tehtävien määrällä ja kurssiarvosanalla rippuvuutta määrittämällä korrelaatiokerroin.

Syötetään arvosanadata LibreOffice Calciin ja kirjoitetaan komento korrelaatiolle.

Korrelaatiokerroin on 0.43

Mikäli kerroin on välillä 0,0...0,3 tai -0,3...0,0 on korrelaatio merkityksetön, eikä tehdyillä tehtävillä ole mitään merkitystä arvosanoihin. Välillä 0,3...0,6 tai -0,6...-0,3 korrelaatio on kohtalainen, eli tehtävillä voi olla jotain vaikutusta arvosanaan. Välillä 0,6...0,8 tai -0,8...-0,6 korrelaatio on huomattava ja vaikutusta arvosanoihin on. Selkeä yhteys, eli voimakas korrelaatio on välillä 0,8-1,0 ja -1,0...-0,8.

Eli tehdyillä tehtävillä näyttää olevan jonkinlainen yhteys arvosanaan.

Esimerkki 2.

Kymmeneltä matematiikan kokeeseen osallistuneelta kerättiin tiedot heidän valmistautumisestaan. Heiltä kysyttiin tuntimäärä, jonka he käyttivät harjoitteluun ennen kokeita. Oheen on listattu heidän valmistautumisajat sekä kokeen pistemäärä.

Valmistautumisajan sekä pistemäärän välillä on voimakas korrelaatio r=0.94, eli pidempi valmistautumisaika tuotti paremman tuloksen kokeessa. Selitysaste on 88%. Eli valmistautumisaika selittää 88% pistemäärän vaihtelusta.

Määritä Libre officen avulla regressiosuoran yhtälö ja ennusta kuinka monta pistettä saisi 13 tunnin valmistautumisella.

Regressiosuora y=2.94⋅x+3.9 ja pistemäärä 13 tunnin valmistautumisella 42

Regressiosuoran avulla voidaan tehdä ennustuksia. Regressiosuora voidaan muodostaa, kun muuttujien välillä on riippuvuussuhde, eli korrelaatio on merkittävä.

Suoran luominen LibreOffice Calcilla käydään läpi yllä olevalla videolla.

Poikkeava havainto

Mikäli aineistosta löytyy jokin täysin muista poikkeava havainto, voi kyseessä olla esimerkiksi mittausvirhe. Tällainen arvo poistetaan ennen regressiosuoran luomista.

Esimerkki 3.

Liisa-Petteri mittasi onnellisuuttaan 12-portaisella asteikolla. Hän mittasi arvon tunnin välein heräämisestä. Mittaukset on tehty päivänä, jolloin mitään erikoista ei ole tapahtunut. Ei ikäviä tai onnellisia asioita. Alla on taulukoituna tulokset.

Kaikki tulokset

Korrelaatio 0,6 näyttää vain kohtalaista yhteyttä, mutta 9 tuntia heräämisestä mitattu onnellisuus poikkeaa täysin muista havainnoista. Tämä on luultavasti mittausvirhe.

Poikkeava havainto poistettu

Kun poikkeava havainto poistetaan, on korrelaatio merkittävä 0,91

Tehtävät

Tehtävä 1

Yläpuolella on Liisa-Petterin lyhyen matikan kurssien arvosanat sekä tehtävien määrä, jotka hän teki ennen koetta. Selvitä onko tehtävien määrällä ja kurssiarvosanalla rippuvuutta määrittämällä korrelaatiokerroin.

Käytä tähän joko Libre officea tai Geogebraa.

Tehtävä 2

Yläpuolella on kahden tilastomuuttujan aineisto. Selvitä onko muuttujien välillä rippuvuutta määrittämällä korrelaatiokerroin.

Käytä tähän joko Libre officea tai Geogebraa.

Tehtävä 3

Kymmeneltä henkilöltä kysyttiin ikä ja heitä pyydettiin arvioimaan onnellisuuttaan asteikolla 0-100. Tutki määrittämällä korrelaatiokerroin onko iän ja onnellisuuden tunteen välillä riippuvuutta.

Käytä tähän joko Libre officea tai Geogebraa.

Tehtävä 4

Taulukko havainnollistaa muuttujien X ja Y välistä riippuvuutta. Minkälainen riippuvuus on kyseessä? Arvioi myös muuttujien välisen korrelaatiokertoimen suuruutta. Lyhyet perustelut.