Selittävä analytiikka
Selittävässä analytiikassa on mukana vähintään kaksi muuttujaa, joiden välisestä yhteydestä/riippuvuudesta ollaan kiinnostuneita. Usein toinen muuttujista on selittävän muuttujan asemassa. Selittävän analytiikan menetelmän valinta riippuu tarkasteltavien muuttujien tyypeistä:
- Jos molemmat muuttujat ovat kategorisia, niin käytetään ristiintaulukointia.
- Jos selittävä muuttuja on määrällinen ja toinen muuttuja on kategorinen, niin käytetään ristiintaulukointia. Tällöin selittävän muuttujan arvot täytyy luokitella. Luokittelusta lisätietoa edellisen osion luokiteltu_jakauma-muistiossa.
- Jos selittävä muuttuja on kategorinen ja toinen muuttuja on määrällinen, niin vertaillaan tunnuslukuja selittävän muuttujan määräämissä ryhmissä.
- Jos molemmat muuttujat ovat määrällisiä, niin käytetään hajontakaaviota ja korrelaatiokerrointa.
Ristiintaulukointi
- Oppimateriaalina on ristiintaulukointi-muistio. Muistiossa on mukana myös graafisia esityksiä pylväskaavioina.
- Dikotomisten muuttujien oppimateriaalina on dummy_selittava-muistio.
Tunnuslukujen vertailu
- Oppimateriaalina on tunnuslukujen vertailu -muistio. Muistiossa on mukana myös graafisia esityksiä ruutu-ja janakaavioina.
- Lisäesimerkkejä groupby-muistiossa.
- Lisäesimerkkejä pivot-muistiossa, jossa opit tekemään monenlaisia yhteenvetoja pivot-taulukoinnilla.
Hajontakaavio ja Korrelaatio
- Oppimateriaalina on korrelaatio-muistio.
Harjoittele esimerkki-muistioiden esitystapoja myös muilla datoilla. Sopivia datoja löytyy seaborn-kirjastosta. Kokeile esimerkiksi seuraavilla komennoilla aukeavia datoja: sns.load_dataset('tips')
, sns.load_dataset('penguins')
, sns.load_dataset('diamonds')
, sns.load_dataset('taxis')
.