Selittävä analytiikka

Selittävässä analytiikassa on mukana vähintään kaksi muuttujaa, joiden välisestä yhteydestä/riippuvuudesta ollaan kiinnostuneita. Usein toinen muuttujista on selittävän muuttujan asemassa. Selittävän analytiikan menetelmän valinta riippuu tarkasteltavien muuttujien tyypeistä:

  • Jos molemmat muuttujat ovat kategorisia, niin käytetään ristiintaulukointia.
  • Jos selittävä muuttuja on määrällinen ja toinen muuttuja on kategorinen, niin käytetään ristiintaulukointia. Tällöin selittävän muuttujan arvot täytyy luokitella. Luokittelusta lisätietoa edellisen osion luokiteltu_jakauma-muistiossa.
  • Jos selittävä muuttuja on kategorinen ja toinen muuttuja on määrällinen, niin vertaillaan tunnuslukuja selittävän muuttujan määräämissä ryhmissä.
  • Jos molemmat muuttujat ovat määrällisiä, niin käytetään hajontakaaviota ja korrelaatiokerrointa.

Ristiintaulukointi

  • Oppimateriaalina on ristiintaulukointi-muistio. Muistiossa on mukana myös graafisia esityksiä pylväskaavioina.
  • Dikotomisten muuttujien oppimateriaalina on dummy_selittava-muistio.

Tunnuslukujen vertailu

  • Oppimateriaalina on tunnuslukujen vertailu -muistio. Muistiossa on mukana myös graafisia esityksiä ruutu-ja janakaavioina.
  • Lisäesimerkkejä groupby-muistiossa.
  • Lisäesimerkkejä pivot-muistiossa, jossa opit tekemään monenlaisia yhteenvetoja pivot-taulukoinnilla.

Hajontakaavio ja Korrelaatio

Harjoittele esimerkki-muistioiden esitystapoja myös muilla datoilla. Sopivia datoja löytyy seaborn-kirjastosta. Kokeile esimerkiksi seuraavilla komennoilla aukeavia datoja: sns.load_dataset('tips'), sns.load_dataset('penguins'), sns.load_dataset('diamonds'), sns.load_dataset('taxis').