Frekvenssijakauma tilastotieteessä: määritelmä, esimerkit ja laskenta

Tilastotieteessä frekvenssijakauma on luettelo arvoista, joita muuttuja saa otoksessa. Se on yleensä luettelo, joka on järjestetty määrän mukaan, ja siitä käy ilmi, kuinka monta kertaa kukin arvo esiintyy. Frekvenssijakauma antaa yksinkertaisen ja selkeän kuvan havaintojen jakautumisesta ja on perusta monille tilastollisille analyyseille sekä visualisoinneille.

Mitä frekvenssijakauma sisältää

Perusmuodossaan frekvenssijakauma sisältää:

  • Absoluuttiset frekvenssit (fi): kuinka monta havaintoa kullakin arvoilla tai luokalla on.
  • Relatiiviset frekvenssit (pi = fi / n): absoluuttisen frekvenssin osuus kokonaisotoksesta n.
  • Kumulatiiviset frekvenssit (Fk): frekvenssien kertymä alusta tiettyyn arvoon saakka (absoluuttinen tai suhteellinen).
  • Prosentit: relatiivinen frekvenssi kerrottuna sadalla, helpottaa lukujen tulkintaa.

Esimerkki: Likert-asteikko

Jos esimerkiksi 100 ihmistä arvioi viisiportaisella Likertin-asteikolla samaa mieltä -väitettä (1 = täysin samaa mieltä, 5 = täysin eri mieltä), frekvenssijakauma voi olla:

VastausAbsoluuttinen frekvenssi (fi)Relatiivinen frekvenssi (pi)Prosentti
1200,2020 %
2250,2525 %
3300,3030 %
4150,1515 %
5100,1010 %
Yhteensä1001,00100 %

Ryhmitelty frekvenssijakauma (jatkuvat muuttujat)

Tässä yksinkertaisessa taulukossa on kaksi haittaa. Kun muuttuja voi saada jatkuvia arvoja diskreettisten arvojen sijaan tai kun mahdollisten arvojen määrä on liian suuri, taulukon rakentaminen yksittäisille arvoille on vaikeaa tai mahdotonta. Tällaisissa tapauksissa käytetään arvojen vaihteluväleihin perustuvaa, ryhmiteltyä frekvenssijakaumaa.

Esimerkiksi luokan oppilaiden pituudet voidaan ryhmitellä 10 cm luokkiin:

Pituus (cm)f (absol.)Rel. frekvenssiKumulatiivinen f
150–15920,072
160–16980,2710
170–179140,4724
180–18960,2030
Yhteensä301,0030

Kuinka laskea frekvensseja — toimenpiteet

  • Määritä otoksen koko n (havaintojen lukumäärä).
  • Laske jokaisen yksittäisen arvon tai luokan absoluuttinen frekvenssi fi (havaintojen lukumäärä kyseisessä luokassa).
  • Laske relatiivinen frekvenssi pi = fi / n ja prosentti = pi × 100.
  • Laske kumulatiivinen frekvenssi Fk = Σ fi (kertymä järjestyksessä).

Ryhmittelyn suunnittelu ja luokkien valinta

  • Luokkien lukumäärä ja leveys vaikuttavat jakauman muotoon: liian paljon luokkia aiheuttaa kohinaa, liian vähän hukkaa yksityiskohtia.
  • Yleisiä ohjenuoria: Sturgesin kaava luokkien määrälle k ≈ 1 + 3,322 · log10(n) ja Freedman–Diaconis-sääntö luokan leveydelle h = 2 · IQR · n^(−1/3), jossa IQR on havaintojen interkvartiiliväli.
  • Määrittele luokkien rajat siten, että havaintoja ei lasketa kahteen luokkaan (yksi tapa on tehdä luokat muotoon [alaluku, yläluku) paitsi viimeinen luokka sisältää molemmat rajat).

Visualisointi

  • Diskreetit tai kategoriset muuttujat: pylväsdiagrammi (bar chart).
  • Jatkuvat muuttujat: histogrammi (luokat esitetään pylväinä, joiden ala kuvaa frekvenssiä), frekvenssifunktio tai frekvenssikolmio (frequency polygon).
  • Kumulatiivisten frekvenssien visualisointi: ogive (kumulatiivinen käyrä) antaa nopeasti näkymän esimerkiksi mediaanin ja kvantiilien sijaintiin.

Esimerkkejä ohjelmistoissa

  • Excel: käytä Pivot-taulukkoa tai COUNTIFS/COUNTIF-funktioita; histogrammi löytyy myös valmiina kaaviona.
  • R: table(x) diskreetille muuttujalle; hist(x, breaks=...) ja cut(x, breaks=...) ryhmiteltäessä.
  • Python (pandas): df['kol'].value_counts() diskreetille; pd.cut(df['kol'], bins=...) ja df.groupby(...) ryhmittelyyn; matplotlib/Seaborn histogrammeihin.

Hyödyt ja rajoitukset

  • Frekvenssijakauma on helposti tulkittava ja antaa nopean yleiskuvan havainnoista.
  • Ryhmittelyssä osa tiedosta häviää: tarkat arvot eivät ole näkyvissä luokkien sisällä, mikä voi peittää pienet mutta merkittävät yksityiskohdat.
  • Luokkavalinnat ja otoskoko vaikuttavat vahvasti tulkintaan; siksi on tärkeää dokumentoida käytetyt luokat ja laskentatavat.

Yhteenveto

Frekvenssijakauma on perusväline tilastotieteessä: se kertoo, miten usein eri arvot esiintyvät otoksessa ja muodostaa pohjan suhteellisille frekvensseille, kumulatiivisille jakaumille ja visuaalisille esityksille kuten histogrammeille. Oikein suunniteltuna ja tulkittuna frekvenssijakauma auttaa ymmärtämään aineiston rakennetta ja löytämään mahdolliset poikkeamat tai mallit.



  Tämä on Kiinan väestöpyramidi vuodelta 2005.   Zoom
Tämä on Kiinan väestöpyramidi vuodelta 2005.  

Esimerkki (absoluuttisesta) taajuusjakaumasta. Tämä on Angolan väestöpyramidi vuodelta 2005.  Zoom
Esimerkki (absoluuttisesta) taajuusjakaumasta. Tämä on Angolan väestöpyramidi vuodelta 2005.  

Sovellukset

Taajuusluokiteltujen tietojen hallinta ja käyttö on paljon yksinkertaisempaa kuin raakatietojen käyttö. Näistä taulukoista voidaan laskea yksinkertaisilla algoritmeilla mediaani, keskiarvo (tilastot), keskihajonta jne.

Tilastollinen hypoteesien testaus perustuu taajuusjakaumien välisten erojen ja yhtäläisyyksien arviointiin. Tähän arviointiin sisältyy keskitendenssin tai keskiarvojen mittauksia, kuten keskiarvo ja mediaani, ja vaihtelun tai tilastollisen hajonnan mittauksia, kuten keskihajonta tai varianssi.

Frekvenssijakauman sanotaan olevan vino, kun sen keskiarvo ja mediaani ovat erilaiset. Frekvenssijakauman kurtoosi on pistemäärien keskittyminen keskiarvon kohdalle tai se, kuinka huipulta jakauma näyttää, jos sitä kuvataan graafisesti - esimerkiksi histogrammissa. Jos jakauma on enemmän piikkinen kuin normaalijakauma, sen sanotaan olevan leptokurttinen; jos se on vähemmän piikkinen, sen sanotaan olevan platykurttinen.

Taajuusjakaumia käytetään myös taajuusanalyysissä koodien murtamiseen, ja niillä tarkoitetaan kirjainten suhteellista esiintymistiheyttä eri kielissä.

  • Luonnos
  • Indeksi

Kuvailevat tilastot

Jatkuvat tiedot

Keskusta

  • Mediaani
  • Tila

Hajonta

  • Poikkeama
  • Keskihajonta
  • Keskimääräinen absoluuttinen poikkeama
  • Variaatiokerroin
  • Percentile
  • Valikoima
  • Kvartiiliväli

Muoto

    • Skewness
    • Kurtosis
    • L-momentit

Laske tiedot

  • Hajontaindeksi

Yhteenvetotaulukot

  • Ryhmitellyt tiedot
  • Taajuusjakauma
  • Ennakoimattomuustaulukko

Riippuvuus

  • Pearsonin tuotosmomenttikorrelaatio
  • Sijoituskorrelaatio
  • Osittainen korrelaatio
  • Hajontakuvio

Grafiikka

  • Pylväsdiagrammi
  • Biplot
  • Ruutukuvio
  • Valvontakaavio
  • Korrelogrammi
  • Tuulettimen kaavio
  • Metsäpalsta
  • Histogrammi
  • Piirakkakaavio
  • Q-Q-kaavio
  • Juoksukaavio
  • Hajontakuvio
  • Varsi-ja-lehti-näyttö
  • Tutkakartta
  • Viulun juoni

Tietojen keruu

Tutkimuksen rakenne

  • Väestö
  • Tilastot
  • Vaikutuksen koko
  • Tilastollinen teho
  • Optimaalinen suunnittelu
  • Otoskoon määrittäminen
  • Replikointi
  • Puuttuvat tiedot

Tutkimusmenetelmät

    • ositettu
    • klusteri

Kontrolloidut kokeet

Mukautuvat mallit

  • Mukautuva kliininen tutkimus
  • Up-and-Down-mallit
  • Stokastinen approksimaatio

Havaintotutkimukset

  • Poikkileikkaustutkimus
  • Kohorttitutkimus
  • Luonnollinen koe
  • Kvasikokeilu

Tilastollinen päättely

Tilastollinen teoria

  • Väestö
  • Tilasto
  • Todennäköisyysjakauma
  • Otantajakauma
    • Tilaus tilasto
  • Empiirinen jakauma
    • Tiheyden estimointi
  • Tilastollinen malli
    • Mallin erittely
    • Lp tila
  • Parametri
    • sijainti
    • asteikko
    • muoto
    • Todennäköisyys (monotoninen)
    • Sijainnin mittakaavainen perhe
    • Eksponentiaalinen perhe
  • Täydellisyys
  • Riittävyys
  • Tilastollinen toiminnallinen
    • Bootstrap
    • U
    • V
  • Optimaalinen päätös
    • tappiofunktio
  • Tehokkuus
  • Tilastollinen etäisyys
    • eroavuus
  • Asymptotiikka
  • Kestävyys

Frequentistinen päättely

Pisteiden estimointi

  • Yhtälöiden estimointi
    • Suurin todennäköisyys
    • Momenttien menetelmä
    • M-estimaattori
    • Vähimmäisetäisyys
  • Puolueettomat estimaattorit
    • Keskiarvo-epäterävöity minimivarianssi
      • Rao-Blackwellization
      • Lehmann-Scheffén teoreema
    • Mediaani puolueeton
  • Plug-in

Intervallien estimointi

  • Luottamusväli
  • Pivot
  • Todennäköisyysväli
  • Ennustusväli
  • Toleranssiväli
  • Uudelleen näytteenotto
    • Bootstrap
    • Jackknife

Hypoteesien testaaminen

  • 1- ja 2-haarainen
  • Teho
    • Tasaisesti tehokkain testi
  • Permutaatiotesti
    • Satunnaistamistesti
  • Useita vertailuja

Parametriset testit

  • Likelihood-suhde
  • Pisteet/Lagrange-kerroin
  • Wald

Erityiset testit

  • Z-testi (normaali)
  • Opiskelijan t-testi
  • F-testi

Soveltuvuus

  • Khiin neliö
  • G-testi
  • Kolmogorov-Smirnov
  • Anderson-Darling
  • Lilliefors
  • Jarque-Bera
  • Normaalisuus (Shapiro-Wilk)
  • Likelihood-suhdetesti
  • Mallin valinta
    • Ristiinvalidointi
    • AIC
    • BIC

Sijoitustilastot

  • Kirjaudu
    • Otoksen mediaani
  • Allekirjoitettu sijoitus (Wilcoxon)
    • Hodges-Lehmannin estimaattori
  • Rank sum (Mann-Whitney)
  • Ei-parametrinen anova
    • 1-suuntainen (Kruskal-Wallis)
    • 2-suuntainen (Friedman)
    • Tilattu vaihtoehto (Jonckheere-Terpstra)

Bayesilainen päättely

  • Bayesilainen todennäköisyys
    • ennen
    • posterior
  • Uskottava väli
  • Bayesin kerroin
  • Bayesilainen estimaattori
    • Suurin posteriorinen estimaattori
  • Korrelaatio
  • Regressioanalyysi

Korrelaatio

  • Pearsonin tuotosmomentti
  • Osittainen korrelaatio
  • Häiriötä aiheuttava muuttuja
  • Määrityskerroin

Regressioanalyysi

  • Virheet ja jäännökset
  • Regression validointi
  • Sekavaikutusmallit
  • Samanaikaisyhtälömallit
  • Monimuuttujaiset adaptiiviset regressiospoikkileikkaukset (MARS)

Lineaarinen regressio

  • Yksinkertainen lineaarinen regressio
  • Tavalliset pienimmät neliöt
  • Yleinen lineaarinen malli
  • Bayesilainen regressio

Epästandardit ennustetekijät

  • Epälineaarinen regressio
  • Epäparametrinen
  • Semiparametrinen
  • Isotoninen
  • Vankka
  • Heteroskedastisuus
  • Homoskedastisuus

Yleistetty lineaarinen malli

  • Eksponentiaaliset perheet
  • Logistiset (Bernoulli) / Binomiaaliset / Poisson-regressiot

Varianssin jakautuminen

  • Varianssianalyysi (ANOVA, anova)
  • Kovarianssianalyysi
  • Monimuuttujainen ANOVA
  • Vapausasteet

Kategorinen / monimuuttujainen / aikasarja / eloonjäämisanalyysi

Kategorinen

  • Cohenin kappa
  • Ennakoimattomuustaulukko
  • Graafinen malli
  • Log-lineaarinen malli
  • McNemarin testi
  • Cochran-Mantel-Haenszel-tilastot

Monimuuttujainen

  • Regressio
  • Manova
  • Pääkomponentit
  • Kanoninen korrelaatio
  • Diskriminoiva analyysi
  • Klusterianalyysi
  • Luokitus
  • Rakenneyhtälömalli
    • Faktorianalyysi
  • Monimuuttujaiset jakaumat
    • Elliptiset jakaumat
      • Normaali

Aikasarjat

Yleistä

  • Hajoaminen
  • Trendi
  • Stationaarisuus
  • Kausisopeutus
  • Eksponentiaalinen tasoitus
  • Kointegraatio
  • Rakenteellinen rikkoutuminen
  • Grangerin kausaalisuus

Erityiset testit

  • Dickey-Fuller
  • Johansen
  • Q-statistiikka (Ljung-Box)
  • Durbin-Watson
  • Breusch-Godfrey

Aika-alue

  • Autokorrelaatio (ACF)
    • osittainen (PACF)
  • Ristikorrelaatio (XCF)
  • ARMA-malli
  • ARIMA-malli (Box-Jenkins)
  • Autoregressiivinen ehdollinen heteroskedastisuus (ARCH)
  • Vektoriautoregressio (VAR)

Taajuusalue

  • Spektritiheyden estimointi
  • Fourier-analyysi
  • Wavelet
  • Whittle todennäköisyys

Selviytyminen

Eloonjäämisfunktio

  • Kaplan-Meier-estimaattori (tuoterajoitus)
  • Suhteelliset vaaramallit
  • Nopeutetun vikaantumisajan malli (AFT)
  • Ensimmäinen lyöntiaika

Vaaran funktio

  • Nelson-Aalenin estimaattori

Testi

  • Log-rank-testi

Sovellukset

Biostatistiikka

Insinööritilastot

  • Kemometria
  • Menetelmien suunnittelu
  • Todennäköisyysperusteinen suunnittelu
  • Prosessin/laadunvalvonta
  • Luotettavuus
  • Järjestelmän tunnistaminen

Sosiaalitilastot

  • Vakuutusmatemaattiset tieteet
  • Väestölaskenta
  • Rikostilastot
  • Demografia
  • Ekonometria
  • Jurimetrics
  • Kansantalouden tilinpito
  • Viralliset tilastot
  • Väestötilastot
  • Psykometria

Paikkatilastot

  • Kartografia
  • Ympäristötilastot
  • Paikkatietojärjestelmä
  • Geostatistiikka
  • Kriging


 

Kysymyksiä ja vastauksia

Q: Mikä on taajuusjakauma?


A: Taajuusjakauma on luettelo muuttujan otoksessa ottamista arvoista, jotka on järjestetty määrän mukaan. Se osoittaa, kuinka monta kertaa kukin arvo esiintyy.

K: Miltä viisiportaisen Likert-asteikon vastausten frekvenssijakauma voisi näyttää?


V: Viisiportaisen Likert-asteikon vastausten frekvenssijakauma voi näyttää yksinkertaiselta taulukolta, josta käy ilmi, kuinka monta ihmistä arvioi kutakin asteikon kohtaa.

K: Mitkä ovat kaksi haittaa tämäntyyppisen taulukon käyttämisessä?


V: Kaksi haittapuolta tämäntyyppisen taulukon käytössä on se, että se voi olla vaikeaa tai jopa mahdotonta, kun kyseessä ovat jatkuvat arvot tai kun mahdollisia arvoja on liian monta.

K: Miten tämä järjestelmä eroaa, kun käsitellään jatkuvia arvoja tai suurta määrää mahdollisia arvoja?


V: Kun kyseessä ovat jatkuvat arvot tai suuri määrä mahdollisia arvoja, voidaan sen sijaan käyttää hieman erilaista arvojen vaihteluväliin perustuvaa järjestelmää.

K: Miltä opiskelijoiden pituuksia koskeva frekvenssitaulukko voisi näyttää?


V: Opiskelijoiden pituuksien frekvenssitaulukosta voisi käydä ilmi vaihteluvälit ja se, kuinka monta opiskelijaa kuuluu kuhunkin vaihteluväliin.


Kysymys: Mitä tietoa frekvenssijakauma antaa?


V: Frekvenssijakauma antaa tietoa siitä, kuinka usein tietyt muuttujat esiintyvät otoksissa ja miten ne jakautuvat näissä otoksissa.

AlegsaOnline.com - 2020 / 2025 - License CC3