Zipfin laki

Zipfin laki on empiirinen laki, joka on muotoiltu matemaattisten tilastojen avulla ja joka on nimetty sen ensimmäisenä ehdottaneen kielitieteilijä George Kingsley Zipfin mukaan.

Zipfin laki sanoo, että kun otetaan huomioon suuri otos käytetyistä sanoista, minkä tahansa sanan frekvenssi on kääntäen verrannollinen sen sijoittumiseen frekvenssitaulukossa. Sanan numero n taajuus on siis verrannollinen 1/n.

Näin ollen yleisin sana esiintyy noin kaksi kertaa niin usein kuin toiseksi yleisin sana, kolme kertaa niin usein kuin kolmanneksi yleisin sana jne. Esimerkiksi eräässä englannin kielen sanojen otoksessa useimmin esiintyvä sana "the" on lähes 7 prosenttia kaikista sanoista (69 971 sanaa hieman yli miljoonasta). Zipfin lain mukaisesti toiseksi eniten sanoja on "of" (36 411 esiintymää) ja seuraavaksi eniten "and" (28 852 esiintymää), mikä on hieman yli 3,5 prosenttia sanoista. Tarvitaan vain noin 135 sanaa, jotta puolet suuren otoksen sanoista olisi mukana.

Sama suhde esiintyy monissa muissa, kieleen liittymättömissä rankingeissa, kuten eri maiden kaupunkien väestösijoituksissa, yritysten koossa, tuloluokituksissa jne. Felix Auerbach havaitsi ensimmäisen kerran vuonna 1913, että jakauma esiintyy kaupunkien väestöjärjestyksessä.

Ei tiedetä, miksi Zipfin laki pätee useimmissa kielissä.

Kysymyksiä ja vastauksia

K: Mikä on Zipfin laki?


V: Zipfin laki on empiirinen laki, jonka mukaan sanan esiintymistiheys suuressa otoksessa on kääntäen verrannollinen sen sijoittumiseen esiintymistiheystaulukossa.

K: Kuka ehdotti Zipfin lakia?


V: Zipfin lain ehdotti ensimmäisenä kielitieteilijä George Kingsley Zipf.

K: Miten Zipfin laki selittää sanojen esiintymistiheyden englanninkielisten sanojen otoksessa?


V: Zipfin lain mukaan englannin kielen sanoista koostuvassa otoksessa yleisin sana esiintyy noin kaksi kertaa useammin kuin toiseksi yleisin sana, kolme kertaa useammin kuin kolmanneksi yleisin sana jne. Tämä suuntaus jatkuu sitä mukaa, kun sanan arvoaste laskee.

Kysymys: Kuinka monta prosenttia kaikista sanoista on englanninkielisten sanojen näytteessä useimmin esiintyvän sanan osuus?


V: Eräässä englanninkielisten sanojen näytteessä useimmin esiintyvän sanan ("the") osuus kaikista sanoista on lähes 7 prosenttia.

K: Mikä on suhde puolet näytteestä käsittävien sanojen määrän ja näiden sanojen esiintymistiheyden välillä?


V: Zipfin lain mukaan tarvitaan vain noin 135 sanaa, jotta puolet suuren otoksen sanoista saadaan selville.

K: Missä muissa luokitteluissa Zipfin laki näkyy?


V: Sama suhde, jota Zipfin laki kuvaa sanojen frekvenssissä, esiintyy myös muissa, kieleen liittymättömissä ranking-luokituksissa, kuten eri maiden kaupunkien asukasluvuissa, yritysten koossa ja tuloluokituksissa.

K: Kuka huomasi jakauman esiintymisen kaupunkien väestöjärjestyksissä?


V: Felix Auerbach huomasi ensimmäisenä vuonna 1913, että kaupunkien asukasluvun mukaan määräytyvässä paremmuusjärjestyksessä esiintyy jakauma.

AlegsaOnline.com - 2020 / 2023 - License CC3