Lemma (kielitiede): määritelmä, sanakirjamuoto ja ero lekseemiin

Lemma selitetty: määritelmä, sanakirjamuoto ja ero lekseemiin selkein esimerkein (run–runs–running). Ymmärrä, miten muodot ryhmittyvät samaan lekseemiin nopeasti.

Tekijä: Leandro Alegsa

Lemma (sanakirjamuoto, perusmuoto) on se muoto, jolla sana esitetään hakusanana. Kaikki sanakirjan pääsanat ovat tällaisia lemmamuotoja, jotka edustavat sanan koko taivutusparadigmaa. Lemma on yksittäinen, sopimuksenvaraisesti valittu kirjoitusasu, ei kaikkien muotojen joukko.

Lekseemi on merkitysyksikkö: abstrakti sanayksikkö, joka kattaa kaikki saman sanan taivutusmuodot (ja usein myös johtuneet muodot) yhdessä merkityksessä. Toisin sanoen lekseemi on kaikkien sellaisten muotojen joukko, joilla on sama perusmerkitys, kun taas lemma on tästä joukosta valittu edustava muoto (sanakirjamuoto), jolla hakusana esitetään.

Esimerkiksi englannin kielessä run, runs, ran ja running ovat saman lekseemin muotoja, mutta hakusana eli lemma on tavallisesti run.

Miten lemma valitaan eri kielissä

  • Suomi: substantiiveilla lemma on yleensä nominatiivi yksikkö (esim. talo), verbeillä A-infinitiivi (esim. juosta), adjektiiveilla positiivin perusmuoto (esim. hyvä).
  • Englannin kaltainen analytiikka: substantiivit merkitään yksikön perusmuodossa (esim. child, vaikka taivutusmuoto on children), verbit perusmuodossa eli niin sanotussa bare infinitive -muodossa (esim. go, vaikka taivutusmuodot ovat went, gone).
  • Muut kielet: romaanisissa kielissä verbien lemma on yleensä infinitiivi (esim. espanjan hablar), monissa taivutusrikkaissa kielissä substantiivin lemma on nominatiivi yksikkö. Käytäntö on sopimuksenvarainen ja voi vaihdella sanaluokan ja kielen mukaan.

Suomen esimerkkejä

  • Substantiivi: lemma talo edustaa muotoja kuten talon, talossa, taloissa, taloista jne.
  • Verbi: lemma juosta edustaa muotoja kuten juoksen, juoksit, juoksi, juoksemme, juosten.
  • Adjektiivi: lemma hyvä kattaa muodot hyvän, hyvää, hyvällä, hyviä jne.

Monisanaiset ilmaukset, merkityserot ja hakusanat

  • Monisanaiset lekseemit: lekseemi voi olla useampi kuin yksi sana (esim. fraasit ja partikkeli­verbit kuten englannin give up tai suomen ottaa huomioon). Tällöin myös lemman kirjoitusasu voi sisältää välilyöntejä.
  • Homonyymit: sama lemmamuoto voi edustaa useampaa eri lekseemiä eri merkityksissään (esim. suomen kuusi = luku tai puu). Sanakirjoissa nämä erotellaan usein numeroimalla tai merkintöjä lisäämällä.
  • Monimerkityksisyys (polysemia): yksi lekseemi voi sisältää useita läheisiä merkitysvivahteita saman lemman alla; sanakirjat kuvaavat nämä erillisissä merkityspykälissä.

Lemma, perusmuoto ja lemmatisointi

  • Perusmuoto/sanakirjamuoto: arjessa puhutaan usein “perusmuodosta”; kielitieteellisesti tämä tarkoittaa lemmaa, eli hakusanan muotoa.
  • Lemmatisointi: tekstin sanojen muuntaminen niiden lemmoihin. Tätä käytetään mm. haun normalisointiin, korpus­lingvistiikassa, kielenopetuksessa ja tilastollisessa analyysissä.
  • Ero stemmaukseen: stemmaus katkaisee sanoja “runkoihin” sääntöjen mukaan, kun taas lemmatisointi päättää kunkin sanan tarkasta lemman muodosta (usein sanaluokan ja kontekstin avulla).

Yhteenveto

  • Lemma on sanan valittu hakusana- eli sanakirjamuoto.
  • Lekseemi on abstrakti merkitysyksikkö, joka koostuu kaikista saman merkityksen jakavista muodoista.
  • Lemma edustaa lekseemiä sanakirjoissa ja kieliteknologian tehtävissä, mutta se ei ole muotojen joukko, vaan yksittäinen edustava muoto.

Morfologia

Englannin kielessä substantiivin lemma on yksikössä: esim. mouse eikä mice. Kielissä, joissa on sukupuoli, tavallisten adjektiivien ja substantiivien pääsana on yleensä maskuliininen yksikössä. Jos kielessä on myös sijamuodot, lemma on usein maskuliininen yksikön nominatiivi.

Monissa kielissä verbin lainausmuoto on infinitiivi: ranskan aller, saksan gehen, espanjan ir. Englannin kielessä se on yleensä täydellinen infinitiivi (to go), vaikka se aakkostetaankin ilman "to" (go).

 

Varren ja lemman välinen ero

Laskennallisessa kielitieteessä kantasana on sanan osa, joka ei koskaan muutu, vaikka sanan eri muotoja käytettäisiinkin. Lemma on verbin perusmuoto. Esimerkiksi sanasta "tuotettu" lemma on "tuottaa", mutta kanta on "produc-". Tämä johtuu siitä, että on olemassa sellaisia sanoja kuin tuottaa. Kun äänne (fonologia) otetaan huomioon, sanan muuttumattoman osan määrittely ei ole niin hyödyllistä. Huomaa esimerkin sanojen äänne: "tuotettu" /prəˈdjuːst/ versus "tuotanto" /prəˈdʌkʃən/.

Joillakin lekseemeillä on useita kantoja mutta vain yksi lemma. Esimerkiksi sanalla "mennä" (lemma) on varret "mennä" ja "meni". Tässä tapauksessa mennyt aikamuoto perustuu eri verbiin, "to wend". Suffiksi "-t" vastaa "-ed".

 


Etsiä
AlegsaOnline.com - 2020 / 2025 - License CC3