Lemma (sanakirjamuoto, perusmuoto) on se muoto, jolla sana esitetään hakusanana. Kaikki sanakirjan pääsanat ovat tällaisia lemmamuotoja, jotka edustavat sanan koko taivutusparadigmaa. Lemma on yksittäinen, sopimuksenvaraisesti valittu kirjoitusasu, ei kaikkien muotojen joukko.
Lekseemi on merkitysyksikkö: abstrakti sanayksikkö, joka kattaa kaikki saman sanan taivutusmuodot (ja usein myös johtuneet muodot) yhdessä merkityksessä. Toisin sanoen lekseemi on kaikkien sellaisten muotojen joukko, joilla on sama perusmerkitys, kun taas lemma on tästä joukosta valittu edustava muoto (sanakirjamuoto), jolla hakusana esitetään.
Esimerkiksi englannin kielessä run, runs, ran ja running ovat saman lekseemin muotoja, mutta hakusana eli lemma on tavallisesti run.
Miten lemma valitaan eri kielissä
- Suomi: substantiiveilla lemma on yleensä nominatiivi yksikkö (esim. talo), verbeillä A-infinitiivi (esim. juosta), adjektiiveilla positiivin perusmuoto (esim. hyvä).
- Englannin kaltainen analytiikka: substantiivit merkitään yksikön perusmuodossa (esim. child, vaikka taivutusmuoto on children), verbit perusmuodossa eli niin sanotussa bare infinitive -muodossa (esim. go, vaikka taivutusmuodot ovat went, gone).
- Muut kielet: romaanisissa kielissä verbien lemma on yleensä infinitiivi (esim. espanjan hablar), monissa taivutusrikkaissa kielissä substantiivin lemma on nominatiivi yksikkö. Käytäntö on sopimuksenvarainen ja voi vaihdella sanaluokan ja kielen mukaan.
Suomen esimerkkejä
- Substantiivi: lemma talo edustaa muotoja kuten talon, talossa, taloissa, taloista jne.
- Verbi: lemma juosta edustaa muotoja kuten juoksen, juoksit, juoksi, juoksemme, juosten.
- Adjektiivi: lemma hyvä kattaa muodot hyvän, hyvää, hyvällä, hyviä jne.
Monisanaiset ilmaukset, merkityserot ja hakusanat
- Monisanaiset lekseemit: lekseemi voi olla useampi kuin yksi sana (esim. fraasit ja partikkeliverbit kuten englannin give up tai suomen ottaa huomioon). Tällöin myös lemman kirjoitusasu voi sisältää välilyöntejä.
- Homonyymit: sama lemmamuoto voi edustaa useampaa eri lekseemiä eri merkityksissään (esim. suomen kuusi = luku tai puu). Sanakirjoissa nämä erotellaan usein numeroimalla tai merkintöjä lisäämällä.
- Monimerkityksisyys (polysemia): yksi lekseemi voi sisältää useita läheisiä merkitysvivahteita saman lemman alla; sanakirjat kuvaavat nämä erillisissä merkityspykälissä.
Lemma, perusmuoto ja lemmatisointi
- Perusmuoto/sanakirjamuoto: arjessa puhutaan usein “perusmuodosta”; kielitieteellisesti tämä tarkoittaa lemmaa, eli hakusanan muotoa.
- Lemmatisointi: tekstin sanojen muuntaminen niiden lemmoihin. Tätä käytetään mm. haun normalisointiin, korpuslingvistiikassa, kielenopetuksessa ja tilastollisessa analyysissä.
- Ero stemmaukseen: stemmaus katkaisee sanoja “runkoihin” sääntöjen mukaan, kun taas lemmatisointi päättää kunkin sanan tarkasta lemman muodosta (usein sanaluokan ja kontekstin avulla).
Yhteenveto
- Lemma on sanan valittu hakusana- eli sanakirjamuoto.
- Lekseemi on abstrakti merkitysyksikkö, joka koostuu kaikista saman merkityksen jakavista muodoista.
- Lemma edustaa lekseemiä sanakirjoissa ja kieliteknologian tehtävissä, mutta se ei ole muotojen joukko, vaan yksittäinen edustava muoto.