Aakkosjärjestys on tapa lajitella (järjestää) luettelo. Se auttaa lukijaa löytämään nimen tai otsikon luettelosta. Lajittelu perustuu aakkosten kirjainten tavanomaiseen järjestykseen (tavanomaista järjestystä). Aakkosjärjestyksessä olevia luetteloita on käytetty ainakin Rooman valtakunnan ajoista lähtien, ja järjestelytavat yleistyivät erityisesti renessanssin jälkeen, kun kirjojen ja sanakirjojen määrät kasvoivat.

Perusperiaatteet

Yleisimmät säännöt aakkosjärjestyksessä ovat:

  • Kirjainten järjestys määräytyy käytettävän aakkoston mukaan (esim. latinaiset, kyrilliset).
  • Lajittelu on yleensä kirjainkohtainen eikä sanaan perustuva foneettinen lajittelu.
  • Kirjainten suuruus- ja pienaakkosia ei yleensä erotella (case-insensitive): "Abel" ja "abel" käsitellään samankaltaisesti.
  • Pisteet, pilkut ja muut välimerkit ignoreerataan tai käsitellään erikseen, samoin välilyönnit ja yhdysmerkit (riippuu säännöistä).
  • Numerot sanojen sisällä voidaan käsitellä kirjaimina (ASCII-lajittelu) tai numeroina (natural sort, jolloin 2 tulee ennen 10).

Diakriittiset merkit ja kielikohtaiset erot

Erilaiset kielet käsittelevät aksentteja, terva- ja kaksoiskirjaimia sekä erikoismerkkejä eri tavoin. Tässä tärkeimpiä esimerkkejä ja huomioita:

Saksa

Saksassa esiintyy ä, ö, ü ja ß. Niille on käytössä ainakin kaksi yleistä lajittelutapaa:

  • Vaihtoehto yksi: kirjainta, jossa on diakriittiset merkit, käsitellään samalla tavalla kuin kirjainta, jossa ei ole diakriittisiä merkkejä, ä:tä käsitellään a:na, ö:tä o:na ja ü:tä u:na (DIN 5007-1, käytetään yleensä tietosanakirjoissa).
  • Vaihtoehto kaksi: kirjainta käsitellään samalla tavalla kuin jotakin korvaavaa kirjainta: ä korvataan ae:llä, ö:llä oe:llä, ü:llä ue:llä ja ß:llä ss:llä (DIN 5007-2, käytetään puhelinluetteloissa).

Suomi ja ruotsi

Suomen ja ruotsin aakkoset perustuvat latinalaiseen aakkostoon, mutta molemmissa kielissä lisäkirjaimet Å, Ä ja Ö sijoitetaan aakkoston loppuun. Tyypillinen loppujärjestys on ... X, Y, Z, Å, Ä, Ö. Tämä tarkoittaa, että sanat, jotka alkavat Ä- tai Ö-kirjaimella, tulevat aakkosjärjestyksessä zan jälkeen.

Tanska ja norja

Tanskassa ja norjassa on omat erikoiskirjaimensa: Æ, Ø ja Å. Näiden kirjainten paikka on aakkoston lopussa, mutta järjestys on ei sama kuin suomessa/ruotsissa (dansk/norsk loppu on ... X, Y, Z, Æ, Ø, Å). Huomaa, että tanskassa ei käytetä ä:tä samalla tavalla kuin saksassa tai suomessa.

Espanja

Espanjassa kirjain ñ on erillinen kirjain ja se sijoittuu n:n jälkeen. Aikaisemmin digrafit kuten "ch" ja "ll" luokiteltiin erillisiksi kirjaimiksi, mutta nykyään ne tavallisesti käsitellään kahden kirjaimen yhdistelminä.

Ranskan, portugalin ja monien romaanisten kielten käytäntöjä

Monissa romaanisissa kielissä aksenttimerkit (é, è, á, ç jne.) eivät yleensä muuta perusbokstaven sijaintia aakkosjärjestyksessä: esimerkiksi ranskassa "école" sijoittuu e-kirjainten joukkoon. Joissain sovelluksissa aksentteja voidaan kuitenkin käyttää toissijaisena erotinperusteena (eli ensin vertaillaan peruskirjaimia, ja jos ne ovat samat, vertaillaan aksentteja).

Keski- ja itäeurooppalaiset kielet

Joissain kielissä diakriittimerkit muodostavat erillisiä kirjaimia, joilla on oma järjestyksensä. Esimerkiksi tšekissä ja slovakissa č tulee c:n jälkeen. Unkarissa taas on useita digrafia ja aksentoituja kirjaimia, jotka käsitellään erillisinä kirjaimina (esim. Cs, Sz, Zs).

Erikoistapaukset ja käytännön säännöt

  • Alkusanat ja artikkelit: kirjahyllyissä, bibliografioissa ja otsikoissa usein jätetään huomioimatta artikkelit kuten "the", "a", "an", "de", "van" yms. (esim. "The Beatles" voidaan laittaa Beatlesin alle).
  • Nimet: etunimet ja sukunimet lajitellaan yleensä sukunimellä; tekijänimiä voidaan käsitellä eri kulttuureissa eri tavoilla (esim. espanjalaiset kaksiosaiset sukunimet).
  • Pisteet, hakasulut ja muut erotinmerkit: käytännössä usein poistetaan ennen lajittelua tai ne määritellään erillisiksi tasoiksi lajittelualgoritmissa.
  • Numeroiden käsittely: luonnollinen lajittelu ("natural sort") asettaa 2 ennen 10, kun taas merkkipohjainen ASCII-lajittelu asettaa "10" ennen "2" tietyissä tapauksissa.

Tietokoneet ja kansainväliset standardit

Ohjelmistoissa ja tietokannoissa suositellaan käyttämään paikallista, kielikohtaista lajittelua (locale-aware collation). Unicode tarjoaa Unicode Collation Algorithmin (UCA), ja monet kirjastot (esim. ICU) tukevat erilaisia paikallisia lajittelusäännöstöjä ja mukautuksia. Näin voidaan varmistaa, että käyttäjän odotusten mukainen järjestys toteutuu riippumatta kielestä tai merkistöstä.

Käytännön vinkkejä

  • Määrittele aina, mikä aakkosto ja säännöstö käytetään (esim. suomi, saksa DIN 5007-1/2, espanja, UCA-locale).
  • Käytä valmiita kirjastoja/locale-asetuksia ohjelmissa äläkä yritä toteuttaa kaikkia kansallisia poikkeuksia käsin.
  • Päätä etukäteen, käsitelläänkö aksentteja ja erikoismerkkejä eri tavalla (esim. yhtenäisely vs. korvausmerkit).
  • Testaa lajittelua todellisilla sanalistoilla ja nimillä, jotta epätavalliset tapaukset (kaksoisnimet, etuliitteet, numerot) toimivat halutulla tavalla.

Yhteenvetona: aakkosjärjestys on yksinkertainen periaate, mutta sen käytännön toteutus voi vaihdella merkittävästi kielittäin ja käyttötarkoituksen mukaan. On hyvä päättää käytettävä säännöstö (kielikohtainen vai yleinen standardi) ja käyttää paikallista collation-kirjastoa tai määritelmää, jotta tulokset ovat odotusten mukaiset.