Standardoitu koe – määritelmä, historia ja käyttötarkoitukset

Tutustu standardoitujen kokeiden määritelmään, historiaan ja käyttötarkoituksiin — miten ne toimivat, esimerkit (SAT, Gaokao, LSAT) ja kiistat koulutuksen mittarina.

Standardoitu koe on koe, joka tehdään ja pisteytetään yhdenmukaisella eli "standardoidulla" tavalla. Standardoidut testit on suunniteltu siten, että kaikki niissä on standardoitua. Ne tehdään ja pisteytetään ennalta määrätyllä, vakiomuotoisella tavalla. Tähän kuuluu muun muassa yhtenäiset ohjeet, aikarajat, tehtävämuodot (esim. monivalinta, avoin vastaus tai suoritusnäyte) ja selkeät pisteytysohjeet, jotta tuloksia voidaan verrata eri henkilöiden, koulujen tai ajankohtien välillä.

Usein niitä käytetään testinä, jonka avulla voi liittyä johonkin laitokseen tai saada jonkinlaisen lisenssin. Arvostelujärjestelmä on sama riippumatta siitä, missä ne suoritetaan. Niitä voidaan käyttää yliopistoon pääsyä varten, kuten SAT- ja ACT-testejä Yhdysvalloissa tai Gaokao-testejä Kiinan kansantasavallassa (Kiina). Niitä voidaan käyttää työpaikan saamisen edellytyksenä, kuten LSAT-koetta lakimiehille. Standardoidut kokeet voivat olla high-stakes (esim. ura- tai koulutusratkaisuja määrääviä) tai low-stakes (esim. diagnostisia tai seurantamittauksia), ja niiden suunnittelu riippuu usein siitä, miten tarkkaa ja luotettavaa tietoa halutaan saada.

Yhdysvalloissa termiä käytetään usein koulutusjärjestelmässä käytettävistä monivalintakysymyksistä. Joidenkin mielestä ne ovat huono tapa mitata koulutuksen edistymistä. Ne ovat kuitenkin käteviä ja halpoja. Merkitseminen ei edellytä asiantuntemusta oppiaineesta. Kritiikkiä esitetään erityisesti siitä, että standardoidut testit voivat kannustaa "opettamaan testiin" (teach to the test), kaventaa opetussuunnitelmaa ja syrjiä oppilaita, joiden osaaminen ei tule esiin monivalintamuotoisissa tehtävissä.

Monet psykologiset testit on suunniteltu standardisoitaviksi. Ne on suunniteltu "objektiiviseksi ja standardoiduksi käyttäytymisnäytteen mittaamiseksi". Esimerkkejä tällaisista testeistä ovat älykkyysmittarit, persoona-arvioinnit ja erilaiset kliiniset mittarit. Psykologisissa testeissä korostetaan normien muodostamista: miten koe toimii eri ikä- tai väestöryhmissä, sekä reliabiliteetin (mittauksen luotettavuus) ja validiteetin (mittauksen osuvuus) arviointia.

Ensimmäinen tunnettu standardoitu koe tehtiin keisarillisessa Kiinassa, kun keisarinna Wu antoi kaikille kokeen läpäisseille mahdollisuuden päästä hallituksen virkailijaksi pikemminkin ansioidensa kuin syntymäoikeuksiensa perusteella, mikä tarkoittaa, että ihmiset työskentelevät johtajiksi pääsemiseksi sen sijaan, että he syntyisivät johtajiksi. Emme kuitenkaan tiedä tämän järjestelmän yksityiskohtia. Historiallisesti Kiinan virkamieskokeiden (keju-järjestelmä) juuret yltävät useille dynastioille; järjestelmän kehittyessä kokeiden sisältö, arviointitavat ja valintakriteerit muuttuivat, ja myöhemmin kokeissa mitattiin esimerkiksi klassisen kirjallisuuden tuntemusta, kirjoitustaitoa ja analyyttistä ajattelua. Tällainen järjestelmä vaikutti vahvasti siihen, miten valtion virkoihin valittiin henkilöitä monissa Itä-Aasian maissa.

Suunnittelu, validius ja reliabiliteetti

Standardoituja kokeita suunniteltaessa käytetään tyypillisesti seuraavia vaiheita: tehtävien (itemien) kehittäminen, pilottitestaukset, item-analyysejä (mm. vaikeustaso ja erottelukyky), normien muodostus ja lopullinen koeversio. Tärkeitä laadunmittareita ovat:

Reliabiliteetti: mittauksen toistettavuus (esim. testin ja uudelleentestin korrelaatio, sisäinen yhtenäisyys).
Validius: mittaako koe sitä, mitä sen on tarkoitus mitata (sisältövalidius, konstruktiivinen validius, kriteerivalidius).
Fairness ja syrjimättömyys: varmistetaan, etteivät tehtävät aiheuta epäoikeudenmukaista etua tai haittaa tietylle ryhmälle; tarvitaan tasapainoinen normiaineisto ja erilliset ohjeistukset eri ryhmille.

Pisteytys ja tulkinta

Pisteytyksessä käytetään usein raakapisteitä, jotka muunnetaan skaalatuksi pistemääräksi tai prosenttiprosentiksi. Monissa testeissä käytetään ekvivalointi- tai skalautusmenetelmiä, jotta eri koeversion tuloksia voidaan verrata keskenään. Tuloksissa annetaan usein myös percentiili- tai stanine-arvioita, jotka kertovat, missä suhteessa muihin testin suorittaneisiin henkilöihin arvioitu henkilö on. Joissain nykyaikaisissa testeissä hyödynnetään myös tietokoneohjautuvaa mukautuvaa testausta (computerized adaptive testing, CAT), jossa kysymysten vaikeustaso mukautuu vastaajan aiempien vastausten perusteella.

Hyödyt ja haitat

Hyödyt: yhdenmukaisuus, tehokkuus, helppo pisteytys, vertailukelpoisuus eri ajanhetkien ja paikkojen välillä, mahdollisuus laajoihin normiaineistoihin.
Haitat: mittauksen kaventuminen, opettamisen suuntautuminen testiin, kulttuurinen vinouma, yksilöllisten taitojen kuten luovuuden tai sosiaalisten taitojen heikko mittautuvuus, psykologinen paine suorittajalle.

Käyttö käytännössä

Standardoituja kokeita hallinnoi yleensä järjestäjäorganisaatio (yliopisto, viranomainen tai kaupallinen yritys). Testit voidaan toteuttaa paperille tai tietokoneella, valvotusti testikeskuksessa tai hyväksytyllä etätoteutuksella. Turvatoimiin kuuluu tunnistautuminen, valvonta (valvoja tai kameravalvonta), tehtävien vaihtelu eri koeversion välillä ja tietoturvaratkaisut verkko-ympäristössä. Testin kustannukset, saatavuus ja akkommodaatiot (esim. lisäaika erityistarpeita varten) vaikuttavat siihen, kuinka tasa-arvoisesti testi on kaikkien saatavilla.

Vaihtoehdot ja tulevaisuus

Kasvava keskustelu arvioinnin monipuolistamisesta on tuonut esiin vaihtoehtoja standardoiduille testeille, kuten portfolioselvitykset, tutkielmat, suoritustyöt, opettajien arvioinnit ja haastattelut. Tekniikan kehitys mahdollistaa entistä luotettavamman automaattisen arvioinnin, adaptatiivisen testauksen ja datan analysoinnin, mutta samalla herää kysymyksiä algoritmien läpinäkyvyydestä ja mahdollisista vinoumista. Tulevaisuudessa yhä useampi järjestelmä pyrkii yhdistämään standardoidun mittauksen ja muita arviointimuotoja, jotta saataisiin kattavampi kuva oppijan tai hakijan osaamisesta.

Yhteenvetona standardoitu koe tarjoaa tehokkaan ja vertailukelpoisen tavan mitata tietoja ja taitoja, mutta sen suunnittelussa ja käytössä on huomioitava validius, reliabiliteetti, tasa-arvoisuus sekä arvioinnin rajoitukset ja mahdolliset sivuvaikutukset koulutukseen ja yhteiskuntaan.

Standardoitu koe – määritelmä, historia ja käyttötarkoitukset

Suunnittelu, validius ja reliabiliteetti

Pisteytys ja tulkinta

Hyödyt ja haitat

Käyttö käytännössä

Vaihtoehdot ja tulevaisuus

Kysymyksiä ja vastauksia

K: Mikä on standardoitu testi?

K: Mitkä ovat esimerkkejä standardoiduista testeistä?

K: Miksi standardoituja testejä pidetään riittämättömänä koulutuksen edistymisen mittarina?

K: Milloin luotiin ensimmäinen tunnettu standardoitu testi?

K: Miten psykologiset testit voidaan suunnitella standardisoitaviksi?