ENCODE on laaja projekti, jonka tavoitteena on laatia kattava DNA-elementtien tietosanakirja ihmisen genomille. ENCODE (ENcyclopedia Of DNA Elements) käynnistettiin vuonna 2003 tunnistamaan ja luokittelemaan kaikki ihmisen genomin toiminnalliset alueet. Hanke rahoitettiin pääosin Yhdysvaltain kansallisesta genomitutkimuslaitoksesta ja siihen osallistui yli 400 tutkijaa 32 laboratoriosta ympäri maailmaa: Yhdysvalloissa, Yhdistyneessä kuningaskunnassa, Espanjassa, Singaporessa ja Japanissa. Tulokset julkaistiin yhteensä 30 avoimessa julkaisussa kolmessa vertaisarvioidussa lehdessä: Nature, Genome Biology ja Genome Research. Tämä on yksi perusteellisimmista ja eniten dataa tuottaneista ihmisen genomia koskevista analyyseista.
Yksinkertaistettu yhteenveto ENCODE-projektin keskeisistä havainnoista:
- Vain noin 1 % genomista koodaa proteiineja. Tämä vastaa arvioitua noin 21 000 proteiinia koodaavaa geeniä, ja proteiineja koodaavat alueet muodostavat pienen osan kokonaigenomista.
- Promoottorialueita tunnistettiin noin 70 000. Nämä alueet sijaitsevat usein geenien yläjuoksulla, ja niihin sitoutuvat proteiinit ohjaavat geenin ilmentymistä.
- Tehostinalueita (enhancers) on arviolta noin 400 000. Tehostimet voivat säädellä kaukana sijaitsevien geenien toimintaa ja toimia solutyypistä riippuvaisella tavalla.
- Geenien "kytkimiksi" määriteltyjä säätelyelementtejä on runsaasti — arvio noin 4 000 000. Näillä DNA-sekvensseillä voidaan ohjata geenien kytkeytymistä päälle tai pois päältä; monet sijaitsevat kaukana sääteltynä olevasta geenistä.
- Arviolta noin 80 % genomista osoittaa jonkinlaista biokemiallista aktiivisuutta. Tämä tarkoittaa, että suuri osa DNA:sta osallistuu esimerkiksi proteiinien tai RNA-molekyylien sitomiseen, transkription säätelyyn tai kromatiinin rakenteen muokkaamiseen. ENCODE-raportissa käytetty termi (biokemiallinen) viittaa havaittuun molekyylitasoiseen toimintaan; sen tulkinta laajempana biologisena "toimintana" on herättänyt keskustelua.
- Evoluutio vaikuttaa sekä proteiineja koodaavien sekvenssien että säätelyalueiden kautta. Muutokset DNA:n säätelyalueissa voivat selittää lajien välisiä fenotyyppisiä eroja yhtä lailla kuin proteiinikoodaavien geenien muutokset.
"Yksi evoluutiobiologian suurista haasteista on ymmärtää, miten lajien väliset erot DNA-sekvenssissä määräävät erot niiden fenotyypeissä. Evolutiivinen muutos voi tapahtua sekä proteiineja koodaavien sekvenssien muutosten että geenien säätelyä muuttavien sekvenssimuutosten kautta".
Käytetyt menetelmät ja aineistot
ENCODE-hanke hyödynsi monipuolisia nykyaikaisia genomikan menetelmiä ja tuotti valtavia määriä avoimia aineistoja. Keskeisiä lähestymistapoja olivat muun muassa:
- Transkriptoidun RNA:n eristäminen ja sekvensointi (esimerkiksi RNA-seq ja CAGE) tutkittiin laajasti: He eristivät ja sekvensoivat genomista transkriptoituneen RNA:n.
- Proteiinin ja DNA:n välisiä sitoutumiskohtia kartoitettiin laajasti (mm. ChIP-seq-tyyppisillä kokeilla): He tunnistivat sitoutumiskohdat noin 120 transkriptiotuotteelle.
- Kromatiinin ja histonimuutosten kartoitus auttoi paikantamaan aktiivisia ja hiljaisia alueita genomissa: He tutkivat histoneihin tehtyjen kemiallisten muutosten malleja. Tarkoituksena oli löytää alueita, joilla geenien ilmentyminen lisääntyy tai estyy.
- Monia eri tekniikoita käytettiin yhdessä, kuten DNase I -hypersensitiivisyysmetodit, FAIRE ja muita kromatiinin avoimuutta kuvaavia mittauksia.
- Laaja kokeellinen kattaus: He tekivät 1648 koetta 147 solutyypillä, jolloin saatiin solutyyppikohtaisia tietoja säätelyverkostoista ja elementtien toiminnasta.
Merkitys, tulkinta ja kritiikki
ENCODE avasi laajan kuvan siitä, miten paljon genomissa tapahtuu molekyylitasolla ja kuinka suuri osa DNA:sta voi sitoutua proteiineihin tai transkriboitua. Tämä muutti käsitystä pelkästään "geeneistä" ja korosti säätelyalueiden merkitystä perinnöllisyyden ja evoluution kannalta. Toisaalta tulkinnasta seurasi keskustelua:
- Suurin yksittäinen kiistakysymys liittyy väitteeseen, että "noin 80 % genomista on biokemiallisesti aktiivista". Biokemiallinen aktiivisuus (esim. proteiinien sitoutuminen tai transkription merkit) ei aina tarkoita, että kyseinen sekvenssi olisi organismille olennainen tai että sillä olisi havaittavissa oleva biologinen funktio.
- Evolutiivinen säilyneisyys ja positiivinen valinta osoittavat, että vain osa genomin alueista on ollut pitkällä aikavälillä valinnan alaisena. Monet biokemialliset merkit voivat olla sivutuotteita tai tilapäistä soluprosessointia.
- Se, miten määritellään "toiminnallinen" DNA, vaikuttaa merkittävästi arvioihin. ENCODE tarjosi runsaasti dataa, mutta tulkintavaatimukset ovat monimutkaisia ja vaativat yhteistä biokemiallista, evolutiivista ja fysiologista näyttöä.
ENCODE:n aineistot ja julkaisut ovat olleet arvokas resurssi genomitutkimukselle: ne ovat auttaneet löytämään uusia säätelyalueita, yhdistämään perinnöllisiä variantteja sairauksien tiloihin ja rakentamaan yksityiskohtaisempia säätelyverkostoja. Samalla ne ovat nostaneet esiin tarpeen selkeämmille määritelmille ja jatkotutkimuksille, jotka erottavat tilapäisen biokemiallisen aktiivisuuden evolutiivisesti merkittävästä toiminnasta.
Tähän työhön liittyvät uutiset olivat laajasti esillä tieteellisessä ja yleisessä mediassa, ja hanke synnytti sekä innostusta että kriittistä keskustelua genomin toiminnallisuuden tulkinnasta. ENCODE:n data on julkista ja sitä voi hyödyntää jatkotutkimuksissa, meta-analyyseissa ja esimerkiksi genomilääketieteen sovelluksissa.