Omavalvonta-, analysointi- ja raportointitekniikka
Self-Monitoring, Analysis, and Reporting Technology eli S.M.A.R.T. on järjestelmä, joka tarkkailee tietokoneen kiintolevyjä ja auttaa estämään vikojen riskin. Se tekee tämän tarkkailemalla kiintolevyjen luotettavuutta ja yrittää havaita, milloin ja missä vika voi tapahtua.
Tausta
Kiintolevyviat jakautuvat kahteen luokkaan:
- Ennakoitavissa olevat epäonnistumiset" tapahtuvat pidemmän ajan kuluessa. Esimerkkejä tästä ovat mekaaninen kuluminen tai tallennuslaitteen pinnan heikkeneminen.
- Ennalta arvaamattomat vikaantumiset tapahtuvat yhtäkkiä ja ennalta arvaamattomalla tavalla. Esimerkkejä tästä ovat elektroniikkakomponentin vikaantuminen tai äkillinen mekaaninen vikaantuminen, joka voi johtua huonosta käsittelystä.
Ennakoitavat viat voidaan havaita tietyillä valvontalaitteilla. Tämä on kuin ajoneuvon lämpömittari, joka voi varoittaa kuljettajaa tekemään jotain ennen kuin vakavia vaurioita tapahtuu, esimerkiksi moottorin liian kuumuuden vuoksi.
Noin 60 prosenttia kaikista taajuusmuuttajan vioista johtuu mekaanisista vioista. Useimmat mekaaniset viat johtuvat asteittaisesta kulumisesta. Lopullinen vikaantuminen voi olla katastrofaalinen. Ennen täydellistä vikaantumista on yleensä tiettyjä merkkejä siitä, että vikaantuminen on lähellä. Näitä voivat olla lisääntynyt lämmöntuotto, äänekkäämpi asema, ongelmat tietojen lukemisessa tai kirjoittamisessa ja vaurioituneiden levysektoreiden määrän suuri kasvu.
S.M.A.R.T.:n tarkoituksena on varoittaa käyttäjää tai järjestelmänvalvojaa siitä, että asema on vikaantumassa. Varoitushetkellä on yleensä vielä aikaa tehdä tiettyjä toimenpiteitä tietojen menettämisen estämiseksi, esimerkiksi kopioida tiedot toiselle asemalle. S.M.A.R.T.:n avulla voidaan ennustaa noin 30 prosenttia vioista. Googlen yli 100 000 asemalla tekemä työ on osoittanut, että S.M.A.R.T.-tilan yleinen ennustearvo on kokonaisuudessaan vähäinen. Tutkimus osoittaa, että tietyt tietojen alaluokat, joita jotkin S.M.A.R.T.-toteutukset seuraavat, korreloivat todellisen vikaantumisasteen kanssa. 60 päivän kuluessa aseman ensimmäisestä skannausvirheestä asema vikaantuu keskimäärin 39 kertaa todennäköisemmin kuin se olisi vikaantunut, jos tällaista virhettä ei olisi tapahtunut. Myös ensimmäiset virheet uudelleenjakelussa, offline-uudelleenjakelussa ja todennäköisyyslaskennassa korreloivat vahvasti suurempiin vikaantumistodennäköisyyksiin.
PCTechGuiden S.M.A.R.T.-sivulla kommentoitiin vuonna 2003, että teknologia on käynyt läpi kolme vaihetta:
" | Alkuperäisessä muodossaan SMART tarjosi vikojen ennustamisen tarkkailemalla tiettyjä kiintolevyn online-toimintoja. Myöhemmässä versiossa vikojen ennustamista parannettiin lisäämällä automaattinen offline-lukutarkistus, jolla seurattiin muita toimintoja. Uusin SMART-tekniikka ei ainoastaan valvo kiintolevyn toimintoja, vaan se myös ehkäisee vikoja havaitsemalla ja korjaamalla sektorivirheitä. Kun aiemmat versiot seurasivat kiintolevyn toimintaa vain käyttöjärjestelmän hakemien tietojen osalta, uusin SMART testaa kaikki tiedot ja kaikki aseman sektorit käyttämällä "off-line-tiedonkeruuta" aseman kunnon vahvistamiseksi käyttämättömien jaksojen aikana. | " |
Historia ja edeltäjät
IBM esitteli alan ensimmäisen kiintolevyjen valvontatekniikan vuonna 1992 AS/400-palvelimille tarkoitetuissa IBM 9337 -levyasemissa, joissa käytettiin IBM 0662 SCSI-2 -levyasemia. Myöhemmin se sai nimekseen Predictive Failure Analysis (PFA) -tekniikka. Siinä mitattiin useita keskeisiä laitteen kunnon parametreja ja arvioitiin niitä aseman laiteohjelmistossa. Fyysisen yksikön ja valvontaohjelmiston välinen tiedonsiirto rajoittui binääriseen tulokseen eli joko "laite on kunnossa" tai "asema todennäköisesti vikaantuu pian".
Myöhemmin tietokonevalmistaja Compaq ja levyasemavalmistajat Seagate, Quantum ja Conner loivat toisen muunnelman, jonka nimi oli IntelliSafe. Levyasemat mittaisivat levyn "terveysparametreja", ja arvot siirrettäisiin käyttöjärjestelmään ja käyttäjän tilaa valvovaan ohjelmistoon. Kukin levyaseman valmistaja sai vapaasti päättää, mitkä parametrit otettaisiin mukaan seurantaan ja mitkä olisivat niiden raja-arvot. Yhtenäistäminen tapahtui protokollatasolla isäntäkoneen kanssa.
Compaq toimitti toteutuksensa Small Form -komitealle standardointia varten vuoden 1995 alussa. Sitä tukivat IBM, Compaqin kehityskumppanit Seagate, Quantum ja Conner sekä Western Digital, jolla ei tuolloin ollut vikojen ennustejärjestelmää. Komitea valitsi IntelliSafen lähestymistavan, koska se tarjosi enemmän joustavuutta. Yhteisesti kehitetty standardi nimettiin S.M.A.R.T.:ksi.
SMART-tiedot
SMARTin tekninen dokumentaatio on AT-liitännäisstandardissa (ATA).
SMARTin tarjoamat perustiedot ovat SMARTin tila. Se antaa vain kaksi arvoa: "kynnysarvo ei ylittynyt" ja "kynnysarvo ylittynyt". Usein nämä esitetään muodossa "taajuusmuuttaja OK" tai "taajuusmuuttaja vikaantunut". Kynnysarvo ylitetty -arvon on tarkoitus osoittaa, että on suhteellisen suuri todennäköisyys, että asema ei kykene täyttämään määrittelyjään tulevaisuudessa - toisin sanoen asema on "vikaantumassa". Ennustettu vika voi olla katastrofaalinen, tai se voi olla niinkin hienovarainen asia kuin kyvyttömyys kirjoittaa tietyille sektoreille tai ehkä hitaampi suorituskyky kuin valmistajan ilmoittama vähimmäisteho.
SMART-tila ei välttämättä kerro aseman aiemmasta tai nykyisestä luotettavuudesta. Jos asema on jo vikaantunut katastrofaalisesti, SMART-tilaa ei ehkä voi nähdä. Vaihtoehtoisesti, jos taajuusmuuttajassa on ollut ongelmia aiemmin, mutta anturit eivät enää havaitse tällaisia ongelmia, SMART-tila voi valmistajan ohjelmoinnista riippuen antaa ymmärtää, että taajuusmuuttaja on nyt kunnossa.
Joidenkin sektoreiden lukukyvyttömyys ei aina ole merkki siitä, että asema on menossa epäkuntoon. Yksi tapa, jolla lukukelvottomia sektoreita voi syntyä, vaikka asema toimisi määritysten mukaisesti, on äkillinen sähkökatkos aseman kirjoituksen aikana. Tämän ongelman estämiseksi nykyaikaiset kiintolevyt kirjoittavat aina ainakin nykyisen sektorin loppuun heti virran katkeamisen jälkeen (yleensä levyn pyörivän energian avulla). Lisäksi vaikka fyysinen levy vaurioituu jossakin kohdassa niin, että tiettyä sektoria ei voi lukea, levy voi käyttää ylimääräistä tilaa huonon alueen korvaamiseen, jolloin sektori voidaan korvata.
Lisätietoja aseman kunnosta saat tarkastelemalla SMART-attribuutteja. SMART-attribuutit sisältyivät joihinkin ATA-standardin luonnoksiin, mutta ne poistettiin ennen kuin standardista tuli lopullinen. Attribuuttien merkitys ja tulkinta vaihtelevat valmistajakohtaisesti, ja niitä pidetään joskus valmistajan liikesalaisuutena. Attribuutteja käsitellään tarkemmin jäljempänä.
SMART-järjestelmällä varustetut asemat voivat valinnaisesti tukea useita "lokitietoja". Virhelokiin tallennetaan tiedot viimeisimmistä virheistä, jotka asema on raportoinut isäntätietokoneelle. Tämän lokin tutkiminen voi auttaa määrittämään, liittyvätkö tietokoneen ongelmat levyyn vai johtuvatko ne jostain muusta.
SMARTia tukeva asema voi valinnaisesti tukea useita itsetestaus- tai huoltorutiineja, ja testien tulokset säilytetään itsetestauslokissa. Itsetestausrutiinien avulla voidaan havaita levyn lukukelvottomat sektorit, jotta ne voidaan palauttaa varmuuskopioiduista lähteistä (esimerkiksi RAID-järjestelmän muista levyistä). Tämä auttaa vähentämään pysyvän tietojen menetyksen riskiä.
Standardit ja täytäntöönpano
Monet emolevyt näyttävät varoitusviestin, kun levyasema lähestyy vikaantumista. Vaikka useimmat suuret kiintolevyvalmistajat ovatkin käyttäneet tätä standardia, on vielä joitakin ongelmia, ja yksittäisillä valmistajilla on paljon omaa "salaista tietoa" omasta lähestymistavastaan.
Oikeudellisesta näkökulmasta termi "S.M.A.R.T." viittaa ainoastaan levyaseman sisäisten sähkömekaanisten antureiden ja isäntätietokoneen väliseen signaalimenetelmään. Näin ollen valmistajat voivat väittää aseman sisältävän S.M.A.R.T.-tuen, vaikka se ei sisältäisikään esimerkiksi lämpötila-anturia, jonka asiakas voisi kohtuudella olettaa olevan mukana. Lisäksi äärimmäisessä tapauksessa levynvalmistaja voisi teoriassa valmistaa aseman, jossa on anturi vain yhtä fyysistä ominaisuutta varten, ja mainostaa tuotetta laillisesti "SMART-yhteensopivana".
Käytettävän liitännän tyypistä riippuen jotkin S.M.A.R.T.-yhteensopivat emolevyt ja niihin liittyvät ohjelmistot eivät ehkä kommunikoi tiettyjen S.M.A.R.T.-yhteensopivien asemien kanssa. Esimerkiksi vain harvat USB- ja Firewire-liitännän kautta liitetyt ulkoiset asemat lähettävät oikein S.M.A.R.T.-tietoja näiden liitäntöjen kautta. Koska kiintolevyjä voidaan liittää niin monella eri tavalla (SCSI, Fibre Channel, ATA, SATA, SAS, SSA ja niin edelleen), on vaikea ennustaa, toimivatko S.M.A.R.T.-raportit oikein tietyssä järjestelmässä.
Jopa kiintolevyissä ja liitännöissä, jotka tukevat sitä, S.M.A.R.T.-tiedot eivät välttämättä ilmoiteta oikein tietokoneen käyttöjärjestelmälle. Jotkin levyohjaimet voivat toistaa kaikki kirjoitusoperaatiot toissijaisella "vara-asemalla" reaaliajassa. Tämä ominaisuus tunnetaan nimellä "RAID-peilaus". Monet ohjelmat, jotka on suunniteltu analysoimaan aseman käyttäytymisen muutoksia ja välittämään S.M.A.R.T.-hälytyksiä käyttäjälle, eivät kuitenkaan toimi oikein, kun tietokonejärjestelmä on konfiguroitu RAID-tukea varten. Tämä johtuu yleensä siitä, että RAID-järjestelmän alijärjestelmä ei salli tietokoneen tavanomaisissa RAID-toimintaolosuhteissa "nähdä" (tai käyttää suoraan yksittäisiä fyysisiä asemia), vaan se voi käyttää vain loogisia volyymeita.
Windows-käyttöjärjestelmässä monet ohjelmat, jotka on suunniteltu valvomaan ja raportoimaan SMART-tietoja, toimivat vain järjestelmänvalvojan tilillä. Tällä hetkellä valmistajat toteuttavat S.M.A.R.T.:n yksilöllisesti, ja vaikka jotkin näkökohdat on standardoitu yhteensopivuuden vuoksi, toisia ei ole.
ATA S.M.A.R.T. -attribuutit
Kukin taajuusmuuttajan valmistaja määrittelee joukon ominaisuuksia ja asettaa raja-arvot, joiden ylittyessä ominaisuuksia ei saa siirtää normaalissa käytössä. Kullakin ominaisuudella on raakamäärä, jonka merkitys riippuu täysin aseman valmistajasta (mutta vastaa usein lukumääriä tai fyysistä yksikköä, kuten celsiusasteita tai sekunteja), ja normalisoitu arvo, joka vaihtelee välillä 1-253 (1 edustaa huonointa tapausta ja 253 parasta). Valmistajasta riippuen "normaaliksi" arvoksi valitaan usein arvo 100 tai 200.
Valmistajat, jotka ovat tukeneet vähintään yhtä S.M.A.R.T.-ominaisuutta eri tuotteissa, ovat muun muassa seuraavat: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital ja ExcelStor Technology.
Kynnysarvo Ylittää ehdon
Threshold Exceeds Condition (TEC) on oletettu päivämäärä, jolloin kriittinen taajuusmuuttajatilasto-ominaisuus saavuttaa kynnysarvonsa. Kun Drive Health -ohjelmisto ilmoittaa "Lähin T.E.C." -arvon, sitä on pidettävä "vikaantumispäivämääränä".
Tämän päivämäärän ennuste perustuu tekijään "Ominaisuuden muutoksen nopeus"; kuinka monta pistettä kuukaudessa arvo laskee tai nousee. Tämä tekijä lasketaan automaattisesti jokaisen S.M.A.R.T.-attribuutin muuttuessa kunkin attribuutin osalta erikseen. Huomaa, että TEC-päivämäärät eivät ole takuita; kiintolevyt voivat kestää ja kestävät paljon kauemmin tai vikaantuvat paljon aikaisemmin kuin TEC-päivämäärän antama päivämäärä.