Bioinformatikk er anvendelsen av informatikk teknikker til feltet av biologi. Målene for bioinformatikk er å bistå livet forskere i å organisere biologiske data og utvikle de nødvendige dataverktøy for oppdagelsen av nye vitenskapelige hypoteser . Klassifiseringsteknikker , også kjent som clustering teknikker, er viktig i bioinformatikk som de tillater skille av ulike biologiske data med lignende attributter inn i forskjellige sett. Historie
Størrelsen av biologiske data har vokst eksponentielt , med en dobling av opplysninger observert hver 15 måneder. Som et resultat, er informatikk og informatikk teknikker brukes intensivt i behandling og forvaltning av biologiske data . Den mest grunnleggende begrep i bioinformatikk er at de fleste biologiske data dele lignende egenskaper og kan deles inn i klynger . For eksempel kan genene av en organisme kan klassifiseres i deres funksjonelle grupper eller metabolske veier . Proteiner kan også bli klassifisert på grunnlag av gener som blir uttrykt . Klassifisering eller clustering teknikker er nødvendig i forvaltningen av store databaser av genetiske og biologiske data . Det finnes to hovedtyper av klassifiseringsteknikker i bioinformatikk : . De hierarkiske og k- Betyr klassifisering teknikker
hierarkisk klassifisering
hierarkisk klassifisering teknikk organiserer biologiske data inn i en tre datastruktur . Gener er uttrykt som noder i treet, mens hver sub - tre av noder representerer en klynge eller gruppering av gener . Treet kan bli enten forankret eller unrooted . En rotfestet treet er definert som et tre med bare en enkelt node på toppen. I kontrast har en unrooted tre flere øverste noder.
K- Betyr Klassifisering
En mer komplisert klassifisering teknikken er k- Betyr klassifisering , som forsøker å finne et sett med sentre som minimerer plassen error forvrengning blant de datasettene i flerdimensjonale plass . En klynge er klassifisert ved å gruppere relaterte poeng til nærmeste sentrum . Lloyd algoritmen brukes ofte i k- Betyr klassifisering teknikk . I denne algoritmen , er datapunkter tilfeldig arrangert i separate klynger , som senere blir optimalisert for å produsere de minimale lokale firkantede feil forvrengninger .
Betydning
Etter relaterte proteiner har vært klassifiseres i lignende grupper , kan livet forskerne bruke denne informasjonen til å forutsi egenskapene til visse mindre studerte proteiner . Dette er også anvendelig til andre aspekter av strukturen av proteiner. En annen bruk av klassifiseringsteknikker er å løse problemet med å bestemme den evolusjonære tre av visse organismer basert på deres genetiske sekvenser. Den evolusjonære treet er konstruert av den DNA -sekvensen av organismen ved hjelp av enten hierarkisk eller k- Betyr klassifiseringsteknikker .
Hensyn
hierarkisk klassifisering teknikken er en relativt enkel og effektiv måte clustering biologiske data . Derimot finnes det ingen effektiv algoritme ved tidspunktet for skriving som er i stand til å utføre k- middel klassifisering teknikk effektivt som størrelsen av de biologiske data øker. Dette tyder på at en stor regnekraft er ofte nødvendig for å utføre k- Betyr klassifisering, som er en viktig faktor å vurdere når du velger klassifiseringen teknikk å bruke i bioinformatikk applikasjoner.