A FASTA - format filen inneholder én eller flere sekvenser av nukleotider i DNA. Den FASTA format oppsto med FASTA programvarepakke for DNA -sekvensering , selv om det har blitt en standard format for representasjon av DNA-sekvenser i bioinformatikk . FASTA er et enkelt format som gjør sekvenser lett å analysere ved hjelp av skriptspråk som Perl og Python . Oversikt
grunnlag av en fil er en linje som starter med " >" karakter og etterfulgt av tekst som identifiserer opprinnelsen til sekvensen. Overskriften er vanligvis færre enn 80 tegn . Linjen følger denne header linje inneholder en serie med tegn som representerer nukleotider i DNA eller aminosyre rester i en peptidsekvens .
Tillatt DNA Tegn
Kun meningsfulle tegn er tillatt som en del av en sekvens FASTA . Sekvenser kan bestå av A, C, T , G eller U , tilsvarende nukleotidene adenosin , cytosin , thymidin , guanin eller uracil hhv . Imidlertid kan den nøyaktige identitet av nukleotid ikke alltid være til stede fra sekvensering . FASTA inneholder også koder som representerer de mulige nukleotider når usikkerheten er til stede . Koden N brukes når ingen bestemmelse kan gjøres og X når nukleotidet er maskert av andre molekyler. Den " - " koden brukes til å representere et gap av ubestemmelig lengde
tillatt Peptid Tegn
En alfanumerisk kode kan også brukes til å representere. de 24 aminosyrene som finnes i en peptidsekvens . Dersom et peptid som ikke kan bestemmes , er koden X som brukes , i likhet med en DNA-sekvens . En " * " benyttes for å indikere den terminus eller translasjons-stopp- sekvens av et peptid. Et "-" . Brukes også til å representere et gap i sekvensering data for peptider
Annen informasjon
NCBI setter en standard sekvens ID , eller SeqID , for bruk i FASTA topptekstlinjene , men det er ingen definitiv standard for inkludering i FASTA header linje. En FASTA fil som inneholder flere sekvenser er kjent som en multi - FASTA fil. FASTA filer kan ha filtypen " . Fasta ", " . Fna ", " . Ffn ", " . Faa ", " . Frn " eller " . Fas . "