Strukturen og syntaksen til HyperText Markup langauge , eller HTML, ikke bare forteller en nettleser hvordan du kan vise innholdet av en fil , men også identifiserer strukturelle data om selve filen . Disse kodene er også uvurderlig hvis du er en programmerer ute å kode et program som vil strippe bort bestemte deler av en HTML-fil , for eksempel sin topp-og bunntekst . HTML Anatomy
HTML bruker et enkelt system av mark opp koder for å identifisere ulike deler av et HTML-dokument . HTML- filens header er preget av "
" tag , bunnteksten ved
tag . En HTML- leser vil tolke noe mellom åpningen koden og koden som indikerer seksjonens tett , " < /header "> gjennom " < /bunntekst >", som en del av den indikerte delen. Andre koder , for eksempel " " tilsvarer andre deler av filen .
Bilder Identifisere topp-og bunntekst
Når du oppretter kode for å strippe bort HTML topp-og bunntekst, kan du ikke stole på å vite nøyaktig hvor lenge topp-eller bunnteksten vil bli. Mens noen topp-og bunntekst består av en enkelt linje , kan de være mye lenger. Følgelig kan koden ikke bare søke etter " / " tag deretter på ' \\ n' symbol som indikerer slutten på en linje. Når du leser HTML filens innhold inn i en tegnstreng , må du identifisere indeksen posisjonen til den første "<" av den opprinnelige koden samt ">" av terminalen tag .