En web spider er et dataprogram som laster ned en webside, og deretter følger alle linkene på denne siden og laster dem også. Web edderkopper brukes til å lagre nettsider for offline lesing, eller for lagring av nettsider i databaser som skal brukes av en søkemotor . Opprette en web- edderkopp er en utfordrende oppgave , egnet for en college - nivå programmering klasse. Disse instruksjonene forutsetter at du har solid erfaring med programmering , men ingen kunnskap om edderkopp arkitektur . Trinnene legge ut en veldig spesiell arkitektur for å skrive en Web edderkopp i det språket du valgte . Du trenger en Web -leser som reagerer på programmatiske kommandoer
programmeringsspråk med lese - skrive disk tilgang og database funksjoner
Vis flere instruksjoner
en
Initialiser din program med den første nettsiden du ønsker å laste ned. Legg til URL for denne nettsiden til en ny database tabell over nettadresser.
2
Send en kommando til nettleseren instruere det å hente denne web-siden, og lagre den på en disk . Flytte databasen pekeren ett skritt videre forbi URL-en du nettopp lastet ned , noe som vil nå peke på slutten av tabellen .
3
Les websiden inn i programmet , og analysere den for linker til flere nettsider. Dette gjøres vanligvis ved å søke etter den tekststrengen " http://", og fange teksten mellom strengen og en avslutning karakter (for eksempel " ", " . " , Eller ">" ) . Legg til linker til URL database bordet; databasen pekeren bør forbli på toppen av denne nye listen
4
Test oppføringene i databasen tabellen for unikhet, og fjern eventuelle nettadresser som vises mer enn én gang. .
5 p Hvis du ønsker å søke en URL filter (for eksempel for å forhindre nedlasting av sider fra nettsteder på ulike domener ) , gjelder det nå til URL database tabell og fjerne eventuelle nettadresser du ikke ønsker for å laste ned .
6
Sett opp en programmatisk løkke slik at edderkoppen går tilbake til trinn 2 ovenfor . Dette vil rekursivt laste ned alle nettadressene din edderkopp møter . Fjerne duplikatnettadresser sikrer at edderkoppen vil riktig opphøre når den når den siste unik nettadresse .