Datamaskin
  | Hjem | Hardware | Nettverk | Programmering | Software | Feilsøking | Systems | 
Programmering  
  • C /C + + Programming
  • Computer Programmeringsspråk
  • Delphi Programming
  • Java Programming
  • JavaScript Programmering
  • PHP /MySQL programmering
  • Perl Programming
  • Python Programming
  • Ruby Programming
  • Visual Basics Programming
  •  
    Datamaskin >> Programmering >> Computer Programmeringsspråk >> Content
    Hvordan lage en Web Spider
    En web spider er et dataprogram som laster ned en webside, og deretter følger alle linkene på denne siden og laster dem også. Web edderkopper brukes til å lagre nettsider for offline lesing, eller for lagring av nettsider i databaser som skal brukes av en søkemotor . Opprette en web- edderkopp er en utfordrende oppgave , egnet for en college - nivå programmering klasse. Disse instruksjonene forutsetter at du har solid erfaring med programmering , men ingen kunnskap om edderkopp arkitektur . Trinnene legge ut en veldig spesiell arkitektur for å skrive en Web edderkopp i det språket du valgte . Du trenger en Web -leser som reagerer på programmatiske kommandoer
    programmeringsspråk med lese - skrive disk tilgang og database funksjoner
    Vis flere instruksjoner
    en

    Initialiser din program med den første nettsiden du ønsker å laste ned. Legg til URL for denne nettsiden til en ny database tabell over nettadresser.
    2

    Send en kommando til nettleseren instruere det å hente denne web-siden, og lagre den på en disk . Flytte databasen pekeren ett skritt videre forbi URL-en du nettopp lastet ned , noe som vil nå peke på slutten av tabellen .
    3

    Les websiden inn i programmet , og analysere den for linker til flere nettsider. Dette gjøres vanligvis ved å søke etter den tekststrengen " http://", og fange teksten mellom strengen og en avslutning karakter (for eksempel " ", " . " , Eller ">" ) . Legg til linker til URL database bordet; databasen pekeren bør forbli på toppen av denne nye listen
    4

    Test oppføringene i databasen tabellen for unikhet, og fjern eventuelle nettadresser som vises mer enn én gang. .
    5 p Hvis du ønsker å søke en URL filter (for eksempel for å forhindre nedlasting av sider fra nettsteder på ulike domener ) , gjelder det nå til URL database tabell og fjerne eventuelle nettadresser du ikke ønsker for å laste ned .
    6

    Sett opp en programmatisk løkke slik at edderkoppen går tilbake til trinn 2 ovenfor . Dette vil rekursivt laste ned alle nettadressene din edderkopp møter . Fjerne duplikatnettadresser sikrer at edderkoppen vil riktig opphøre når den når den siste unik nettadresse .

    früher :

     Weiter:
      Relatert Artike
    ·Hvordan lage en DLL Samtale LabVIEW 
    ·Slik installerer Turbo Pascal 
    ·Hvordan å lære ASP 
    ·Hvordan å kutte ned filstørrelse i XNA 
    ·Hvordan fikse tidsstempler Bruke AWK 
    ·Hvordan lage en kolonne på en GridView droplist 
    ·Hva er Mikrodata HTML5 
    ·Den første personen til å skrive programkode 
    ·Hvordan skrive en Shell Script for å slette filer 
    ·Hva Er Client Server Integration System 
      Anbefalte artikler
    ·Hvordan : ScrollArea i Python 
    ·PHP Fatal feil: Kan ikke Unset String forskyvninger 
    ·Slik konverterer en binær verdi i Visual Basic 6 
    ·Bruken av Python Numeric.Arange Function 
    ·PHP og MySQL Logg Sikkerhet 
    ·Hvordan lage Font Processing 
    ·Hvordan Sammenlign Java Script String 
    ·Kan du ha VS farger for SQL 
    ·Hvordan Tilføy en streng i Python 
    ·Slik bruker du en RAID-kontroller -kort i DOS 
    Copyright ©  Datamaskin  http://www.datamaskin.biz/