Søkemotorer som Google eller Yahoo! , trekker websider i sine søkeresultater ved å bruke web- roboter ( også noen ganger kalt edderkopper eller robotsøkeprogrammer ) , som er programmer som skanner Internett og indeksere nettsteder inn i en database . Web roboter kan gjøres ved hjelp av de fleste programmeringsspråk , inkludert C , Perl , Python og PHP , som alle lar programmerere å skrive skript som utfører prosessuelle oppgaver, for eksempel Web skanning og indeksering. Instruksjoner
en
Åpne en vanlig tekstredigering program, for eksempel Notisblokk , som er inkludert med Microsoft Windows , eller Mac OS X TextEdit , hvor du vil forfatteren en Python Web bot -program.
2
Initiere Python-skript ved å inkludere følgende linjer med kode , og erstatte eksempel URL med nettadressen til nettstedet du ønsker å skanne og navnet på eksempelet database med databasen som skal lagre resultatene:
import urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3
inneholde følgende linjer med kode til definere rekkefølgen av operasjoner som Web bot vil følge:
def uniq ( seq ) : set = { } kartet ( set.__setitem__ , seq , []) return set.keys ( )
4
Skaff nettadresser i nettstedets struktur ved hjelp av følgende linjer med kode :
def geturls ( url) : elementer = [ ] request = urllib2.Request ( url) request.add.header ( 'Bruker ', ' Bot_name ;) ' ) innhold = urllib2.urlopen (forespørsel ) . lese ( ) elementer = re.findall (' href = "http://. ? "', innhold ) urls = [ ] retur urls
5
Definer databasen som Web bot vil bruke og angi hvilke opplysninger den skal lagre for å fullføre gjøre nettet bot:
db = open ( db_name , 'a' ) allurls = uniq ( geturls ( enter_point ) )
6
Lagre tekstdokument og laste det opp til en server eller datamaskin med en Internett-tilkobling der du kan utføre skriptet og begynne å skanne nettsider.