Robots , i Internet menes program som skanner et nettsted for å samle inn informasjon. Dette er ikke virus - det ingen kode plassert på din maskin , og når roboten er ferdig med nettstedet ditt , er det ingen bevis for at roboten var der. Informasjonen innsamlingsprosessen er ikke nødvendigvis skadelig - du kan ha nytte av besøket. The Robots Exclusion Protocol ( REP) tillater deg å ha en viss kontroll over prosessen . Historie
REP ideen startet i 1994 med en robot leser gruppe ( robots-request@nestor.co.uk ) som en måte å lede roboter gjennom nettsteder. Den grunnleggende ideen var å installere en kort fil med kjent navn og plassering instruerer roboten hvor du skal lete . Disse retningene ville trolig bli ignorert av ondsinnede roboter , men kan brukes av godartede roboter for å spare dem litt tid ved å undersøke bare noen av filene dine. Den grunnleggende protokollen ble forbedret i 2008 av et stort antall av de store Internett-selskaper som Yahoo og Google.
Benign Robots
p Det er noen roboter du faktisk ønsker å besøke ditt nettsted. For eksempel søkemotorer bruker roboter å indeksere Internett. Starter med en enkelt nettside adresse, klassifiserer robot som nettstedet og inneholder en liste over alle linker funnet på nettstedet. Da roboten går nedover listen over innsamlede nettstedet adresser . Som listen over nye nettsteder opprettes hver måned er offentlig tilgjengelig , er det et etterslep av nettsteder for å sjekke at holder robotene jobber dag og natt . Du vil disse robot besøk fordi du vil at søkemotorer skal vite og klassifisere ditt nettsted slik at potensielle kunder kan finne deg gjennom søkemotorer.
Malevolent Robots
roboter kan også brukes til destruktive formål. For eksempel kan roboter kompilere en liste over e - postadresser indeksert av interesser. For å gjøre dette , de ser etter alt som har en " @ "-symbolet og ta strengen rundt det som er bundet med mellomrom. Dette er grunnen til at du vil se noen informatikk professorer gi sin adresse som Professor.Abc { krøllalfa } University.edu - det er å folie onde roboter . Å klassifisere din e - post adresse etter interesse , ser robot i META setning som er en del av koden bak hvert nettsted .
REP Syntax
Robotene . txt er installert i en katalog. Hvis nettstedet er www.widgits.com , stien til robots.txt -filen vil være www.widgits.com /robots.txt. Den første linjen i filen skal være "user -agent: " og den neste linjen vil være "Forby : " - den første linjen velger bestanden av roboter og den andre linjen viser hvilke kataloger er utenfor grensene . Bruk " ; " for å indikere et linjeskift , "bruker- id : * ; /abc /" er de to linje uttalelser som direkte alle roboter for å unngå abc -katalogen. Å tillate SearchBot å undersøke alt , men forby alle andre roboter , ville koden være "bruker- id : SearchBot ; forby : ; bruker- id : * ; forby : /" - * betyr alle roboter , /menes alle kataloger og en mellomrom betyr ingen kataloger.