Skraping og parsing er to nært beslektede nettstedet data -mining praksis. Jo mer generelt, parsing , refererer til bryte ned data i sine enkelte bestanddeler . Når ungdomsskole engelsklærer ba deg om å diagram setninger , var du parsing ordene til disse setningene for sine ordklasser . Skraping mer spesifikt refererer til web-sider analyseringen for bestemte typer data , i dette tilfellet , adresser. Programmeringsspråket Python og " BeautifulSoup " forlengelse tillate brukeren å skrape og analysere nettsteder i noen få linjer med kode. Du trenger
Python 2.6 eller høyere
BeautifulSoup 3.2
Vis flere instruksjoner
en
Installer BeautifulSoup ved å laste ned den nyeste versjonen fra simpelt ut programvare og untar /unzip filen. Åpne et terminal vindu og skriv inn følgende kommando: My- iMac: ~ meg $ python Downloads/BeautifulSoup-3.2.0/python setup.py install
p Dette forteller Python tolk for å kjøre BeautifulSoup install script som kan finnes i BeautfulSoup mappen som ligger i Nedlastinger- mappen
2
Type Python ved ledeteksten , trykker Enter og import BeautifulSoup : . My- iMac: ~ meg $ python >>> import BeautifulSoup
3
Kjør følgende skript for å åpne en nettside og skrive ut alle Universal Resource Locator ( web-adresser ) du kan finne i en side : >>> import urllib2 >> ; > page = urllib2.urlopen ( " http://www.THE URL DU ØNSKER å skrape HER ") >>> suppe = BeautifulSoup (side ) >>> soup.findAll ( 'a ') >>> print soup.strip ( ) >>> printThis skriptet vil åpne en web side , analysere html , søker du etter tag der Web- adresser er innebygd, fjerne kodene og la teksten .