programmeringsspråket Python kan støtte HTML 5 nettsider ved hjelp av bibliotekets Html5lib . ' Dette biblioteket kan du skrive Python- skript som parse HTML 5 sider ved hjelp av en trestruktur . Trestrukturer er hierarkiske utsikt nettsider elementer . Tilgang nettside elementer gjøres ved hjelp av et tre walker . Treet walker ' går ' langs tilkoblinger av tre noder , og kan traversere hele treet . Du kan bruke Python med ' Html5lib "for å åpne , vise og skrive ut en HTML 5 nettsted. Du trenger
Python 3.2 programmeringsspråk med Html5lib modul
Vis flere instruksjoner
en
Åpne IDLE tekst editor i Programfiler ( eller applikasjoner for Macintosh ) i Python -katalogen. En tom kildekoden filen åpnes
2
Import av " Html5lib " modulen ved å skrive følgende utsagn på toppen av kildekoden filen: .
Import html5lib
< p > fra html5lib import treebuilders , treewalkers , serialisatortillegg
import urllib2
3
Lag en ny HTML 5 parser , som du skal bruke til å lese en HTML-nettsted . Erklære en ny parser ved å skrive følgende : en
parser = html5lib.HTMLParser ( )
4
Åpne en nettside ved å sende sitt navn inn i urllib2.urlopen funksjonen. For eksempel, hvis du ønsker å åpne " www.website_adddress.com , " skriver følgende: .
URL = urllib2.urlopen ( " http://www.website_address.com ") lese ( )
5
Pass nettstedet i HTML 5 parser til å motta et tre representasjon . Lagre dette representasjon i en variabel kalt " treet" ved å skrive følgende utsagn : en
tre = parser.parse ( URL )
6
Lag et tre walker som dette:
treeWalker = treewalkers.getTreeWalker ( " dom ")
7
Walk gjennom treet ved hjelp av tre rullator . Treet walker vil returnere en strøm av informasjon som den oppdager i HTML 5 nettsiden. Å gå gjennom treet , skriver følgende : en
stream = treeWalker ( tre)
8
serialize strømmen , slik at du enkelt kan sende dem til konsollen . Du kan seriekopiere strømmen ved hjelp av følgende to utsagn :
serielle = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
output = serial.serialize ( stream)
9
Iterate gjennom serialized produksjonen av bekken som dette : en
for element i produksjonen :
10
innrykk linjen umiddelbart etter den forrige setningen og skrive en print-funksjon , som dette : en
print ( element)
11
Kjør programmet ved å trykke F5 . Skriptet vil åpne, og deretter analysere en HTML 5 nettside . Manuset serializes da trestrukturen på siden og sender dem til konsollen . Utgangen vil variere avhengig av nettsiden valgt, men kan se omtrent slik ut : en
< /head>
Velkommen til en nettside !
< /body >
< /html >