Python er en åpen - kildekode , objektorientert programmeringsspråk optimalisert for å bygge dynamiske web-applikasjoner . Ved programmering i Python , må du kanskje å skille HTML formatering fra Python -kode. For eksempel kan en bruker angir en webside i et datafelt , at du må stripe ut HTML-kodene til å lagre tekstdata. For å fjerne HTML-koder fra en streng, bruker den innebygde i Python Regular Expression modul , " Regex . " Instruks
en
Åpne din Python redaktør .
2
laste Regular Expression modulen ved å skrive følgende : en
import re
3
Definer en funksjon for å fjerne alle HTML-koder. For eksempel , skriv inn følgende : en
def delete_html ( data) :
4
Skill HTML kode elementer ved å bruke " re.compile " funksjonen for å kompilere den vanlige uttrykk mønstre til et objekt som du kan bruke for mønstergjenkjenning . Fortsetter eksempel skriver dette : en
htmlPattern = re.compile ( r ' < . ? * >' )
I dette eksempelet , forteller " re.compile " attributt Python for å søke etter strengen " '< .. > " som betyr begynnelsen og slutten HTML-koder.
kvalifiseringskamp " . *? " forteller Python å matche bare kodene . Uten kvalifiseringskamp , returnerer Python strengen "
subhead < /h2 >"; med kvalifiseringen , Python returnerer " . Og < /h2 >"
5
Substitute en plass for all HTML-kode ved hjelp av " sub "-funksjonen . Fortsetter eksempel inn følgende : en
retur htmlPattern.sub ( '' , data)
I dette tilfellet erstatter Python strimler ut HTML-koden og den med en tom plass . På dette punktet , avhengig av hvordan du vil strukturere data , kan du bruke strengen "stripen" funksjonen til å fjerne mellomrom eller bruke vanlige uttrykk , for eksempel "\\ s + , " for å fjerne ekstra mellomrom .