Back to Question Center
0

Semalt Ekspert: Python ja BeautifulSoup. Hõõruge saidid kergesti

1 answers:

Andmeanalüüsi või masinaprogrammide läbiviimisel peate võib-olla veebisaite kraapima vajalikud andmed ja oma projekt lõpule viia. Pythoni programmeerimiskeelt saab kasutada selleks otstarbeks kasutatavaid tööriistu ja mooduleid. Näiteks saate HTML-parsimisel kasutada BeautifulSoup moodulit.

Siin vaatame BeautifulSoupi ja selgitame välja, miks seda nüüd laialdaselt kasutatakse veebi kraapimiseks .

BeautifulSoup funktsioonid

- See pakub mitmesuguseid hõlpsaid navigeerimis-, parsimispuude otsimist ja muutmist hõlbustavaid meetodeid, võimaldades teil dokumendi hõlpsalt lahti lõigata ja ekstraktida kõik, mida vajate, ilma liiga palju koodi kirjutamata.

- See teisendab automaatselt väljaminevad dokumendid UTF-8-le ja sissetulevad dokumendid Unicode'i. See tähendab, et te ei pea muretsema kodeeringute pärast, kui dokumendis on määratud kodeering või ilus supp saab seda automaatselt tuvastada.

- BeautifulSoupi peetakse paremaks teiste populaarsete Pythoni parseritega, näiteks html5lib ja lxml. See võimaldab proovida erinevaid analüüsivaid strateegiaid. Selle mooduli üheks puuduseks on see, et see annab paindlikkuse kiiruse arvelt.

Mida on vaja BeautifulSoup'i veebisaidi kraapimiseks?

BeautifulSoupiga töötamise alustamiseks peate oma arvutisse seadistama Pythoni programmeerimiskeskkonna (kas kohaliku või serveripõhise). Python on tavaliselt OS X-s eelinstallitud, kuid kui kasutate Windowsi, peate keel alla laadida ja installima ametlikust veebisaidilt.

Te peaksite olema paigaldatud BeautifulSoup ja taotluste moodulid.

Lõppkokkuvõttes on tuntud ja mugav HTML-i sildistamise ja struktuuriga töötamine kindlasti kasulik, kuna veebipõhiste andmetega töötatakse.

Taotluste importimine ja BeautifulSoup raamatukogud

Pythoni programmeerimiskeskkonna korral on hästi loodud, saate nüüd luua uue faili (nt nano abil) mis tahes nime järgi.

Taotluste teeki võimaldab teil oma Pythoni programmides kasutada inimesele loetavat vormi HTTP, samal ajal kui BeautifulSoup saab kaaperdamise kiiremini. Mõlemad teekide saamiseks võite impordiaruande kasutada.

Veebilehe kogumine ja analüüsimine

Taotluste kasutamine. get

selle veebi lehe URL-i kogumiseks, kust soovite andmeid ekstraktida. Seejärel looge BeautifulSoup objekt või parspuu. See objekt võtab dokumendist päringud oma argumentidena ja seejärel analüüsib seda. Kui leht kogutakse, analüüsitakse ja seadistatakse BeautifulSoup-objektiks, saate seejärel jätkata vajalike andmete kogumist.

Parsitud veebisaidi soovitud teksti hankimine

Kui soovite veebiandmeid koguda, peate teadma, kuidas seda teavet kirjeldab veebilehe dokumendiobjekti mudel (DOM).Veebibrauseris paremklõpsake (kui kasutate Windowsit) või CTRL + kliki (kui kasutate macOS-i) mõnel huvipakkuvat teavet sisaldaval üksusel. Näiteks, kui soovite välja tõmmata andmed õpilaste rahvuste kohta, klõpsake üliõpilase nimesid. Avaneb kontekstimenüü ja selle sees kuvatakse menüüelement, mis on sarnane elemendi kontrollimisega (Firefoxi jaoks) või kontrollige (Chrome'i jaoks). Klõpsake asjakohasel menüükäsuga Kontrolli ja veebiarendaja tööriistad kuvatakse teie brauseris.

BeautifulSoup on lihtne, kuid siiski võimas HTML-parsing tööriist, mis võimaldab teil palju paindlikkust, kui veebisaite kraapides . Kui kasutate seda, ärge unustage jälgida üldisi kaapimise reegleid, näiteks veebisaidi kasutustingimuste kontrollimist; saidi regulaarset läbivaatamist ja koodi uuendamist vastavalt saidil tehtud muudatustele. Olles need teadmised Pythoni ja BeautifulSoupi veebisaitide kraapimise kohta, saate nüüd hõlpsasti oma veebisaidi, mida vajate oma projekti jaoks, saada.

December 22, 2017
Semalt Ekspert: Python ja BeautifulSoup. Hõõruge saidid kergesti
Reply