Semalt: URL-ide ekstraheerimine ilusa supiga veebilehtedelt

Beautiful Soup on kõrgetasemeline Pythoni pakett, mida kasutatakse XML- ja HTML-dokumentide parsimiseks. Ilus Soup Pythoni teek loob parsimispuu, mida kasutatakse kasuliku teabe ekstraheerimiseks HyperText Markup Languageist (HTML). See teek on saadaval nii Python 2 kui ka Python 3 versioonide jaoks.

Enamikul juhtudest leiate, et teie sihtandmetele pääseb juurde ja neid saab kasutada ainult veebilehe osana. Sel juhul peate kasutama sellist veebi kraapimise tehnikat, mis võimaldab andmeid analüüsida saadavates vormingutes. Siit tuleb raamatukogu Beautiful Soup.

Nõuded

Kauni supi raamatukogu kasutamiseks on vaja õigeid mooduleid. Alustamiseks peate oma arvutisse installima Python 2.7 programmeerimiskeele. Selles postituses saate teada, kuidas veebisaidid kokku kraapida ja kõik URL-id välja tõmmata, kasutades päringuid ja ilusat suppi 4. HTML-i parsimine on isetegemise ülesanne, eriti kauni supi tehnilise abiga.

Miks kasutada ilusat suppi?

Beautiful Soup on edetabelis kõrgeim Pytoni pakett, mida on alates 2004. aastast kasutatud veebisaitide kraapimiseks ja HTML-siltide sõelumiseks. Hiljuti asendas Beautiful Soup 4 Beautiful Soup 3 tööstuses. Pange tähele, et BS4 töötab mõlemal Pythoni versioonil, samas kui BS3 töötab ainult Python 2.7-l. Teek koosneb järgmistest sisseehitatud funktsioonidest:

  • Kodeeringute võime - kui olete oma masinasse installinud vajalikud ilusad supimoodulid, ei pea te kodeeringute pärast paanikat tundma. Teek on automatiseeritud sisendite teisendamiseks Unicode'iks ja väljundite UTF-8-ks.
  • Navigeerimisvõime - Beautiful Soup pakub hõlpsasti kasutatavaid meetodeid parsipuu otsimiseks, navigeerimiseks ja muutmiseks.

Kuidas kasutada raamatukogu Beautiful Soup?

Pärast Beautiful Soup oma arvutisse installimist võite hakata teeki kasutama. Alustamiseks impordige bs4 teek Pythoni koodi algusesse. Objekti Soup loomiseks edastage Beautiful Soup sisu või URL. Kuid teek ei tõmba sihtveeblehte endalt. Siin peate selle ülesande käsitsi täitma. Eelistatud veebilehti saate hõlpsalt tõmmata ka Pythoni ja Beautiful Soupi kombinatsiooni abil.

Päringute kogu rollid

Lehe kraapimiseks peate selle kõigepealt alla laadima. Veebilehti saate alla laadida, kasutades päringute teeki. Taotluste teek töötab, tehes veebiserveritele GET-päringu, mis omakorda laadib alla eelistatud veebilehe HTML-i sisu.

URL-ide ekstraheerimine veebilehtedelt

Nüüd on teil üksikasjalikku teavet raamatukogu Beautiful Soup kohta. BS4 teegi ja Pythoni kombinatsioon aitab teil veebilehte väga kiiresti tuua. Kõigi URL-ide eraldamiseks oma sihitud veebilehelt kasutage meetodit „Leia kõik”. See meetod annab teile siltidega elementide komplekteerimise. Alates bs4-st importige nii Beautiful Soup kui ka taotlused. Käivitage oma kood ja sisestage veebisait või veebileht, kust URL-id eraldada.

send email