Semalt: Kuondoa URLs kutoka kwa kurasa za Wavuti na supu nzuri

Supu nzuri ni kifurushi cha kiwango cha juu cha Python kinachotumiwa kwa kuweka nyaraka za XML na nyaraka za HTML. Maktaba nzuri ya Soup Python huunda mti wa parse ambao hutumiwa kutoa habari muhimu kutoka Lugha ya Maumbile ya HyperText (HTML). Maktaba hii inapatikana kwa toleo zote mbili za Python 2 na Python 3.

Katika hali nyingi, unaona kuwa data yako ya lengo inaweza kupatikana tu na kutumika kama sehemu ya ukurasa wa wavuti. Katika hali kama hiyo, unahitaji kutumia mbinu kama hiyo ya wavu wa wavuti ambayo inaweza kutoa data katika fomu ambazo zinaweza kuchambuliwa. Hapa ndipo Maktaba ya Supu Mzuri inapoingia.

Mahitaji

Unahitaji moduli zinazofaa kutumia Maktaba ya Supu Nzuri. Ili kuanza, unahitaji kusanikisha lugha ya programu ya Python 2.7 kwenye mashine yako. Katika chapisho hili, utajifunza jinsi ya kukagua tovuti na kutoa URL zote kwa kutumia Maombi na Supu nzuri 4. Kutengeneza HTML ni kazi ya kufanya wewe mwenyewe, haswa kwa msaada wa kiufundi wa Supu Nzuri.

Kwa nini Tumia Supu Nzuri?

Supu Nzuri ni kifurushi cha juu cha Python ambacho kimetumika kuchapa tovuti na kuorodhesha vitambulisho vya HTML tangu 2004. Hivi karibuni, supu nzuri 4 ilibadilisha Supu nzuri 3 katika tasnia hiyo. Kumbuka kuwa BS4 inafanya kazi kwenye toleo zote mbili za Python wakati BS3 inafanya kazi tu kwenye Python 2.7. Maktaba inajumuisha huduma zifuatazo za kujengwa:

  • Uwezo wa encodings - sio lazima uwe na hofu juu ya usimbuaji mara tu utakapoweka moduli za Supu nzuri kwenye mashine yako. Maktaba imejielekeza kubadilisha pembejeo kwa Unicode na matokeo kwa UTF-8.
  • Uwezo wa urambazaji - Supu nzuri hutoa rahisi kutumia njia za kutafuta, kusonga, na kurekebisha mti wa parishi.

Jinsi ya kutumia Maktaba ya Supu Nzuri?

Baada ya kufunga Supu Mzuri kwenye mashine yako, unaweza kuanza kutumia maktaba. Kuanza, ingiza maktaba ya bs4 mwanzoni mwa msimbo wako wa Python. Kupitisha yaliyomo au URL kwenye Supu Nzuri kuunda kitu cha Supu. Walakini, maktaba haichukui ukurasa wa walengwa yenyewe. Hapa, lazima umalize kazi hiyo kwa mikono. Unaweza pia kuchota kwa urahisi kurasa za wavuti unaopendelea kutumia mchanganyiko wa Python na Supu Mzuri.

Jukumu la maktaba ya ombi

Ili kutafuta ukurasa, unahitaji kuipakua kwanza. Unaweza kupakua kurasa za wavuti kwa kutumia maktaba ya ombi. Maombi ya maktaba yanafanya kazi kwa kufanya ombi "GET" kwa seva za wavuti, ambazo, zitapakua yaliyomo kwenye HTML ya ukurasa unaovutiwa wa wavuti.

Kuondoa URL kwenye kurasa za wavuti

Sasa una habari ya kina kuhusu Maktaba ya Supu Nzuri. Mchanganyiko wa maktaba ya BS4 na Python itakusaidia kupata ukurasa wa wavuti haraka sana. Ili kutoa URL zote kutoka kwa wavuti yako unayokusudia, tumia njia ya "kupata yote". Njia hii itakupa mkusanyiko wa vitu na lebo. Kutoka bs4, kuagiza Supu nzuri na maombi. Run code yako na weka tovuti au ukurasa wa wavuti ili kupata URL kutoka.

mass gmail