Semalt: Owadan çorba bilen web sahypalaryndan URL-ler çykarmak

Owadan çorba, XML we HTML resminamalaryny derňemek üçin ulanylýan ýokary derejeli Python bukjasydyr. Owadan Çorba Python kitaphanasy HyperText Markup Language (HTML) -den peýdaly maglumatlary çykarmak üçin ulanylýan bir agaç agajy döredýär. Bu kitaphana Python 2 we Python 3 wersiýalary üçin hem elýeterlidir.

Köplenç maksatly maglumatlaryňyza diňe web sahypasynyň bir bölegi hökmünde girip we ulanyp boljakdygyny görýärsiňiz. Şeýle ýagdaýda maglumatlary analiz edip boljak formatlarda çykaryp bilýän şeýle web gyrmak usulyny ulanmaly. Ine, owadan çorba kitaphanasy girýär.

Talaplar

Owadan çorba kitaphanasyny ulanmak üçin dogry modullar gerek. Başlamak üçin enjamyňyza Python 2.7 programmirleme dilini gurmaly. Bu ýazgyda, haýyşlary we owadan çorbany ulanyp , web sahypasyny nädip döwmelidigini we ähli URL-leri çykarmagy öwrenersiňiz. HTML derňewi, esasanam owadan çorbanyň tehniki kömegi bilen, özüňiz etmeli.

Näme üçin owadan çorba ulanmaly?

Owadan çorba 2004-nji ýyldan bäri web sahypalaryny gyrmak we HTML belliklerini derňemek üçin ulanylýan iň ýokary derejeli Python bukjasydyr. Recentlyakynda, Gözel Çorba 4 bu pudakda Gözel Çorbanyň ýerini aldy. BS4-iň Python wersiýalarynyň ikisinde-de işleýändigini, BS3-iň diňe Python 2.7-de işleýändigini ýadyňyzdan çykarmaň. Kitaphana aşakdaky gurlan aýratynlyklardan ybarat:

  • Kodlamak mümkinçiligi - Enjamyňyza zerur owadan Çorba modullaryny guranyňyzdan soň kodlamalardan gorkmaly dälsiňiz. Girişleri icunikoda we netijeleri UTF-8 öwürmek üçin kitaphana awtomatlaşdyryldy.
  • Nawigasiýa ukyby - Owadan çorba, gözleg agajyny gözlemek, nawigasiýa we üýtgetmek usullaryny ulanmagy aňsat hödürleýär.

Owadan çorba kitaphanasyny nädip ulanmaly?

Enjamyňyza owadan çorba guranyňyzdan soň kitaphanany ulanyp bilersiňiz. Başlamak üçin Python koduňyzyň başynda bs4 kitaphanasyny import ediň. Çorba obýektini döretmek üçin mazmuny ýa-da URL-ni owadan çorba geçiriň. Şeýle-de bolsa, kitaphana maksatly web sahypasyny özi alyp bilenok. Bu ýerde bu işi el bilen tamamlamaly. Şeýle hem, Python we owadan çorbanyň kombinasiýasyny ulanyp, islenýän web sahypalaryny aňsatlyk bilen alyp bilersiňiz.

Haýyş kitaphanasynyň rollary

Sahypany döwmek üçin ilki bilen göçürip almaly. Haýyş kitaphanasyny ulanyp web sahypalaryny göçürip alyp bilersiňiz. Web serwerlerine "GET" haýyşy bilen kitaphananyň işlemegini haýyş edýär, bu bolsa öz gezeginde islenýän web sahypasynyň HTML mazmunyny göçürip alar.

Web sahypalaryndan URL-ler çykarmak

Indi owadan çorba kitaphanasy barada jikme-jik maglumatyňyz bar. BS4 kitaphanasy bilen Python-yň kombinasiýasy web sahypasyny çalt almaga kömek eder. Maksatly web sahypaňyzdan ähli URL-leri çykarmak üçin "hemmesini tapmak" usulyny ulanyň. Bu usul size bellik bilen elementleriň ýygyndysyny berer. Bs4-den owadan çorbany we haýyşlary import ediň. Koduňyzy işlediň we URL-lerini çykarmak üçin web sahypasyna ýa-da web sahypasyna giriň.

mass gmail