Raspado web de Python con sopa hermosa

El web scraping es una técnica común que se utiliza para obtener datos de Internet para diferentes tipos de aplicaciones. Con los datos casi ilimitados disponibles en línea, los desarrolladores de software han creado muchas herramientas para hacer posible compilar información de manera eficiente. Durante el proceso de raspado web, un programa informático envía una solicitud a un sitio web en Internet. Se envía un documento Html como respuesta a la solicitud del programa. Dentro de ese documento hay información que puede interesarle para un propósito u otro. Para acceder a estos datos rápidamente, entra en juego el paso del análisis. Al analizar el documento, podemos aislar y centrarnos en los puntos de datos específicos que nos interesan. Las bibliotecas comunes de Python para ayudar con esta técnica son Beautiful Soup, lxml y Requests. En este tutorial, pondremos estas herramientas en funcionamiento para aprender a implementar Web Scraping usando Python.

Instalar el código de raspado web

Para seguir, ejecute estos tres comandos desde la terminal. También se recomienda hacer uso de un entorno virtual para mantener las cosas limpias en su sistema.

pip instalar lxml
solicitudes de instalación de pip
pip instalar beautifulsoup4

Encuentre un sitio web para raspar

Para aprender cómo hacer web scraping, podemos probar un sitio web llamado http://quotes.toscrape.com/ que parece que fue creado para este propósito.

sitio web para web scraping

Desde este sitio web, tal vez nos gustaría crear un almacén de datos de todos los autores, etiquetas y citas de la página. ¿Cómo se pudo hacer eso? Bueno, primero podemos mirar la fuente de la página. Estos son los datos que realmente se devuelven cuando se envía una solicitud al sitio web. Entonces, en el navegador web Firefox, podemos hacer clic con el botón derecho en la página y elegir "ver la fuente de la página".

fuente de la página de visualización del navegador Firefox

Esto mostrará el marcado HTML sin procesar en la página. Se muestra aquí como referencia.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    
 
<div class="row">
    <div class="col-md-8">
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
        <span>by <small class="author" itemprop="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="change,deep-thoughts,thinking,world" /    > 
            
            <a class="tag" href="/tag/change/page/1/">change</a>
            
            <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
            
            <a class="tag" href="/tag/thinking/page/1/">thinking</a>
            
            <a class="tag" href="/tag/world/page/1/">world</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“It is our choices, Harry, that show what we truly are, far more than our abilities.”</span>
        <span>by <small class="author" itemprop="author">J.K. Rowling</small>
        <a href="/author/J-K-Rowling">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="abilities,choices" /    > 
            
            <a class="tag" href="/tag/abilities/page/1/">abilities</a>
            
            <a class="tag" href="/tag/choices/page/1/">choices</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”</span>
        <span>by <small class="author" itemprop="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="inspirational,life,live,miracle,miracles" /    > 
            
            <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>
            
            <a class="tag" href="/tag/life/page/1/">life</a>
            
            <a class="tag" href="/tag/live/page/1/">live</a>
            
            <a class="tag" href="/tag/miracle/page/1/">miracle</a>
            
            <a class="tag" href="/tag/miracles/page/1/">miracles</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”</span>
        <span>by <small class="author" itemprop="author">Jane Austen</small>
        <a href="/author/Jane-Austen">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="aliteracy,books,classic,humor" /    > 
            
            <a class="tag" href="/tag/aliteracy/page/1/">aliteracy</a>
            
            <a class="tag" href="/tag/books/page/1/">books</a>
            
            <a class="tag" href="/tag/classic/page/1/">classic</a>
            
            <a class="tag" href="/tag/humor/page/1/">humor</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“Imperfection is beauty, madness is genius and it&#39;s better to be absolutely ridiculous than absolutely boring.”</span>
        <span>by <small class="author" itemprop="author">Marilyn Monroe</small>
        <a href="/author/Marilyn-Monroe">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="be-yourself,inspirational" /    > 
            
            <a class="tag" href="/tag/be-yourself/page/1/">be-yourself</a>
            
            <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“Try not to become a man of success. Rather become a man of value.”</span>
        <span>by <small class="author" itemprop="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="adulthood,success,value" /    > 
            
            <a class="tag" href="/tag/adulthood/page/1/">adulthood</a>
            
            <a class="tag" href="/tag/success/page/1/">success</a>
            
            <a class="tag" href="/tag/value/page/1/">value</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“It is better to be hated for what you are than to be loved for what you are not.”</span>
        <span>by <small class="author" itemprop="author">André Gide</small>
        <a href="/author/Andre-Gide">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="life,love" /    > 
            
            <a class="tag" href="/tag/life/page/1/">life</a>
            
            <a class="tag" href="/tag/love/page/1/">love</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“I have not failed. I&#39;ve just found 10,000 ways that won&#39;t work.”</span>
        <span>by <small class="author" itemprop="author">Thomas A. Edison</small>
        <a href="/author/Thomas-A-Edison">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="edison,failure,inspirational,paraphrased" /    > 
            
            <a class="tag" href="/tag/edison/page/1/">edison</a>
            
            <a class="tag" href="/tag/failure/page/1/">failure</a>
            
            <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>
            
            <a class="tag" href="/tag/paraphrased/page/1/">paraphrased</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“A woman is like a tea bag; you never know how strong it is until it&#39;s in hot water.”</span>
        <span>by <small class="author" itemprop="author">Eleanor Roosevelt</small>
        <a href="/author/Eleanor-Roosevelt">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="misattributed-eleanor-roosevelt" /    > 
            
            <a class="tag" href="/tag/misattributed-eleanor-roosevelt/page/1/">misattributed-eleanor-roosevelt</a>
            
        </div>
    </div>
 
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“A day without sunshine is like, you know, night.”</span>
        <span>by <small class="author" itemprop="author">Steve Martin</small>
        <a href="/author/Steve-Martin">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="humor,obvious,simile" /    > 
            
            <a class="tag" href="/tag/humor/page/1/">humor</a>
            
            <a class="tag" href="/tag/obvious/page/1/">obvious</a>
            
            <a class="tag" href="/tag/simile/page/1/">simile</a>
            
        </div>
    </div>
 
    <nav>
        <ul class="pager">
            
            
            <li class="next">
                <a href="/page/2/">Next <span aria-hidden="true">&rarr;</span></a>
            </li>
            
        </ul>
    </nav>
    </div>
    <div class="col-md-4 tags-box">
        
            <h2>Top Ten tags</h2>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 28px" href="/tag/love/">love</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 26px" href="/tag/inspirational/">inspirational</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 26px" href="/tag/life/">life</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 24px" href="/tag/humor/">humor</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 22px" href="/tag/books/">books</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 14px" href="/tag/reading/">reading</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 10px" href="/tag/friendship/">friendship</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 8px" href="/tag/friends/">friends</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 8px" href="/tag/truth/">truth</a>
            </span>
            
            <span class="tag-item">
            <a class="tag" style="font-size: 6px" href="/tag/simile/">simile</a>
            </span>
            
        
    </div>
</div>
 
    </div>
    <footer class="footer">
        <div class="container">
            <p class="text-muted">
                Quotes by: <a href="https://www.goodreads.com/quotes">GoodReads.com</a>
            </p>
            <p class="copyright">
                Made with <span class='sh-red'></span> by <a href="https://scrapinghub.com">Scrapinghub</a>
            </p>
        </div>
    </footer>
</body>
</html>

Como puede ver en el marcado anterior, hay una gran cantidad de datos que parecen mezclados. El propósito del web scraping es poder acceder solo a las partes de la página web que nos interesan. Muchos desarrolladores de software emplearán expresiones regulares para esta tarea, y esa es definitivamente una opción viable. La biblioteca Python Beautiful Soup es una forma mucho más sencilla de extraer la información que queremos.

Construyendo el guión de scraping

En PyCharm, podemos agregar un nuevo archivo que contendrá el código Python para raspar nuestra página.

raspado web pycharm

scraper.py

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup
 
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
 
print(soup)

El código anterior es el comienzo de nuestro script de extracción de Python. En la parte superior del archivo, lo primero que debe hacer es importar las solicitudes y las bibliotecas BeautifulSoup. Luego, configuramos la URL que queremos raspar directamente en esa urlvariable. Esto luego se pasa a la función request.get () y asignamos el resultado a la responsevariable. Usamos el constructor BeautifulSoup () para poner el texto de respuesta en la soupconfiguración de variable lxml como formato. Por último, imprimimos elsoupvariable y debería ver algo similar a la captura de pantalla a continuación. Esencialmente, el software visita el sitio web, lee los datos y visualiza la fuente del sitio web de la misma forma que lo hicimos manualmente anteriormente. La única diferencia es que esta vez, todo lo que tuvimos que hacer fue hacer clic en un botón para ver el resultado. ¡Con buena pinta!

hermosa sopa de pitón en pycharm

Atravesando estructuras HTML

HTML significa lenguaje de marcado de hipertexto y funciona distribuyendo elementos del documento HTML con etiquetas específicas. HTML tiene muchas etiquetas diferentes, pero un diseño general implica tres básicas. Una etiqueta HTML, una etiqueta de cabeza y una etiqueta de cuerpo. Estas etiquetas organizan el documento HTML. En nuestro caso, nos centraremos principalmente en la información dentro de la etiqueta del cuerpo. En este punto, nuestro script puede obtener el marcado Html de nuestra URL designada. El siguiente paso es enfocarnos en los datos específicos que nos interesan. Tenga en cuenta que si usa la herramienta de inspección en su navegador, es bastante fácil ver exactamente qué marcado Html es responsable de representar una determinada información en la página. Cuando colocamos el puntero del mouse sobre una etiqueta de intervalo en particular, podemos ver que el texto asociado se resalta automáticamente en la ventana del navegador.span etiqueta que también tiene una clase de texto . Así es como descifras cómo extraer datos. Busca patrones en la página y luego crea código que funciona en ese patrón. Juegue y observe que esto funciona sin importar dónde coloque el puntero del mouse. Podemos ver el mapeo de una cotización específica a un marcado HTML específico. El raspado web permite obtener fácilmente todas las secciones similares de un documento Html. Eso es prácticamente todo el HTML que necesitamos saber para extraer sitios web simples.

inspeccionar el HTML de la página web usando el inspector del navegador

Análisis de marcado HTML

Hay mucha información en el documento Html, pero Beautiful Soup hace que sea realmente fácil encontrar los datos que queremos, a veces con solo una línea de código. Así que sigamos adelante y busquemos todas las etiquetas de intervalo que tengan una clase de texto. Esto debería encontrar todas las citas para nosotros. Cuando desee encontrar varias etiquetas iguales en la página, puede utilizar la función find_all () .

scraper.py

1
2
3
4
5
6
7
8
9
import requests
from bs4 import BeautifulSoup
 
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('span', class_='text')
 
print(quotes)

Cuando se ejecuta el código anterior, a la variable quotes se le asigna una lista de todos los elementos del documento Html que es una etiqueta span con una clase de texto. La impresión de esa variable de comillas nos da el resultado que vemos a continuación. La etiqueta Html completa se captura junto con su contenido interno.

hermoso ejemplo de sopa find_all

Propiedad de texto Beautiful Soup

El marcado Html adicional que se devuelve en el script no es realmente lo que nos interesa. Para obtener solo los datos que queremos, en este caso, las comillas reales, podemos usar la propiedad .text que está disponible a través de Beautiful Soup. Tenga en cuenta el nuevo código resaltado aquí donde usamos un bucle for para iterar sobre todos los datos capturados e imprimir solo el contenido que queremos.

scraper.py

1
2
3
4
5
6
7
8
9
10
import requests
from bs4 import BeautifulSoup
 
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('span', class_='text')
 
for quote in quotes:
    print(quote.text)

Esto nos da un buen resultado con solo las citas que nos interesan.

C: pythonvrequestsScriptspython.exe C: /python/vrequests/scraper.py
“El mundo tal como lo hemos creado es un proceso de nuestro pensamiento. No se puede cambiar sin cambiar nuestra forma de pensar ".
"Son nuestras elecciones, Harry, las que muestran lo que realmente somos, mucho más que nuestras habilidades".
"Solo hay dos maneras de vivir tu vida. Uno es como si nada fuera un milagro. El otro es como si todo fuera un milagro ".
"La persona, ya sea un caballero o una dama, a quien no le agrada una buena novela, debe ser intolerablemente estúpida".
"La imperfección es belleza, la locura es genialidad y es mejor ser absolutamente ridículo que absolutamente aburrido".
“Trate de no convertirse en un hombre de éxito. Mejor conviértete en un hombre de valor ".
"Es mejor ser odiado por lo que eres que amado por lo que no eres".
“No he fallado. Acabo de encontrar 10,000 formas que no funcionarán ".
“La mujer es como una bolsita de té; nunca se sabe qué tan fuerte es hasta que está en agua caliente ".
"Un día sin sol es como, ya sabes, noche".

Proceso terminado con código de salida 0

¡Ordenado! Para encontrar ahora todos los autores y también imprimirlos ya que están asociados con cada cita, podemos usar el código a continuación. Siguiendo los mismos pasos que antes, primero inspeccionamos manualmente la página que queremos raspar. Podemos ver que cada autor está contenido dentro de una etiqueta <small> con una clase de autor . Entonces seguimos el mismo formato que antes con la función find_all () y almacenamos el resultado en esa nueva authorsvariable. También necesitamos cambiar el bucle for para hacer uso de la función range () para que podamos iterar sobre las comillas y los autores al mismo tiempo.

scraper.py

1
2
3
4
5
6
7
8
9
10
11
12
import requests
from bs4 import BeautifulSoup
 
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('span', class_='text')
authors = soup.find_all('small', class_='author')
 
for i in range(0, len(quotes)):
    print(quotes[i].text)
    print('--' + authors[i].text)

Ahora obtenemos las citas y cada autor asociado cuando se ejecuta el script.

C: pythonvrequestsScriptspython.exe C: /python/vrequests/scraper.py
“El mundo tal como lo hemos creado es un proceso de nuestro pensamiento. No se puede cambiar sin cambiar nuestra forma de pensar ".
--Albert Einstein

"Son nuestras elecciones, Harry, las que muestran lo que realmente somos, mucho más que nuestras habilidades".
--J. K. Rowling

"Solo hay dos maneras de vivir tu vida. Uno es como si nada fuera un milagro. El otro es como si todo fuera un milagro ".
--Albert Einstein

"La persona, ya sea un caballero o una dama, a quien no le agrada una buena novela, debe ser intolerablemente estúpida".
--Jane Austen

"La imperfección es belleza, la locura es genialidad y es mejor ser absolutamente ridículo que absolutamente aburrido".
- Marilyn Monroe

“Trate de no convertirse en un hombre de éxito. Mejor conviértete en un hombre de valor ".
--Albert Einstein

"Es mejor ser odiado por lo que eres que amado por lo que no eres".
--André Gide

“No he fallado. Acabo de encontrar 10,000 formas que no funcionarán ".
- Thomas A. Edison

“La mujer es como una bolsita de té; nunca se sabe qué tan fuerte es hasta que está en agua caliente ".
--Eleanor Roosevelt

"Un día sin sol es como, ya sabes, noche".
--Steve Martín


Proceso terminado con código de salida 0

Finalmente, también agregaremos algo de código para recuperar todas las etiquetas de cada cotización. Este es un poco más complicado porque primero necesitamos buscar cada div de envoltura exterior de cada colección de etiquetas. Si no hiciéramos este primer paso, podríamos buscar todas las etiquetas, pero no sabríamos cómo asociarlas a un par de citas y autores. Una vez que se captura el div externo, podemos profundizar más usando la función find_all () nuevamente en * ese * subconjunto. A partir de ahí, tenemos que agregar un bucle interno al primer bucle para completar el proceso.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import requests
from bs4 import BeautifulSoup
 
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('span', class_='text')
authors = soup.find_all('small', class_='author')
tags = soup.find_all('div', class_='tags')
 
for i in range(0, len(quotes)):
    print(quotes[i].text)
    print('--' + authors[i].text)
    tagsforquote = tags[i].find_all('a', class_='tag')
    for tagforquote in tagsforquote:
        print(tagforquote.text)
    print('n')

Este código ahora nos da el siguiente resultado. Bastante genial, ¿verdad?

C: pythonvrequestsScriptspython.exe C: /python/vrequests/scraper.py
“El mundo tal como lo hemos creado es un proceso de nuestro pensamiento. No se puede cambiar sin cambiar nuestra forma de pensar ".
--Albert Einstein
cambio
pensamientos profundos
pensando
mundo

"Son nuestras elecciones, Harry, las que muestran lo que realmente somos, mucho más que nuestras habilidades".
--J. K. Rowling
habilidades
opciones

"Solo hay dos maneras de vivir tu vida. Uno es como si nada fuera un milagro. El otro es como si todo fuera un milagro ".
--Albert Einstein
inspirador
vida
En Vivo
milagro
milagros

"La persona, ya sea un caballero o una dama, a quien no le agrada una buena novela, debe ser intolerablemente estúpida".
--Jane Austen
alfabetización
libros
clásico
humor

"La imperfección es belleza, la locura es genialidad y es mejor ser absolutamente ridículo que absolutamente aburrido".
- Marilyn Monroe
ser uno mismo
inspirador

“Trate de no convertirse en un hombre de éxito. Mejor conviértete en un hombre de valor ".
--Albert Einstein
edad adulta
éxito
valor

"Es mejor ser odiado por lo que eres que amado por lo que no eres".
--André Gide
vida
amor

“No he fallado. Acabo de encontrar 10,000 formas que no funcionarán ".
- Thomas A. Edison
edison
fracaso
inspirador
parafraseado

“La mujer es como una bolsita de té; nunca se sabe qué tan fuerte es hasta que está en agua caliente ".
--Eleanor Roosevelt
mal atribuido eleanor roosevelt

"Un día sin sol es como, ya sabes, noche".
--Steve Martín
humor
obvio
símil

Proceso terminado con código de salida 0

Practica el web scraping

En https://scrapingclub.com se puede encontrar otro gran recurso para aprender a utilizar Web scrape . Hay muchos tutoriales que cubren cómo usar otro paquete de software de raspado web de Python llamado Scrapy. Además de eso, hay varias páginas web de práctica para raspar que podemos utilizar. Podemos comenzar con esta url aquí https://scrapingclub.com/exercise/list_basic/?page=1

práctica de scraping club web scrape

Queremos simplemente extraer el nombre del artículo y el precio de cada entrada y mostrarlo como una lista. Entonces, el primer paso es examinar la fuente de la página para determinar cómo podemos buscar en Html. Parece que tenemos algunas clases de Bootstrap en las que podemos buscar, entre otras cosas.

inspeccionar fuente html para web scrape

Con este conocimiento, aquí está nuestro script de Python para este raspado.

1
2
3
4
5
6
7
8
9
10
11
12
13
import requests
from bs4 import BeautifulSoup
 
url = 'https://scrapingclub.com/exercise/list_basic/?page=1'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
items = soup.find_all('div', class_='col-lg-4 col-md-6 mb-4')
count = 1
for i in items:
    itemName = i.find('h4', class_='card-title').text.strip()
    itemPrice = i.find('h5').text
    print(f'{count}:  {itemPrice} for the {itemName}')
    count += 1

C: pythonvrequestsScriptspython.exe C: /python/vrequests/scraper.py
1: $ 24,99 por el vestido corto
2: $ 29,99 por los pantalones estampados
3: $ 49,99 por el vestido corto de gasa
4: $ 59,99 por el vestido con hombros descubiertos
5: $ 24,99 por la camiseta con cuello en V
6: $ 49,99 por el vestido corto de gasa
7: $ 24,99 por la camiseta con cuello en V
8: $ 24,99 por la camiseta con cuello en V
9: $ 59,99 por el vestido corto de encaje

Proceso terminado con código de salida 0

Web Scraping de más de una página

La URL anterior es una sola página de una colección paginada. Podemos ver eso por la página = 1 en la URL. También podemos configurar un script de Beautiful Soup para raspar más de una página a la vez. Aquí hay un script que raspa todas las páginas vinculadas de la página original. Una vez que se capturan todas esas URL, el script puede enviar una solicitud a cada página individual y analizar los resultados.

scraper.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import requests
from bs4 import BeautifulSoup
 
url = 'https://scrapingclub.com/exercise/list_basic/?page=1'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
items = soup.find_all('div', class_='col-lg-4 col-md-6 mb-4')
count = 1
for i in items:
    itemName = i.find('h4', class_='card-title').text.strip()
    itemPrice = i.find('h5').text
    print(f'{count}:  {itemPrice} for the {itemName}')
    count += 1
pages = soup.find('ul', class_='pagination')
urls = []
links = pages.find_all('a', class_='page-link')
for link in links:
    pageNum = int(link.text) if link.text.isdigit() else None
    if pageNum != None:
        hrefval = link.get('href')
        urls.append(hrefval)
count = 1
for i in urls:
    newUrl = url + i
    response = requests.get(newUrl)
    soup = BeautifulSoup(response.text, 'lxml')
    items = soup.find_all('div', class_='col-lg-4 col-md-6 mb-4')
    for i in items:
        itemName = i.find('h4', class_='card-title').text.strip()
        itemPrice = i.find('h5').text
        print(f'{count}:  {itemPrice} for the {itemName}')
        count += 1

Ejecutar ese script luego raspa todas las páginas de una vez y genera una lista grande como esa.

C: pythonvrequestsScriptspython.exe C: /python/vrequests/scraper.py
1: $ 24,99 por el vestido corto
2: $ 29,99 por los pantalones estampados
3: $ 49,99 por el vestido corto de gasa
4: $ 59,99 por el vestido con hombros descubiertos
5: $ 24,99 por la camiseta con cuello en V
6: $ 49,99 por el vestido corto de gasa
7: $ 24,99 por la camiseta con cuello en V
8: $ 24,99 por la camiseta con cuello en V
9: $ 59,99 por el vestido corto de encaje
1: $ 24,99 por el vestido corto
2: $ 29,99 por los pantalones estampados
3: $ 49,99 por el vestido corto de gasa
4: $ 59,99 por el vestido con hombros descubiertos
5: $ 24,99 por la camiseta con cuello en V
6: $ 49,99 por el vestido corto de gasa
7: $ 24,99 por la camiseta con cuello en V
8: $ 24,99 por la camiseta con cuello en V
9: $ 59,99 por el vestido corto de encaje
10: $ 24,99 por el vestido corto
11: $ 29,99 por los pantalones estampados
12: $ 49,99 por el vestido corto de gasa
13: $ 59,99 por el vestido con hombros descubiertos
14: $ 24,99 por la camiseta con cuello en V
15: $ 49,99 por el vestido corto de gasa
16: $ 24,99 por la camiseta con cuello en V
17: $ 24,99 por la camiseta con cuello en V
18: $ 59,99 por el vestido corto de encaje
19: $ 24,99 por el vestido corto
20: $ 29,99 por los pantalones estampados
21: $ 49,99 por el vestido corto de gasa
22: $ 59,99 por el vestido sin hombros
23: $ 24,99 por la camiseta con cuello en V
24: $ 49,99 por el vestido corto de gasa
25: $ 24,99 por la camiseta con cuello en V
26: $ 24,99 por la camiseta con cuello en V
27: $ 59,99 por el vestido corto de encaje
28: $ 24,99 por el vestido corto
29: $ 29,99 por los pantalones estampados
30: $ 49,99 por el vestido corto de gasa
31: $ 59,99 por el vestido sin hombros
32: $ 24,99 por la camiseta con cuello en V
33: $ 49,99 por el vestido corto de gasa
34: $ 24,99 por la camiseta con cuello en V
35: $ 24,99 por la camiseta con cuello en V
36: $ 59,99 por el vestido corto de encaje
37: $ 24,99 por el vestido corto
38: $ 29,99 por los pantalones estampados
39: $ 49,99 por el vestido corto de gasa
40: $ 59,99 por el vestido sin hombros
41: $ 24,99 por la camiseta con cuello en V
42: $ 49,99 por el vestido corto de gasa
43: $ 24,99 por la camiseta con cuello en V
44: $ 24,99 por la camiseta con cuello en V
45: $ 59,99 por el vestido corto de encaje
46: $ 24,99 por el vestido corto
47: $ 29,99 por los pantalones estampados
48: $ 49,99 por el vestido corto de gasa
49: $ 59,99 por el vestido sin hombros
50: $ 24,99 por la camiseta con cuello en V
51: $ 49,99 por el vestido corto de gasa
52: $ 24,99 por la camiseta con cuello en V
53: $ 24,99 por la camiseta con cuello en V
54: $ 59,99 por el vestido corto de encaje

Proceso terminado con código de salida 0

Python Web Scraping con Beautiful Soup Resumen

Beautiful Soup es una de las pocas bibliotecas disponibles creadas para Web Scraping con Python. Es muy fácil comenzar con Beautiful Soup como vimos en este tutorial. Los scripts de web scraping se pueden usar para recopilar y compilar datos de Internet para varios tipos de proyectos de análisis de datos, o cualquier otra cosa que se le ocurra.

Header Ads Widget

Raspado web de Python con sopa hermosa

Instalar el código de raspado web

Encuentre un sitio web para raspar

Construyendo el guión de scraping

Atravesando estructuras HTML

Análisis de marcado HTML

Propiedad de texto Beautiful Soup

Practica el web scraping

Web Scraping de más de una página

Python Web Scraping con Beautiful Soup Resumen

Publicar un comentario

0 Comentarios

Random Posts

Información relevante

Colaboraciones

Menu Footer Widget