scraping

Este nivel requiere de conocimientos avanzados en todo lo anteriormente visto y también tener amplios conocimientos en la creación de páginas web o código html, aun así y para hacer este apartado accesible voy a crear una entrada con lo básico de html para que podáis ir probando cosas y sigáis avanzando.

Nos vamos a centrar en este método que se podría traducir como escarbar, el scraping se utiliza para obtener información de una, varias o incluso miles de páginas web, la ventaja que nos ofrecen los datos en la red es que no hace falta tenerlos en nuestra memoria y siempre están actualizados, la desventaja es que necesitamos saber cómo esta construida la web para obtenerlos.

En el diseño web se emplean mecanismos para evitar estos métodos pero también es verdad que los buscadores ejecutan script de scraping, si los datos no son muy accesibles es difícil posicionar una web.

Lo primero que vamos a hacer es instalar dos nuevas librerías:

requests
bs4

Para ello podemos crear un archivo .bat o ir al CMD e ingresar nuestra ruta:

cd C:\Python36

Ubicados ya en la carpeta de Python:

pip install resquest

pip install bs4

Todo listo y preparado, vamos a ver como se construye una web para empezar con el scraping.