domingo, 12 de noviembre de 2017

Web Scraping con Python - Buscando letra de canciones Lyrics.py

Web scraping es una técnica utilizada mediante algún programa de software para extraer informacion de sitios web. Para el ejemplo de hoy veremos un pequeño proyecto hecho en python el cual he nombrado Lyrics_py y el como podemos "analizar" y extraer contenido de una pagina web para obtener la letra de alguna canción pasada como parámetro.

Hace un tiempo mencione en una de mis publicaciones un programa realizado en Java y en como este analizaba el contenido del HTML de Instagram para visualizar la foto de un perfil el cual el algoritmo para analizar el HTML lo habia hecho yo mismo, para este ejemplo de hoy realizado en Python he utilizado una librería llamada BeautifulSoup del paquete bs4 el cual nos da mucha facilidad para extraer contenido especifico.


Extrayendo datos con BeautifulSoup:

En primer lugar debemos tener el codigo HTML de donde vamos a extraer datos, en este caso sera el HTML de una búsqueda realizada en Google. Entonces primero hacemos una petición GET con los parámetros de busqueda para esto utilizaremos la librería requests, por ejemplo:

response = requests.get("https://www.google.com.pe/search?q=lyrics+shape+of+you")

Luego una vez realizada la petición, ya tenemos el HTML de respuesta con:

response.content

Ahora para extraer contenido con BeautifulSoup, existen diferentes formas, para el programa realizado utilizaremos 2:

#Utilizamos para extraer el contenido después de realizar una petición con requests

soup = BeautifulSoup(contenido,"lxml")


#Utilizamos para extraer el contenido de una porción de html

soup = BeautifulSoup(cadena,"html.parser")

Ahora para buscar algún contenido especifico o etiquetas en general, podemos hacerlo de la siguiente manera:

resultados = soup.find_all("div",{"class":"nombre_clase"})


resultados2 = soup.find_all("nav",{"id":"nombre_id"})
Como resultado nos devuelve una lista donde cada elemento es un resultado de nuestra búsqueda, si no queremos especificar alguno de los 2 parámetros ponemos True. Ademas esta libreria nos permite acceder al contenido de alguno de sus atributos como si fuera un diccionario, por ejemplo si queremos acceder al atributo href lo hacemos así:

elemento['href']

Esto son algunos ejemplos en especifico de como he utilizado BeautifulSoup para lo que va en el ejemplo realizado, para mas información sobre esta librería y como utilizar, pueden ver en este enlace.

Buscando la letra de una canción:

En general para buscar una letra de una canción, voy a Google y le ingresamos lyrics nombre_cancion, pues para el ejemplo realizado haremos lo mismo pero mediante python a travez de una petición get como mencionamos anteriormente. Ahora una vez obtenido los resultados de la búsqueda, que manualmente seria algo así:


En caso de que Google play music tenga resultados de tu búsqueda, Google te la mostrará primero y luego estarán otros 10 resultados en donde puede visualizar la letra de la canción. Para una primera version (0.1) nos basamos en que todas las letras las tiene Google play music (aunque sabemos que no es asi), pero primero debemos extraer los enlaces a los cuales nos redireccionaria para visualizar la letra completa y los enlaces de los otros 10 resultados de búsqueda:



Extrayendo datos de resultados de búsqueda:

Para obtener los resultados,existen 2 posibles opciones, cuando solo están los 10 resultados de búsqueda y cuando ademas también existe resultado en Google play music. Luego de eso necesitamos obtener el enlace a donde nos redireccionaria si hiciéramos click, es decir, si lo hiciéramos de forma manual.

Veamos como extraer los datos:


Almacenamos en un diccionario "nombre_pagina": "enlace" , para tener las posibles paginas en donde debe buscar nuestro programa y mejorar sus opciones de búsqueda mas adelante.

Una vez obtenido todos los enlaces de redireccionamiento, podemos analizar estos resultados, para ello debemos realizar otra petición get si es posible. Para la búsqueda en Google play music acceder a los datos que buscamos seria así:

#Obtenemos el contenedor de los datos en general

datos = soup.find_all("div", {"class": "content-container lyrics"})



#Obtenemos el titulo y nombre del artista

titulo = soup.find_all("div", {"class": "title fade-out"})

artista = soup.find_all("div", {"class": "album-artist fade-out"})



Por ultimo para extraer la letra de la canción seria así:

encode('utf-8') para los contenidos con caracteres especiales.
Donde la variable datos es una lista que tenia el contenido de la letra de la canción por párrafos para este ejemplo en especifico.

Para ver el proyecto pueden ver en el GitHub del proyecto.

Lyrics.py

Bueno el programa es facil de usar, lo indica en el mismo README.md del proyecto. Dependencias:
  • BeautifulSoup
  • requests
  • lxml
Para instalar dependencias con pip:

pip install -r requirements.txt

Luego ejecutan:

python lyrics.py "nombre_cancion"

Les dejo un ejemplo para buscar la letra de la canción "Shadow of the day": 



Enlaces:

No hay comentarios.:

Publicar un comentario