Extracción de títulos, subtítulos, texto y destacados de un diario digital

por Rodolfo Pardo

Vivimos en un mundo digital con una superpoblación de información. Si lo medimos en términos de comportamiento, tenemos un scroll infinito en las redes sociales y un ciclo de noticias de 24 horas interminable, algunos hasta le quita el suelo este tipo de desplazamiento.

Para los que nos gusta la información, tenemos medios de todo tipo en Argentina y con Python, tenemos la oportunidad de estudiar y digerir todo este tipo de noticias.

Cada una de ellas, tiene una estructura html que con un poco de web scraping podemos extraer sus títulos, subtítulos, texto y destacados, esto último para conocer el foco del periodista.

En este caso, elijo a Infobae, mi lugar de trabajo.

Lo primero que hacemos es extraer la nota en cuestión, pidiendo un imput al usuario. En este caso, elegimos https://www.infobae.com/teleshow/infoshow/2020/02/26/anama-ferreira-pidio-disculpas-por-los-audios-sobre-la-boda-de-eduardo-costantini-y-elina-fernandez/

Luego, con el inspector de webs administrado por Google Chrome en el menú de herramientas de desarrollador, vamos a identificar que etiquetas utiliza el medio de comunicación para publicar el título, subtítulo, texto y destacados.

En este caso en particular, los títulos son h1, los subtítulos son una clase, los párrafos son p y los destacados son b.

Gracias a este scraping, podemos entender la extensión que utilizó el periodista en cuanto a cantidad de letras tanto en los títulos, subtítulos y artículo. Si a esto, lo combinamos con librerías como Gensim, podemos obtener un análisis SEO de calidad.

Cómo se puede observar, también funciona para Clarín ya que los principales medios del país, salvo algunas excepciones en concreto, titulan sus notas con h1.