Uso de cookies

Este sitio web solo utiliza cookies técnicas propias obligatoras con la finalidad de hacer que su navegación sea segura.
Asimismo, utiliza cookies de terceros opcionales para hacer análisis estadístico de las visitas a la web y conocer su usabilidad.
Si desea más información o cambiar la configuración de su navegador, puede visitar nuestra Política de Cookies.
Pulse el botón "Rechazar cookies opcionales" o "Aceptar todas las cookies" para confirmar que ha leído y aceptado la información aquí presentada.

Volver
Text mining para el BCE





Una de las ramas principales de la Inteligencia Artificial es el procesamiento del lenguaje natural (NLP, Natural Language Processing) que trata de analizar e interpretar el lenguaje empleado entre los humanos para comunicarnos y generar el conocimiento necesario para interactuar con ellos. En este ámbito, centrado en el análisis de datos, el Text Mining trata de analizar los datos de texto no estructurados mediante procesos automáticos con el objetivo de obtener información acerca de estos: temas principales, sentimiento o intención.

TF-IDF


Existen multitud de técnicas de Text Mining, en esta entrega vamos a centrarnos en una de las más tradicionales: TF-IDF (Term Frequency - Inverse Document Frequency), es una métrica que nos sirve, entre otras cosas, para medir la importancia relativa de un término en un texto respecto a una colección de estos.
El método para construirla es sencillo. Necesitamos obtener para cada término dos variables:

  • TF. Número de veces que la palabra aparece en el texto. Dependiendo del uso se utilizará un conteo tradicional u otras opciones como realizar un escalado logarítmico o utilizar una variable binaria que indique si la palabra aparece o no.

  • IDF. Cuánto aporta esa palabra para reconocer textos diferentes. Se calcula como el logaritmo del cociente entre el número de textos y el número de textos que incluye la palabra analizada. Palabras comunes tendrán IDF cercano a 0 y palabras no habituales tendrán IDF alto.


La métrica TF-IDF es el resultado de realizar el producto entre TF e IDF.

Aplicado al BCE


En uno de los proyectos desarrollados en el área de Analytics de Afi hemos necesitado obtener los términos principales de cada discurso oficial realizado por alguno de los responsables del Banco Central Europeo, los términos que caracterizan a cada uno de los responsables y las características principales en diferentes períodos. Veamos algunos ejemplos:
Podemos observar cuáles han sido los temas principales significativos en 2021:



Fig.1 - Key Topics en 2021.



También se puede generar para cada responsable cuáles han sido los temas que los han caracterizado:



Fig.2 - Key Topics for ECB speakers.



Por último, veamos cuáles han sido los temas que han sido especialmente destacados en los últimos dos discursos realizados en el BCE:



Fig.3 - Key Topics for ECB speechs.




Si quieres conocer más acerca del análisis que hemos realizado no dudes en contactarnos.
Comparte esta entrada