martes, 8 de diciembre de 2020

ANÁLISIS DE DISCURSOS APLICANDO MINERÍA DE TEXTOS

La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos por medio de la identificación de patrones o correlaciones entre los términos, logrando encontrar información que no está explícita dentro del texto. Fuente: wikipedia.

La minería de textos analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.

Una de las aplicaciones actuales de la minería de textos es el analizar discursos de personalidades para comprobar similitudes y diferencias entre unos y otros.

Existen varios paquetes desarrollados para realizar minería de texto en R en este caso usaremos quanteda, el cual fue desarrollado para ser utilizado por personas con datos textuales, tal vez de libros, tweets o transcripciones, tanto para administrar esos datos (clasificar, etiquetar, condensar, etc.) como para analizar su contenido. Dos formas comunes de análisis con quanteda son el análisis de sentimientos y el análisis de contenido.

Hay tres componentes principales de un texto tal como lo entiende quanteda:

  • El corpus es un objeto dentro de R que creamos cargando nuestros datos de texto.
  • La matriz de características del documento (el “dfm”) es la unidad analítica sobre la que realizaremos el análisis.
  • Tokens son típicamente cada palabra individual en un texto.


Métricas de legibilidad del texto

  • FORCAST (Caylor and Sticht 1973). La fórmula FORCAST es muy inusual ya que no usa una longitud de oración medición. Sin embargo, esto lo convierte en un favorito para usar con declaraciones y el texto en sitios web, aplicaciones y formularios. 

  • Índice de niebla de Gunning (Gunning 1952) FOG. El índice de niebla de Gunning es una medida de la legibilidad de un escrito que se utiliza en lingüística. El índice se basa en dos indicadores: la longitud de las frases y de las palabras.

  • Prueba de nivel de grado de Flesch-Kincaid (Flesch and Kincaid 1975). En la prueba de facilidad de lectura de Flesch, las puntuaciones más altas indican material que es más fácil de leer; los números más bajos marcan los pasajes que son más difíciles de leer, la escala abarca de 0 a 100.

  • “ELF” Easy Listening Formula (Fang 1966). ELF = número de sílabas por encima de una por palabra en una oración. Una oración promedio debe tener una puntuación ELF por debajo de 12 para que sea fácil de escuchar.


OTRAS CARACTERÍSTICAS DE ANÁLISIS TENEMOS:

  • Extensión del discurso
    Muestra de forma comparativa la extensión del discurso a través de la sumatoria de frases encontradas en el cuerpo textual. 

  • Frecuencia de uso de las palabras
    Se trata de un análisis de texto en su forma más simple, en el que los temas se cuentan y se llevan a la parte superior en función de la frecuencia con la que se mencionan. Esto es ideal para identificar rápidamente los temas comunes. 

  • Dispersión léxica y lenguaje controlado

  • Palabras clave y frecuencia identificadas por discurso comparados 

  • Análisis de similitudes y correlaciones entre los discursos
    Estas funciones calculan matrices de distancias y similitudes entre documentos o características de un dfm() y devuelven una matriz de similitudes o distancias en un formato disperso.

  • Distancia entre discursos
    Existen varias geometrías para explicar la distancia entre dos puntos, dos de las más conocidas son la euclidiana y la Manhattan.

  • Red de agrupamiento de palabras (combinaciones de palabras)
    Muchas veces un grupo de palabras puede proporcionarle más perspectiva que una sola palabra.

  • Extracción de Sentimientos de los discursos
    Donde pueden medirse contenidos catalogándose como positivos o negativos.


Toda esta ciencia de datos nos permite medir información de manera que es fascinante todo este tipo de prácticas porque nos ayuda a evaluar, comparar y analizar para crear estrategias y tomas de decisiones correctas. Una práctica o ejemplo de ello se los dejo en el siguiente link: análisis comparativo de los discursos presidenciales inaugurales de varios presidentes latinoamericanos.

Quieres saber más?..., puedo ayudarte y si lo deseas puedes comentar o compartir en caso de que te haya gustado.



Pedro D. Alcalá R.
Instructor de Business Intelligence
Facebook icon LinkedIn icon Twitter icon Instagram icon

No hay comentarios:

Publicar un comentario