Técnicas y algoritmos de Minería de Datos

Para usar alguna técnicas y/o algoritmos de Minería de datos, es necesario tener la vista minable. Es decir, contar con los datos preparados, conocer su descripción, y para seleccionar la técnica, se requiere saber el tipo de dato.

El método a utilizar, depende del problema que se desea solucionar. Hay que hacer diferentes análisis para encontrar el algoritmo indicado. La siguiente lista muestra algunos ejemplos.

  • Predecir qué tanto tarda en pagar un cliente: morosidad
  • Conocer quiénes son los clientes
  • Identificar el perfil del comprador de cierto producto
  • Detectar las redes de usuarios fiscales que comenten fraude
  • Encontrar clientes que pretenden abandonar el servicio con el que cuenta

Los problemas planteados, generalmente tienen dos tipos de enfoque: problemas descriptivos y problemas predictivos.

Técnicas de Data Mining para Problemas Descriptivos

El objetivo de resolver problemas descriptivos consiste en encontrar una descripción de los datos. Por ejemplo, es usual querer agrupar los clientes con características semejantes para enviar notificaciones que sean más personalizadas. Otra descripción puede ser encontrar asociaciones de productos que se venden juntos. Para ello se tienen las siguientes técnicas.

Análisis de Segmentación

La intención de esta técnica es encontrar grupos similares, homogéneos en los datos. Para su solución se construyen modelos de aprendizaje no supervisados o clustering.

Análisis de Asociación

El objetivo es obtener relaciones entre los datos, relaciones desconocidos y que hagan sentido. El ejemplo clásico más conocido, es analizar la cesta de compra en un supermercado. Se dice que Walmart utilizó modelos en las transacciones para descubrir que los viernes, un grupo de compradores además de llevar cerveza también compraban pañales. Por lo que colocó los pañales cerca de las cervezas y con esta acción incrementaron sus ventas de ambos productos.

Técnicas Minería de Datos para problemas Predictivos

Se usa para obtener modelos que se usarán para aplicarlo en datos futuros., esencialmente para predecir comportamientos. En inteligencia artificial se llaman modelos de aprendizaje supervisado. Las variables utilizadas pueden se categóricas y numéricas.

Clasificación

Se refiere a modelos en los cuales la variable a predecir tiene valores definidos y son contables. Son usadas las variables categóricas. En una investigación que realicé, y tomando el ejemplo de ésta, se puede clasificar en un evento, la Semana del Emprendedor, el tipo de visitantes: empresario, emprendedor y espectador. Otro ejemplo, es predecir si un cliente va o no a comprar cierto producto.

Predicción de Valores

Como dice su nombre, se intenta predecir valores, por lo que más ocupa son variables numéricas. Con frecuencia lo que se obtiene es la probabilidad de un evento: la probabilidad de que un cliente siga con con su tarjeta de crédito, o de que adquiera una tarjeta adicional.

Clasificación según el Enfoque

Según Francisco Javier Martínez de Pisón Ascacíbar «en la práctica, quizás, una de las clasificaciones más interesantes de los algoritmos de minería de datos es la que corresponde con su función» Entonces se pueden clasificar

  • Clasificadores. Clasifican datos en clases predefinidas
  • Algoritmos de regresión. A partir de los datos generan una función predictiva.
  • Descubrimiento de reglas de asociación. Búsqueda de relaciones entre variables.
  • Modelado de dependencias. Generación de modelos que expliquen las dependencias entre atributos.
  • Agrupamiento. Creación de grupos cuando las clases son desconocidas.
  • Aprendizajes basados en casos. Se establecen en indexar y recordar los casos más significativos, de forma que los nuevos casos son clasificados según el descriptor más próximo.
  • Compactación. Búsqueda de descripciones más compactas de los datos. Técnicas de reducción de la dimensión.
  • Detección de desviaciones. Basado en la búsqueda de desviaciones más importantes de los datos respecto a valores anteriores.
  • Resumen. Describe las propiedades que comparten aquellas observaciones que pertenecen a una misma clase.

Si se considera también algoritmos que apoyen a las tareas previas de preprocesado y preparación de los datos, se puede añadir:

  • Técnicas de visualización multivariante.
  • Algoritmos de detección y eliminación de datos atípicos.
  • Algoritmos de detección de datos ausentes y rellenado de los mismos.

El primer grupo abarca el Proceso de exploración de los datos (Exploratory Data Analysis, EDAD) mediante técnicas iterativas y visuales, que permiten hacerse una idea de las estructuras de los datos, dominios, atípicos, etc.

Algoritmos de Minería de datos

Árboles de decisión

Como dice el nombre es una secuencia de decisiones que se organizan de manera jerárquica, a manera de ramas de un árbol. Esos algoritmos aceptan tanto datos numéricos como categóricos. Con frecuencia se aplican este algoritmo para tareas de clasificación, agrupación y pronóstico. Si predicen categorías se suele llamar árboles de clasificación. SI son numéricos y se pretende predecir, se llaman árboles de regresión.

Redes neuronales artificiales

Esta clase de algoritmos son muy potentes, y ayudan a modelar prácticamente con cualquier tipo de problemas. También se realizan tareas de clasificar, predecir y agrupar. Una de las desventajas es que las redes neuronales trabajan con datos numéricos. Las variables categóricas se suelen discretizar para aplicar estos algoritmos . La redes se pueden concebir como grafos con nodos y enlaces. Se organizan por capas, la primera es de entrada, las siguientes son denominadas ocultas, y finalmente la capa de salida.

Análisis en Componentes Principales

Es una técnica multivariable, que se usa con el objetivo de reducir la dimensión de un conjunto de datos. Es decir, si tenemos un número grande de variables x_n obtener un mínimo suficiente de variables C_m que serán los componentes principales que representen la información en los datos. Este algoritmo trabaja con variables numéricas.

Análisis Factorial

Al igual que el análisis en componentes principales, el objetivo del análisis factorial también tiene como como objetivo disminuir la dimensión de los datos. Es una especia de combinación que condensan la información completa. El algoritmo está diseñado para trabajar con variables cuantitativas.

Análisis de Correspondencia

Si requieres resolver problemas de dimensionalidad con variables categóricas, el análisis de correspondencia es el indicado para llevar a cabo esta tarea. Se usan dos verticales, el análisis de correspondencia simple, que evalúa dos variables; toma como base la tabla de contingencia. y el análisis de correspondencias múltiples, que considera más de dos variables, considerando la tabla de Burt.

Escalamiento Multidimensional

Es usado para representar de manera gráfica a través de un mapa perceptual la similitudes que tienes objetos de una nube de datos, considerando el posicionamiento entre ellos. se parece mucho al análisis clúster. La diferencia radica en que en este modelo no se conocen las variables para determinar la semejanza, mientras que en el clúster sí.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.