Técnicas y algoritmos de Minería de Datos

Para usar alguna técnicas y/o algoritmos de Minería de datos, es necesario tener la vista minable. Es decir, contar con los datos preparados, conocer su descripción, y para seleccionar la técnica, se requiere saber el tipo de dato.

El método a utilizar, depende del problema que se desea solucionar. Hay que hacer diferentes análisis para encontrar el algoritmo indicado. La siguiente lista muestra algunos ejemplos.

Predecir qué tanto tarda en pagar un cliente: morosidad
Conocer quiénes son los clientes
Identificar el perfil del comprador de cierto producto
Detectar las redes de usuarios fiscales que comenten fraude
Encontrar clientes que pretenden abandonar el servicio con el que cuenta

Los problemas planteados, generalmente tienen dos tipos de enfoque: problemas descriptivos y problemas predictivos.

Técnicas de Data Mining para Problemas Descriptivos

El objetivo de resolver problemas descriptivos consiste en encontrar una descripción de los datos. Por ejemplo, es usual querer agrupar los clientes con características semejantes para enviar notificaciones que sean más personalizadas. Otra descripción puede ser encontrar asociaciones de productos que se venden juntos. Para ello se tienen las siguientes técnicas.

Análisis de Segmentación

La intención de esta técnica es encontrar grupos similares, homogéneos en los datos. Para su solución se construyen modelos de aprendizaje no supervisados o clustering.

Análisis de Asociación

El objetivo es obtener relaciones entre los datos, relaciones desconocidos y que hagan sentido. El ejemplo clásico más conocido, es analizar la cesta de compra en un supermercado. Se dice que Walmart utilizó modelos en las transacciones para descubrir que los viernes, un grupo de compradores además de llevar cerveza también compraban pañales. Por lo que colocó los pañales cerca de las cervezas y con esta acción incrementaron sus ventas de ambos productos.

Técnicas Minería de Datos para problemas Predictivos

Se usa para obtener modelos que se usarán para aplicarlo en datos futuros., esencialmente para predecir comportamientos. En inteligencia artificial se llaman modelos de aprendizaje supervisado. Las variables utilizadas pueden se categóricas y numéricas.

Clasificación

Se refiere a modelos en los cuales la variable a predecir tiene valores definidos y son contables. Son usadas las variables categóricas. En una investigación que realicé, y tomando el ejemplo de ésta, se puede clasificar en un evento, la Semana del Emprendedor, el tipo de visitantes: empresario, emprendedor y espectador. Otro ejemplo, es predecir si un cliente va o no a comprar cierto producto.

Predicción de Valores

Como dice su nombre, se intenta predecir valores, por lo que más ocupa son variables numéricas. Con frecuencia lo que se obtiene es la probabilidad de un evento: la probabilidad de que un cliente siga con con su tarjeta de crédito, o de que adquiera una tarjeta adicional.

Clasificación según el Enfoque

Según Francisco Javier Martínez de Pisón Ascacíbar “en la práctica, quizás, una de las clasificaciones más interesantes de los algoritmos de minería de datos es la que corresponde con su función” Entonces se pueden clasificar

Tipos de algoritmos de mineraías de datos

Clasificadores. Clasifican datos en clases predefinidas
Algoritmos de regresión. A partir de los datos generan una función predictiva.
Descubrimiento de reglas de asociación. Búsqueda de relaciones entre variables.
Modelado de dependencias. Generación de modelos que expliquen las dependencias entre atributos.
Agrupamiento. Creación de grupos cuando las clases son desconocidas.
Aprendizajes basados en casos. Se establecen en indexar y recordar los casos más significativos, de forma que los nuevos casos son clasificados según el descriptor más próximo.
Compactación. Búsqueda de descripciones más compactas de los datos. Técnicas de reducción de la dimensión.
Detección de desviaciones. Basado en la búsqueda de desviaciones más importantes de los datos respecto a valores anteriores.
Resumen. Describe las propiedades que comparten aquellas observaciones que pertenecen a una misma clase.

Si se considera también algoritmos que apoyen a las tareas previas de preprocesado y preparación de los datos, se puede añadir:

Técnicas de visualización multivariante.
Algoritmos de detección y eliminación de datos atípicos.
Algoritmos de detección de datos ausentes y rellenado de los mismos.

El primer grupo abarca el Proceso de exploración de los datos (Exploratory Data Analysis, EDAD) mediante técnicas iterativas y visuales, que permiten hacerse una idea de las estructuras de los datos, dominios, atípicos, etc.

Algoritmos de Minería de datos

Árboles de decisión

Como dice el nombre es una secuencia de decisiones que se organizan de manera jerárquica, a manera de ramas de un árbol. Esos algoritmos aceptan tanto datos numéricos como categóricos. Con frecuencia se aplican este algoritmo para tareas de clasificación, agrupación y pronóstico. Si predicen categorías se suele llamar árboles de clasificación. SI son numéricos y se pretende predecir, se llaman árboles de regresión.

Redes neuronales artificiales

Esta clase de algoritmos son muy potentes, y ayudan a modelar prácticamente con cualquier tipo de problemas. También se realizan tareas de clasificar, predecir y agrupar. Una de las desventajas es que las redes neuronales trabajan con datos numéricos. Las variables categóricas se suelen discretizar para aplicar estos algoritmos . La redes se pueden concebir como grafos con nodos y enlaces. Se organizan por capas, la primera es de entrada, las siguientes son denominadas ocultas, y finalmente la capa de salida.

Análisis en Componentes Principales

Es una técnica multivariable, que se usa con el objetivo de reducir la dimensión de un conjunto de datos. Es decir, si tenemos un número grande de variables $x_n$ obtener un mínimo suficiente de variables $C_m$ que serán los componentes principales que representen la información en los datos. Este algoritmo trabaja con variables numéricas.

Análisis Factorial

Al igual que el análisis en componentes principales, el objetivo del análisis factorial también tiene como como objetivo disminuir la dimensión de los datos. Es una especia de combinación que condensan la información completa. El algoritmo está diseñado para trabajar con variables cuantitativas.

Análisis de Correspondencia

Si requieres resolver problemas de dimensionalidad con variables categóricas, el análisis de correspondencia es el indicado para llevar a cabo esta tarea. Se usan dos verticales, el análisis de correspondencia simple, que evalúa dos variables; toma como base la tabla de contingencia. y el análisis de correspondencias múltiples, que considera más de dos variables, considerando la tabla de Burt.

Escalamiento Multidimensional

Es usado para representar de manera gráfica a través de un mapa perceptual la similitudes que tienes objetos de una nube de datos, considerando el posicionamiento entre ellos. se parece mucho al análisis clúster. La diferencia radica en que en este modelo no se conocen las variables para determinar la semejanza, mientras que en el clúster sí.

El algoritmo K-means

El agrupamiento de los medios K es uno de los algoritmos de aprendizaje de máquinas no supervisadas más simples y populares.

Típicamente, los algoritmos no supervisados hacen inferencias a partir de conjuntos de datos usando sólo vectores de entrada sin referirse a resultados conocidos o etiquetados.

Algoritmo del vecino k más cercano

K-Nearest Neighbors es uno de los algoritmos de clasificación más básicos pero esenciales en el aprendizaje por máquina. Pertenece al dominio del aprendizaje supervisado y encuentra una intensa aplicación en el reconocimiento de patrones, la minería de datos y la detección de intrusos. Dentro de los algoritmos de Minería de Datos este es uno de lo más conocidos.

Naive Bayes

Naive Bayes es un algoritmo probabilístico de aprendizaje automático basado en el Teorema de Bayes, utilizado en una amplia variedad de tareas de clasificación. En este post, obtendrá una comprensión clara y completa del algoritmo Bayes Ingenuo y todos los conceptos necesarios para que no haya lugar a dudas ni a lagunas en la comprensión.

Algoritmo CART

El algoritmo de CART está estructurado como una secuencia de preguntas, cuyas respuestas determinan cuál será la siguiente pregunta, si es que la hay. El resultado de estas preguntas es una estructura en forma de árbol donde los extremos son nodos terminales en cuyo punto no hay más preguntas.

Los principales elementos de CART (y cualquier algoritmo de árbol de decisión) son:

Reglas para dividir los datos en un nodo basadas en el valor de una variable;
Reglas de parada para decidir cuándo una rama es terminal y ya no se puede dividir; y
Finalmente, una predicción para la variable objetivo en cada nodo terminal.