Metodologías de Minería de Datos

La necesidad de estructurar, racionalizar y enriquecer el estudio de Data Mining, llevó a la comunidad de los años 90’s a desarrollar una metodologías de Minería de Datos. Como resultado de esta tarea se creó CRISP-DM 1.0 en 1996 bajo la GNU GPL.

Contenido

¿Qué es CRISP DM?

CRISP-DM (CRoss-Industry Standard Process for Data Mining) es una metodología de Minería de datos para desarrollo de proyectos analítico, de minería de datos y machine learnings. CRISP-DM se explica como un proceso jerárquico, que tiene cuatro niveles de abstracción: Fase, tareas generales, tareas específicas e instancias de proceso.

En el primer nivel cada fase consiste en tareas generales lo más posible completas y estables. Por tareas completas se entiende a aquellas que cumplen completamente con el análisis y por sus posibles aplicaciones, por otro lado, por estables a aquellas que cubran incluso desarrollos no conocidos.

Diagrama del proceso CRIPS-DM - Metodología de Minería Datos
Diagrama Metodologías de Minería Datos by Kenneth Jensen Fuente

El tercer nivel las tareas especializadas describen las acciones de las tareas generales. Por ejemplo, en el segundo nivel (tareas generales) puede existir una tarea general llamada “limpieza de datos”. El tercer nivel describe cómo difiere esta acción de unas situaciones a otras, por ejemplo, la limpieza de datos numéricos y la de datos categóricos.

En la práctica muchas tareas pueden realizarse en orden diferente, con frecuencia será necesario regresar a tareas previas y repetir otras. El cuarto nivel, instancias de proceso, es un conjunto de acciones, decisiones y resultados sobre el proceso de Minería de Datos en curso.

Metodología CRISP-DM

La metodología de referencia CRISP-DM contiene las fases de un proyecto, sus respectivas tareas y sus relaciones entre ellas. El ciclo de vida de un proyecto de Minería de Datos o Machine learning consiste esencialmente en seis fases. La secuencia de las fases no es rígida, se puede regresar o adelantar a alguna de ellas siempre que se necesario. Todo depende de los resultados de cada fase.

Análisis del problema

La primera fase, análisis del problema o comprensión del negocio, es fundamental para definir los objetivos del proyecto y garantizar que los resultados del análisis de datos sean útiles y estén alineados con las necesidades del negocio. A continuación, se desglosan los pasos involucrados en esta fase y los aspectos clave que deben tenerse en cuenta.

¿Qué es el Análisis del Problema en CRISP-DM?

En CRISP-DM, el análisis del problema o la comprensión del negocio es el primer paso. Esta fase se centra en entender a fondo el problema que se va a resolver y en traducirlo a objetivos de análisis de datos específicos. Antes de comenzar a recopilar y analizar los datos, es crucial comprender el contexto, identificar los requisitos y definir qué resultados se esperan obtener.

El análisis del problema ayuda a definir:

  • Los objetivos de negocio y cómo se traducen en preguntas que pueden responderse con datos.
  • Los recursos disponibles, como datos, herramientas y el tiempo.
  • Los criterios de éxito, es decir, cómo se evaluará la utilidad de los resultados.

Objetivos de Negocio

En esta etapa inicial, el equipo de análisis debe colaborar estrechamente con los interesados en el proyecto (stakeholders) para identificar y definir claramente los objetivos de negocio. Esto implica comprender:

  • Qué problema específico quiere resolver el negocio.
  • Por qué es importante resolver este problema en términos de impacto en la organización.
  • Qué beneficios se obtendrían al abordar esta cuestión.

Por ejemplo, en un proyecto de reducción de costos en una empresa de transporte, los objetivos de negocio podrían ser “identificar factores que afectan el consumo de combustible y optimizar rutas para reducir costos”.

Objetivos de Minería de Datos

Una vez que los objetivos de negocio están claros, se deben traducir en objetivos de minería de datos. Estos objetivos deben ser específicos, medibles y alineados con las capacidades del equipo y las herramientas de análisis.

Siguiendo el ejemplo anterior, un objetivo de minería de datos sería “construir un modelo predictivo que estime el consumo de combustible en función de variables como la distancia, la velocidad y las condiciones meteorológicas”. Otros objetivos de minería de datos pueden incluir clasificación, segmentación, predicción o descubrimiento de patrones.

Evaluación de los Recursos Disponibles

El análisis del problema también debe considerar los recursos con los que se cuenta:

  • Datos disponibles: ¿Qué datos existen actualmente? ¿Son suficientes para abordar el problema o se necesitan datos adicionales? La calidad, la cantidad y la relevancia de los datos son cruciales para el éxito del proyecto.
  • Herramientas y tecnología: ¿Qué herramientas de análisis y procesamiento están disponibles? Esto puede incluir software, infraestructura de almacenamiento y capacidades de computación.
  • Expertise del equipo: ¿Cuenta el equipo con las habilidades necesarias en minería de datos, estadística y conocimiento de negocio?

Un análisis de los recursos permite establecer un plan realista y alinear expectativas con las capacidades disponibles.

Definición de los Criterios de Éxito

Para que el proyecto sea exitoso, es esencial definir los criterios de éxito. Estos son indicadores específicos que ayudan a evaluar si los resultados alcanzan los objetivos del negocio y si el análisis es útil para la organización.

Algunos ejemplos de criterios de éxito podrían ser:

  • Reducción de costos en un porcentaje específico.
  • Incremento en la precisión de un modelo predictivo en relación con una métrica como el RMSE (Root Mean Square Error) o el R^2.
  • Aumento en la satisfacción del cliente si el proyecto está relacionado con la mejora del servicio.

Planificación del Proyecto

La última parte del análisis del problema en CRISP-DM es la planificación del proyecto. Este plan debe incluir:

  • Tareas y cronograma: Establecer un calendario claro con tareas detalladas para cada etapa del proyecto.
  • Roles y responsabilidades: Definir quién será responsable de cada tarea y qué recursos se asignarán.
  • Evaluación de riesgos: Anticipar posibles desafíos o limitaciones y cómo se abordarán.

Esta planificación permite que el proyecto avance de manera organizada, mitigando el riesgo de retrasos o desviaciones de los objetivos originales.

Análisis de los datos

La fase de Análisis de los Datos en la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) es una etapa crítica en la que los datos recopilados son explorados, limpiados y preparados para la construcción de modelos. En esta fase, el equipo de análisis obtiene una comprensión profunda de la estructura y las características de los datos, lo que permite tomar decisiones informadas y asegurarse de que los datos sean adecuados para el análisis posterior.

El análisis de los datos permite detectar problemas de calidad y entender la distribución, patrones, correlaciones y otras características clave de los datos, proporcionando una base sólida para el modelado. A continuación, se detallan los pasos involucrados en esta fase y las técnicas principales utilizadas en el análisis de datos.

Objetivos de la Fase de Análisis de los Datos

El objetivo principal de esta fase es explorar y analizar el conjunto de datos para evaluar su calidad y relevancia, identificar posibles errores o inconsistencias y generar información preliminar. Esto permite al equipo de análisis realizar ajustes en el conjunto de datos y hacer que la información esté lista para la construcción de modelos en las fases siguientes.

Entre los objetivos específicos de la fase de análisis de los datos están:

  • Evaluar la calidad de los datos: Identificar y resolver problemas como datos incompletos, duplicados o valores atípicos.
  • Comprender las características de los datos: Examinar la distribución, tendencia central y variabilidad de cada variable.
  • Identificar patrones y relaciones: Explorar correlaciones y relaciones entre variables.
  • Preparar el conjunto de datos: Hacer ajustes para que los datos sean aptos para la modelización, incluyendo transformaciones y normalizaciones.

Pasos Principales en el Análisis de los Datos

Revisión Inicial de los Datos

El primer paso consiste en hacer una revisión inicial del conjunto de datos para obtener una visión general de su estructura y contenido. En esta etapa se identifican las variables presentes en el dataset, su tipo (numéricas, categóricas, texto, etc.) y la cantidad de datos disponibles.

La revisión inicial ayuda a responder preguntas clave, como:

  • ¿Existen valores faltantes?
  • ¿Qué variables son más relevantes para el problema de negocio?
  • ¿Qué transformaciones preliminares serían necesarias?
Exploración Estadística Descriptiva

La estadística descriptiva proporciona un resumen básico de cada variable en el conjunto de datos. Se calculan medidas de tendencia central (media, mediana) y dispersión (desviación estándar, varianza), y se observan las distribuciones para identificar patrones y tendencias.

Para datos numéricos, se suelen observar:

  • Media y mediana para evaluar la tendencia central.
  • Desviación estándar y rango para comprender la dispersión de los valores.
  • Distribución de frecuencias para detectar sesgos o irregularidades.

Para datos categóricos, se examinan las frecuencias de cada categoría para ver si hay distribuciones desiguales o patrones que podrían influir en el análisis.

Detección y Tratamiento de Valores Faltantes

Los valores faltantes son un problema común en la mayoría de los proyectos de análisis de datos. Su tratamiento adecuado es crucial, ya que pueden distorsionar los resultados. Existen varias técnicas para lidiar con los valores faltantes, tales como:

  • Eliminación de registros incompletos: Útil cuando el porcentaje de datos faltantes es pequeño y no afecta significativamente el tamaño de la muestra.
  • Imputación de valores: Rellenar los valores faltantes con la media, mediana o moda, o utilizando métodos más avanzados como la imputación basada en el vecino más cercano o modelos de regresión.
  • Marcado de valores faltantes: En algunos casos, es útil crear una categoría separada para los datos faltantes, especialmente si pueden tener un significado específico.
Identificación de Valores Atípicos

Los valores atípicos (outliers) son puntos de datos que se encuentran significativamente alejados del resto de las observaciones y pueden influir negativamente en el análisis. Identificar y decidir cómo manejar estos valores es fundamental para asegurar la calidad de los datos.

Existen varios métodos para detectar valores atípicos, incluyendo:

  • Métodos estadísticos: Como el cálculo de z-scores (valores estandarizados) o el uso de cuartiles y el rango intercuartil.
  • Visualización de datos: Gráficos como boxplots o scatter plots ayudan a identificar visualmente valores fuera del rango esperado.

Dependiendo del contexto, los valores atípicos pueden ser eliminados, transformados o analizados separadamente si tienen un significado particular.

Análisis de Correlación

La correlación mide la relación entre dos variables numéricas y ayuda a identificar asociaciones que podrían ser relevantes para el modelo. En el contexto del análisis de datos, es útil determinar si existe una correlación positiva o negativa entre las variables, o si las variables son independientes entre sí.

Las técnicas más comunes para analizar la correlación incluyen:

  • Coeficiente de correlación de Pearson: Evalúa la relación lineal entre dos variables continuas.
  • Coeficiente de correlación de Spearman: Ideal para variables no lineales o datos que no cumplen con los supuestos de normalidad.
  • Mapas de calor (heatmaps): Una visualización común para ver la matriz de correlación de todas las variables, resaltando las relaciones más fuertes.
Transformación de Variables

La transformación de variables es una etapa importante en el análisis de datos, especialmente si se planea aplicar modelos que requieren que los datos cumplan con ciertos supuestos, como la normalidad o la homogeneidad de la varianza. Algunas de las transformaciones comunes incluyen:

  • Normalización: Ajustar las variables para que sus valores caigan dentro de un rango específico, generalmente entre 0 y 1.
  • Estandarización: Cambiar la escala de las variables para que tengan una media de 0 y una desviación estándar de 1.
  • Codificación de variables categóricas: Convertir variables categóricas en variables numéricas utilizando métodos como la codificación one-hot (una variable binaria para cada categoría) o la codificación ordinal.

Herramientas y Técnicas Comunes en el Análisis de Datos

El análisis de datos en CRISP-DM suele requerir una combinación de herramientas y técnicas que ayudan a limpiar, explorar y transformar los datos de manera efectiva. Algunas de las herramientas más utilizadas incluyen:

  • Python: Con bibliotecas como pandas, NumPy, seaborn y matplotlib, que ofrecen amplias funcionalidades para el análisis y la visualización de datos.
  • R: Una herramienta poderosa para el análisis estadístico y la manipulación de datos, con paquetes específicos como dplyr y ggplot2 para visualización.
  • SQL: Para la manipulación y consulta de grandes bases de datos, especialmente en la fase inicial de recopilación y revisión de datos.
  • Power BI o Tableau: Para la visualización interactiva y la exploración de datos, lo cual ayuda a los equipos a identificar patrones y tendencias.

Preparación de los datos

Esta etapa se enfoca en transformar los datos brutos en un formato estructurado y listo para el modelado, asegurando que los datos estén en las mejores condiciones posibles para construir modelos efectivos y precisos. La calidad del análisis de datos depende en gran medida de la calidad y adecuación de los datos, por lo que esta fase es esencial para el éxito de cualquier proyecto de análisis de datos o machine learning.

La preparación de los datos implica una serie de pasos, desde la limpieza y transformación de los datos hasta la selección de características y su formato final. A continuación, se detallan los pasos involucrados en esta fase, junto con las técnicas más comunes y las mejores prácticas.

Objetivos de la Fase de Preparación de los Datos

El objetivo principal de esta fase es preparar y estructurar los datos de forma que sean adecuados para el modelado. Los datos crudos, tal como se recopilan, suelen tener problemas de calidad y formato, lo que dificulta su uso en modelos de machine learning o análisis estadístico.

Los objetivos específicos incluyen:

  • Limpieza de datos: Eliminar inconsistencias y errores en los datos.
  • Transformación de datos: Cambiar el formato o la escala de los datos para adaptarlos a los requerimientos del modelo.
  • Integración de datos: Combinar diferentes fuentes de datos en un solo conjunto coherente.
  • Selección de características: Elegir las variables o columnas más relevantes para el problema de negocio.
  • Formateo final: Dar un formato específico al conjunto de datos según el modelo a aplicar.

Pasos Principales en la Preparación de los Datos

Limpieza de Datos

La limpieza de datos es un paso esencial para asegurar que el conjunto de datos esté libre de errores, inconsistencias y valores faltantes que puedan afectar el rendimiento del modelo. Los pasos típicos en esta etapa incluyen:

  • Tratamiento de valores faltantes: Existen diversas estrategias para manejar valores faltantes, entre las que se incluyen:
    • Eliminación de registros: Útil si el porcentaje de datos faltantes es bajo.
    • Imputación de valores: Rellenar valores faltantes con la media, mediana, moda o con técnicas más avanzadas como regresión o imputación basada en el vecino más cercano.
  • Eliminación de duplicados: En muchos casos, los conjuntos de datos pueden tener registros duplicados que deben eliminarse para evitar sesgos en el análisis.
  • Corrección de errores tipográficos y valores inconsistentes: Los errores tipográficos y de formato en los datos categóricos pueden afectar el análisis. Por ejemplo, si la columna “País” tiene valores como “USA”, “U.S.A.” y “Estados Unidos”, estos deben unificarse.
Transformación de Datos

La transformación de los datos se realiza para adaptar los datos al tipo de análisis o modelado requerido. Algunas transformaciones comunes incluyen:

  • Normalización: Escalar los valores numéricos para que caigan dentro de un rango específico, generalmente entre 0 y 1. Esto es particularmente útil para algoritmos que son sensibles a la escala de las variables, como redes neuronales y métodos de clustering.
  • Estandarización: Cambiar la escala de las variables para que tengan una media de 0 y una desviación estándar de 1. La estandarización es útil cuando los datos tienen distribuciones normalizadas y es común en métodos como la regresión y algoritmos de clustering.
  • Transformación logarítmica o raíz cuadrada: Aplicar una transformación logarítmica o de raíz cuadrada puede ayudar a estabilizar la varianza y hacer que los datos se asemejen más a una distribución normal, lo cual es deseable para ciertos modelos.
Integración de Datos

La integración de datos implica combinar diferentes fuentes de datos en un solo conjunto coherente. Esto puede incluir la combinación de bases de datos de ventas, datos de clientes, datos de comportamiento en línea, etc. En muchos proyectos de análisis de datos, la información útil se encuentra dispersa en múltiples fuentes, por lo que la integración adecuada de estos datos es esencial para crear una visión completa del problema.

Las técnicas comunes de integración de datos incluyen:

  • Unión de datos: Combinar tablas o archivos de datos utilizando claves comunes (por ejemplo, ID de cliente o fecha).
  • Agregación de datos: Resumir información en una sola tabla, como sumar las ventas mensuales de un cliente en una sola columna.
Selección de Características

La selección de características es el proceso de identificar y conservar las variables que son relevantes para el análisis y descartar aquellas que no aportan información útil o que pueden introducir ruido en el modelo. Este paso es crucial porque un conjunto de datos con demasiadas variables irrelevantes puede llevar a un rendimiento inferior del modelo y hacer que el análisis sea menos eficiente.

Técnicas para la selección de características:

  • Método de correlación: Identificar variables que están altamente correlacionadas entre sí y conservar solo una de ellas para evitar redundancia.
  • Análisis de importancia de características: Usar algoritmos como árboles de decisión o modelos de regresión para medir la importancia de cada característica y eliminar aquellas con baja importancia.
  • Análisis de varianza (ANOVA): Comparar la variabilidad de las características para identificar aquellas que tienen un impacto significativo en la variable de interés.
Ingeniería de Características

La ingeniería de características se refiere a la creación de nuevas variables a partir de las existentes para mejorar el rendimiento del modelo. Este proceso implica la creación de características derivadas que pueden capturar mejor la información y representar el problema de manera más completa.

Ejemplos de ingeniería de características:

  • Crear variables temporales: Como el día de la semana o el mes del año, si se tiene información de fechas y el análisis busca capturar patrones estacionales.
  • Variables de interacción: Crear características que representen la interacción entre dos o más variables, como multiplicar la variable “tiempo en servicio” por “cantidad de trabajo” para capturar el esfuerzo total de una tarea.
  • Agrupaciones de categorías: Reducir el número de categorías en una variable categórica combinando aquellas que son menos frecuentes o que tienen un impacto similar.
Formateo Final de los Datos

Una vez que los datos están limpios, transformados y se han seleccionado las características adecuadas, se realiza el formateo final para que el conjunto de datos esté listo para el modelado. Este formato puede variar según el tipo de modelo o algoritmo que se planea utilizar. Algunas consideraciones en esta etapa incluyen:

  • Conversión de variables categóricas: Transformar las variables categóricas en variables numéricas mediante codificación, como one-hot encoding, si el modelo requiere datos numéricos.
  • División del conjunto de datos: Separar los datos en conjuntos de entrenamiento, validación y prueba para evaluar y entrenar el modelo sin sobreajuste.
  • Almacenamiento y organización: Guardar el conjunto de datos en un formato adecuado (como CSV o en una base de datos) que sea accesible y fácil de cargar en el ambiente de modelado.

Modelado

En esta fase varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros son calibrados en valores óptimos. Generalmente existen diversas técnicas aplicables al mismo tipo de problema. Algunas técnicas necesitan que los datos estén preparados de cierta forma para poderse aplicar. Si los datos no están en condiciones es necesario regresar a la fase preparación de los datos

Esta fase es crítica, ya que el éxito del proyecto depende de la precisión y rendimiento del modelo elegido. Para asegurar la selección del mejor modelo, el proceso incluye la elección de algoritmos adecuados, el ajuste de parámetros y la evaluación de los resultados obtenidos. A continuación, se explican los pasos involucrados y las técnicas más comunes en la fase de modelado en CRISP-DM

Objetivos de la Fase de Modelado

El objetivo principal de la fase de modelado es desarrollar un modelo predictivo o descriptivo que capture patrones en los datos y genere resultados que sean útiles para el objetivo del proyecto. Esta fase permite:

  • Aplicar distintos algoritmos de machine learning o estadísticos a los datos.
  • Ajustar y optimizar los modelos para mejorar su rendimiento.
  • Evaluar el desempeño del modelo y compararlo con otros modelos para seleccionar el que ofrezca los mejores resultados.

Pasos Principales en la Fase de Modelado

Selección de Algoritmos de Modelado

El primer paso en la fase de modelado es elegir los algoritmos que se probarán en el conjunto de datos. La elección de los algoritmos depende del tipo de problema (clasificación, regresión, clustering, etc.), de las características de los datos y de los objetivos específicos del proyecto.

Existen varios tipos de modelos de machine learning, entre los más comunes se encuentran:

  • Modelos de Clasificación: Para problemas en los que el objetivo es asignar una clase a cada instancia, como el abandono de clientes o la detección de fraude. Ejemplos incluyen árboles de decisión, regresión logística, máquinas de soporte vectorial (SVM) y redes neuronales.
  • Modelos de Regresión: Utilizados para predecir valores continuos, como precios de viviendas o ventas futuras. Ejemplos incluyen la regresión lineal, regresión polinómica y los modelos de árboles de decisión para regresión.
  • Modelos de Clustering: Aplicados para segmentar datos en grupos cuando no se cuenta con etiquetas de clase, como la segmentación de clientes. Los algoritmos de clustering incluyen el método de k-means y el clustering jerárquico.
  • Modelos de Series Temporales: Para la predicción de datos que dependen del tiempo, como la previsión de demanda o de temperatura. Los modelos comunes incluyen ARIMA y redes neuronales recurrentes (RNN).

La selección del algoritmo debe basarse en el análisis de las características de los datos y del problema, además de considerar el desempeño histórico de estos algoritmos en problemas similares.

División de los Datos en Conjuntos de Entrenamiento y Prueba

Antes de entrenar los modelos, los datos preparados se dividen en conjuntos de entrenamiento y prueba. La práctica común es utilizar entre el 70% y el 80% de los datos para el entrenamiento y el restante para la prueba. En algunos casos, se puede incluir un conjunto de validación adicional (por ejemplo, en el ajuste de hiperparámetros) para mejorar la precisión del modelo.

La división de los datos es crucial para evaluar correctamente el rendimiento del modelo y evitar el sobreajuste (overfitting), que ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y pierde capacidad de generalización.

Entrenamiento de los Modelos

El entrenamiento del modelo es el proceso mediante el cual el algoritmo aprende a partir de los datos de entrenamiento. Durante el entrenamiento, el algoritmo ajusta sus parámetros internos para minimizar la diferencia entre las predicciones y los valores reales.

Por ejemplo:

  • En un modelo de regresión lineal, el entrenamiento consiste en ajustar los coeficientes de la ecuación lineal para que minimicen el error.
  • En un árbol de decisión, el modelo selecciona los puntos de división (nodos) que mejor separan las clases.
  • En una red neuronal, el entrenamiento ajusta los pesos de las conexiones entre las neuronas para reducir el error.

Cada algoritmo de machine learning tiene su propio método para ajustar los parámetros, y el éxito del entrenamiento depende de la calidad de los datos, el algoritmo seleccionado y la configuración de los hiperparámetros.

Optimización y Ajuste de Hiperparámetros

Los hiperparámetros son parámetros externos al modelo que deben configurarse antes del entrenamiento y afectan el rendimiento del modelo. Ejemplos de hiperparámetros incluyen la profundidad máxima de un árbol de decisión, el número de vecinos en k-NN o la tasa de aprendizaje en redes neuronales.

La optimización de hiperparámetros es un proceso clave en el modelado, ya que permite mejorar el rendimiento del modelo. Algunas de las técnicas de optimización más comunes son:

  • Búsqueda en cuadrícula (Grid Search): Prueba todas las combinaciones posibles de hiperparámetros en un rango definido.
  • Búsqueda aleatoria (Random Search): Prueba valores aleatorios de los hiperparámetros dentro de un rango.
  • Optimización bayesiana: Una técnica más avanzada que utiliza la probabilidad para seleccionar los mejores valores de hiperparámetros.
Evaluación de los Modelos

Una vez que los modelos han sido entrenados y optimizados, es importante evaluar su desempeño para determinar cuál es el mejor modelo para el problema. La evaluación se realiza utilizando el conjunto de prueba, que contiene datos no utilizados durante el entrenamiento.

Las métricas de evaluación varían según el tipo de problema:

  • Problemas de Clasificación:
    • Precisión: Proporción de predicciones correctas.
    • Sensibilidad y especificidad: Medidas de los verdaderos positivos y verdaderos negativos.
    • Curva ROC y AUC: Gráficas que representan el rendimiento de un clasificador y el área bajo la curva.
  • Problemas de Regresión:
    • Error cuadrático medio (MSE) y raíz del error cuadrático medio (RMSE): Miden la diferencia entre los valores reales y las predicciones.
    • MAE (Mean Absolute Error): Error absoluto medio.
    • R^2: Coeficiente de determinación que indica el porcentaje de variación de la variable dependiente explicada por el modelo.

La comparación entre modelos permite identificar el que mejor cumple con los objetivos de precisión, generalización y rendimiento.

Selección del Mejor Modelo

Una vez evaluados, se selecciona el modelo con mejor rendimiento según las métricas establecidas. En algunos casos, se pueden combinar varios modelos mediante técnicas de ensamblado (ensemble) como el bagging, boosting o stacking para mejorar la precisión y robustez del modelo final.

Por ejemplo:

  • Random Forest: Un conjunto de múltiples árboles de decisión.
  • Gradient Boosting: Un modelo que construye secuencialmente múltiples modelos débiles y los combina en un modelo fuerte.

Evaluación

La fase de Evaluación en la metodología CRISP-DM es crucial para determinar si el modelo cumple con los objetivos del proyecto y si los resultados son suficientemente precisos y confiables para su implementación en un entorno real. Aunque los modelos pueden mostrar buenos resultados en el conjunto de datos de entrenamiento y prueba, la evaluación en esta fase implica una revisión más detallada para asegurar que el modelo no solo sea preciso, sino también relevante y útil en el contexto del problema de negocio.

En esta fase, se utilizan métricas específicas para evaluar el desempeño del modelo, se comparan sus resultados con los objetivos iniciales, y se valida si los hallazgos son interpretables y alineados con los objetivos del proyecto. Esta revisión permite identificar mejoras y decidir si el modelo está listo para ser implementado o si requiere ajustes adicionales.

Objetivos de la Fase de Evaluación

El objetivo principal de la fase de evaluación es verificar y validar que el modelo cumple con los requerimientos del proyecto, tanto desde el punto de vista técnico como del negocio. Este proceso incluye:

  • Evaluar el desempeño del modelo mediante métricas adecuadas.
  • Confirmar la alineación del modelo con los objetivos de negocio.
  • Interpretar y revisar los resultados para asegurar que sean útiles y significativos.
  • Decidir si el modelo está listo para la implementación o si requiere ajustes adicionales.

La fase de evaluación actúa como una última verificación antes de pasar a la fase de implementación, asegurando que el modelo sea robusto, preciso y útil para la toma de decisiones.

Pasos Principales en la Fase de Evaluación

Evaluación del Desempeño del Modelo

La primera parte de la evaluación consiste en analizar el desempeño técnico del modelo. Dependiendo del tipo de problema (clasificación, regresión, clustering, etc.), se seleccionan métricas de evaluación específicas para medir la precisión, capacidad de generalización y efectividad del modelo.

  • Para problemas de Clasificación:
    • Precisión: Proporción de predicciones correctas sobre el total.
    • Sensibilidad (o Recall): La proporción de verdaderos positivos en relación con todos los positivos reales.
    • Especificidad: La proporción de verdaderos negativos en relación con todos los negativos reales.
    • Curva ROC y AUC: La curva ROC muestra el rendimiento del modelo en diferentes umbrales de clasificación, y el área bajo la curva (AUC) mide la capacidad del modelo para distinguir entre clases.
    • F1-Score: La media armónica entre precisión y sensibilidad, especialmente útil en casos de clases desbalanceadas.
  • Para problemas de Regresión:
    • Error Cuadrático Medio (MSE) y Raíz del Error Cuadrático Medio (RMSE): Miden la diferencia promedio entre las predicciones y los valores reales.
    • MAE (Mean Absolute Error): Mide el error promedio absoluto entre las predicciones y los valores reales.
    • R^2 (Coeficiente de Determinación): Indica la proporción de la varianza de la variable dependiente explicada por el modelo.
  • Para problemas de Clustering:
    • Coeficiente de Silueta: Mide la coherencia de los grupos formados.
    • Inercia intra-cluster: Evalúa qué tan cercanas están las observaciones dentro de los mismos clusters.
    • Purity y Rand Index: Evaluación de la calidad de los clusters en problemas de clustering supervisado.

La selección de métricas adecuadas permite medir de manera objetiva la precisión y efectividad del modelo en su propósito específico.

Comparación con los Objetivos del Negocio

Una vez evaluado el rendimiento técnico, el siguiente paso es comparar los resultados obtenidos con los objetivos de negocio establecidos en la fase inicial del proyecto. Es fundamental que los resultados del modelo no solo sean técnicamente buenos, sino que también cumplan con las expectativas y objetivos de negocio.

Para esto, el equipo debe:

  • Revisar si las predicciones o clasificaciones proporcionadas por el modelo aportan información útil para resolver el problema planteado.
  • Evaluar si el modelo ayudará a lograr mejoras significativas en términos de eficiencia, costos, satisfacción del cliente o cualquier otro objetivo de negocio.
  • Confirmar si las métricas del modelo cumplen con los criterios de éxito definidos (por ejemplo, una precisión mínima o una reducción de errores específicos).

Si los resultados del modelo no cumplen con los objetivos de negocio, es posible que se requiera hacer ajustes en el modelo o, en algunos casos, replantear el enfoque del proyecto.

Validación del Modelo en Condiciones Reales

Después de confirmar que el modelo cumple con los objetivos de negocio, es importante validar que el modelo funcione correctamente en condiciones similares al entorno real. Esto se puede hacer mediante:

  • Pruebas en un conjunto de datos no visto: Utilizar un conjunto de validación adicional para comprobar que el modelo mantiene su precisión y generalización.
  • Pruebas en un entorno de producción simulado: Simular el uso del modelo en condiciones de producción para asegurar que se comporta adecuadamente en un entorno similar al real.
  • Cross-validation (Validación Cruzada): Para modelos con pocos datos, aplicar validación cruzada para obtener un promedio del rendimiento del modelo en distintos subconjuntos del conjunto de datos.

La validación en condiciones reales permite detectar posibles problemas de sobreajuste o errores en el modelo que podrían pasar desapercibidos en el conjunto de datos de prueba y asegura que el modelo es robusto y confiable.

Interpretación y Explicabilidad del Modelo

En algunos proyectos, especialmente aquellos en los que el modelo se usará para tomar decisiones de negocio importantes, es necesario que el modelo sea explicable y fácil de interpretar para los usuarios o tomadores de decisiones.

  • Modelos interpretables: Modelos como la regresión lineal y los árboles de decisión son generalmente fáciles de interpretar, ya que permiten ver cómo cada característica afecta las predicciones.
  • Técnicas de interpretabilidad: En modelos más complejos, como las redes neuronales profundas, se pueden aplicar técnicas como SHAP (Shapley Additive Explanations) o LIME (Local Interpretable Model-agnostic Explanations) para entender el impacto de cada variable en las predicciones.

La interpretabilidad es importante para que los usuarios confíen en los resultados del modelo y puedan tomar decisiones informadas basadas en sus predicciones.

Análisis de Errores y Diagnóstico

Una parte importante de la fase de evaluación es realizar un análisis de errores para entender por qué el modelo falla en ciertos casos y cómo se podría mejorar. Este análisis permite identificar:

  • Patrones en los errores: Si existen ciertos tipos de instancias o grupos de datos donde el modelo falla más a menudo.
  • Posibles sesgos en los datos: Problemas de sesgo o falta de representatividad que podrían afectar la precisión del modelo en ciertos segmentos de la población o contexto.
  • Limitaciones del modelo: Conocer los límites del modelo permite gestionar las expectativas y evaluar si se debe buscar un modelo alternativo o realizar ajustes adicionales.

El análisis de errores es crucial para iterar en el proceso y mejorar la precisión del modelo en futuras versiones.

Revisión y Toma de Decisiones

Una vez completada la evaluación técnica y de negocio, el equipo debe decidir si el modelo está listo para la implementación o si es necesario realizar ajustes adicionales o probar otros modelos.

Las decisiones finales incluyen:

  • Confirmar la implementación del modelo en un entorno de producción si cumple con todos los objetivos y criterios de éxito.
  • Reiterar en el modelado si se identifican áreas de mejora, problemas técnicos o desalineación con los objetivos de negocio.
  • Documentar los hallazgos y los resultados de la evaluación para asegurar que todos los aspectos del modelo y su desempeño queden registrados y accesibles para futuras mejoras.

La documentación es fundamental en la fase de evaluación, ya que permite comunicar los resultados del modelo y las razones detrás de su implementación o ajuste.

Fase de Desarrollo o Implementación

La última fase de la metodología CRISP-DM es la fase de Desarrollo o Implementación, en la cual el modelo final y los conocimientos obtenidos durante el proyecto se llevan a un entorno de producción para su uso real. El propósito de esta fase es hacer que el modelo esté disponible para que los usuarios y la empresa puedan beneficiarse de los resultados obtenidos, ya sea en forma de predicciones, recomendaciones o información procesable que contribuya a la toma de decisiones.

Aunque el modelo puede haber mostrado buenos resultados en la fase de evaluación, la implementación en un entorno real presenta sus propios desafíos, ya que el modelo debe integrarse adecuadamente con los sistemas existentes y adaptarse a posibles cambios en los datos y el entorno de negocio.

Objetivos de la Fase de Implementación

El objetivo principal de esta fase es integrar el modelo y las soluciones desarrolladas en el flujo de trabajo diario de la organización, asegurando que el modelo cumpla con los requisitos operativos y sea accesible para los usuarios finales. En esta etapa, también se definen los procesos de monitoreo y mantenimiento para asegurar que el modelo se mantenga actualizado y siga ofreciendo resultados precisos.

Pasos Principales en la Fase de Implementación

Preparación para la Implementación

Antes de implementar el modelo, se realiza una preparación detallada que incluye planificar el despliegue y definir los requerimientos de infraestructura y tecnología. Algunas de las tareas clave incluyen:

  • Definir el entorno de producción: Decidir en qué infraestructura se ejecutará el modelo, ya sea en servidores locales, en la nube o en un sistema híbrido.
  • Documentación completa: Elaborar una documentación detallada que incluya los datos, la metodología utilizada, los parámetros del modelo, las métricas de rendimiento, y la lógica de negocio.
  • Integración con los sistemas existentes: Adaptar el modelo para que funcione junto con los sistemas internos, como bases de datos, aplicaciones de gestión o plataformas de interacción con clientes.

La preparación adecuada asegura que la implementación sea eficiente y que el modelo esté listo para operar en condiciones reales.

Despliegue del Modelo en Producción

El despliegue en producción es el proceso de poner el modelo a disposición de los usuarios finales. En esta etapa, el modelo se implementa en el entorno designado y se asegura su integración con las interfaces y sistemas que utilizarán sus resultados. Existen varias formas de desplegar un modelo:

  • API (Application Programming Interface): Crear una API que permita a otros sistemas o aplicaciones interactuar con el modelo para solicitar predicciones o análisis en tiempo real.
  • Dashboard o panel de visualización: Construir una interfaz visual donde los usuarios puedan ver los resultados del modelo y realizar consultas.
  • Automatización en flujos de trabajo: Integrar el modelo en procesos automatizados, como en sistemas de recomendación, chatbots o sistemas de alertas.

El despliegue en producción debe garantizar que el modelo esté disponible de forma continua y responda a las necesidades operativas de la empresa.

Capacitación de Usuarios

Una parte importante de la implementación es la capacitación de los usuarios que interactuarán con el modelo o utilizarán los resultados en su trabajo diario. Esto es especialmente relevante si el modelo es utilizado por equipos de negocio o áreas no técnicas. La capacitación debe enfocarse en:

  • Explicar el propósito y las capacidades del modelo.
  • Enseñar a los usuarios a interpretar los resultados y aplicar los conocimientos obtenidos.
  • Proveer ejemplos prácticos y casos de uso que faciliten la integración del modelo en los procesos de negocio.

La capacitación permite que los usuarios maximicen el valor del modelo y lo utilicen de manera adecuada para tomar decisiones informadas.

Monitoreo y Mantenimiento

Después del despliegue, es necesario establecer un proceso continuo de monitoreo y mantenimiento para asegurar que el modelo siga siendo efectivo y relevante a lo largo del tiempo. Esto implica:

  • Monitoreo del rendimiento del modelo: Evaluar periódicamente el rendimiento del modelo mediante las métricas utilizadas en la fase de evaluación. Esto ayuda a detectar posibles degradaciones en la precisión del modelo.
  • Detección de cambios en los datos: Si los datos de entrada cambian con el tiempo (por ejemplo, si cambian las preferencias de los clientes o las condiciones de mercado), es posible que el modelo deba ajustarse o reentrenarse.
  • Reentrenamiento y actualización: En algunos casos, es necesario actualizar o reentrenar el modelo con datos nuevos para asegurar que sigue siendo preciso y relevante.

El monitoreo y mantenimiento continuo garantiza que el modelo mantenga su utilidad a lo largo del tiempo, adaptándose a cambios en los datos y el entorno de negocio.

Recopilación de Feedback de los Usuarios

Después de la implementación, es importante recopilar feedback de los usuarios finales para identificar posibles áreas de mejora o ajustes adicionales. Esto permite:

  • Mejorar la experiencia del usuario con el modelo.
  • Detectar posibles problemas o limitaciones en el uso real del modelo.
  • Identificar oportunidades para mejorar el modelo en futuras iteraciones.

El feedback de los usuarios proporciona información valiosa sobre el impacto y la utilidad del modelo en el contexto real, y puede guiar los ajustes y optimizaciones necesarias.

Metodología SEMMA

Por otra parte, la metodología llamada SEMMA, desarrollada por el instituto SAS que es el acrónimo de SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS, que podemos interpretar como muestrea, explora, modifica, modela y evalúa, que se refiere al proceso básico para realizar Minería de Datos.

Esto es a partir de una muestra representativa de los datos, se aplican técnicas estadísticas de exploración y visualización, se seleccionan y transforman variables, se modela con las variables para predecir los y se evalúa la exactitud del modelo.

Diagrama de la metodología sas semma de minería de datos
Metodologías de minería de datos diagrama SEMMA por jorgeromero.net basdo en SAS Doc

Un malentendido común es referirse a SEMMA como una metodología para hacer Minería de Datos. En la página SAS confirma que SEMMA es una organización lógica de la función de las herramientas de SAS ENTREPISE MINER en relación a las tareas básicas de la Minería de Datos.

Muestreo de los datos

Mediante la extracción de un subconjunto significativo desde un punto de vista estadístico de datos que contiene la información relevante que a la vez es rápido de manipular.

Por razones de costos y rendimiento SAS aboga por una estrategia de muestreo fiable, estadísticamente representativa de la fuente los datos origen. Las tareas de minería de una muestra significativa reducen el tiempo de procesamiento. Si existen patrones generales en la base de datos, Éstos serán detectados en la muestra representativa. También se pueden realizar particiones de los datos de la siguiente forma:

  • Entrenamiento, se utiliza para ajustar el modelo
  • Validación, se emplea para evaluar y para evitar el sobre y sub-ajuste
  • Prueba, se aprovecha para obtener una evaluación honesta del modelo en general

Exploración de datos

Mediante la búsqueda de tendencias, valores atípicos etc., con el fin de obtener una idea. Ayuda a refinar el proceso de descubrimiento. Se utilizan técnicas visuales, estadísticas incluyendo análisis factorial, análisis de correspondencias y la segmentación.

Modificación de datos

A través de la creación, selección y transformación de las variables para dirigir el proceso de modelado. Se utiliza para encontrar valores atípicos, reducir el número de variables y seleccionar las más significativas.

Modelado de datos

Los algoritmos programados buscan automáticamente un subconjunto de datos que predice con cierta confianza los resultados esperados. Entre técnicas de Minería de Datos están las redes neuronales, árboles de decisiones, regresión logística, series temporales, y análisis en componentes principales.

Evaluación de datos

Se observa la fiabilidad y se calcula la eficiencia de los modelos. Para esta tarea se reserva con frecuencia una partición de los datos la cual es considerada hasta estos momentos. Si el modelo es estable debe tener un nivel de predicción aceptable para estos datos, de esta forma se evalúa.

Modelos de minería de datos

Referencias