La necesidad de estructurar, racionalizar y enriquecer el estudio de Data Mining, llevó a la comunidad de los años 90’s a desarrollar una metodologías de Minería de Datos. Como resultado de esta tarea se creó CRISP-DM 1.0 en 1996 bajo la GNU GPL.
¿Qué es CRISP DM?
CRISP-DM (CRoss-Industry Standard Process for Data Mining) es una metodología de Minería de datos para desarrollo de proyectos analíticos. CRISP-DM se explica como un proceso jerárquico, que tiene cuatro niveles de abstracción: Fase, tareas generales, tareas específicas e instancias de proceso.
En el primer nivel cada fase consiste en tareas generales lo más posible completas y estables. Por tareas completas se entiende a aquellas que cumplen completamente con el análisis y por sus posibles aplicaciones, por otro lado, por estables a aquellas que cubran incluso desarrollos no conocidos.
El tercer nivel las tareas especializadas describen las acciones de las tareas generales. Por ejemplo, en el segundo nivel (tareas generales) puede existir una tarea general llamada “limpieza de datos”. El tercer nivel describe cómo difiere esta acción de unas situaciones a otras, por ejemplo, la limpieza de datos numéricos y la de datos categóricos.
En la práctica muchas tareas pueden realizarse en orden diferente, con frecuencia será necesario regresar a tareas previas y repetir otras. El cuarto nivel, instancias de proceso, es un conjunto de acciones, decisiones y resultados sobre el proceso de Minería de Datos en curso.
Metodología CRISP-DM
La metodología de referencia CRISP-DM contiene las fases de un proyecto, sus respectivas tareas y sus relaciones entre ellas. El ciclo de vida de un proyecto de Minería de Datos consiste esencialmente en seis fases. La secuencia de las fases no es rígida, se puede regresar o adelantar a alguna de ellas siempre que se necesario. Todo depende de los resultados de cada fase.
Análisis del problema
Primera fase, se centra en el análisis de los objetivos y requisitos desde una perspectiva comercial, posiblemente también académica, seguido este análisis se transcribe como un problema de Minería de Datos y se diseña un plan preliminar para el logro de los objetivos.
Análisis de los datos
Esta fase comienza con la obtención de los datos para familiarizarse con ellos, identificar problemas de la calidad de estos, para descubrir relaciones entre ellos. O detectar subconjuntos interesantes de datos para formular hipótesis de información posiblemente desconocida.
Preparación de los datos
Esta fase cubre todas las actividades para construir el conjunto de datos final en el cual se aplicarán los modelos. Entre las tareas se incluye la selección de cuadros de datos, registros y atributo, así como su transformación, en caso sea necesario, para aplicar los modelos.
Modelado
En esta fase varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros son calibrados en valores óptimos. Generalmente existen diversas técnicas aplicables al mismo tipo de problema. Algunas técnicas necesitan que los datos estén preparados de cierta forma para poderse aplicar. Si los datos no están en condiciones es necesario regresar a la fase preparación de los datos
Evaluación
Una vez creado un buen modelo se debe evaluar el rendimiento de este y la integridad de todos los pasos, es importante verificar que se han incluido todos los objetivos del negocio o investigación.
Desarrollo
Frecuentemente los proyectos de Minería de Datos no terminan con la implementación del modelo sino en la obtención de conocimiento a partir de los datos. Para ello es importante documentar y presentar los resultados de manera comprensible. Se debe confirmar el mantenimiento de la aplicación y la difusión de los resultados, en caso de ser posible.
Metodología SEMMA
Por otra parte, la metodología llamada SEMMA, desarrollada por el instituto SAS que es el acrónimo de SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS, que podemos interpretar como muestrea, explora, modifica, modela y evalúa, que se refiere al proceso básico para realizar Minería de Datos.
Esto es a partir de una muestra representativa de los datos, se aplican técnicas estadísticas de exploración y visualización, se seleccionan y transforman variables, se modela con las variables para predecir los y se evalúa la exactitud del modelo.
Un malentendido común es referirse a SEMMA como una metodología para hacer Minería de Datos. En la página SAS confirma que SEMMA es una organización lógica de la función de las herramientas de SAS ENTREPISE MINER en relación a las tareas básicas de la Minería de Datos.
Muestreo de los datos
Mediante la extracción de un subconjunto significativo desde un punto de vista estadístico de datos que contiene la información relevante que a la vez es rápido de manipular.
Por razones de costos y rendimiento SAS aboga por una estrategia de muestreo fiable, estadísticamente representativa de la fuente los datos origen. Las tareas de minería de una muestra significativa reducen el tiempo de procesamiento. Si existen patrones generales en la base de datos, Éstos serán detectados en la muestra representativa. También se pueden realizar particiones de los datos de la siguiente forma:
- Entrenamiento, se utiliza para ajustar el modelo
- Validación, se emplea para evaluar y para evitar el sobre y sub-ajuste
- Prueba, se aprovecha para obtener una evaluación honesta del modelo en general
Exploración de datos
Mediante la búsqueda de tendencias, valores atípicos etc., con el fin de obtener una idea. Ayuda a refinar el proceso de descubrimiento. Se utilizan técnicas visuales, estadísticas incluyendo análisis factorial, análisis de correspondencias y la segmentación.
Modificación de datos
A través de la creación, selección y transformación de las variables para dirigir el proceso de modelado. Se utiliza para encontrar valores atípicos, reducir el número de variables y seleccionar las más significativas.
Modelado de datos
Los algoritmos programados buscan automáticamente un subconjunto de datos que predice con cierta confianza los resultados esperados. Entre técnicas de Minería de Datos están las redes neuronales, árboles de decisiones, regresión logística, series temporales, y análisis en componentes principales.
Evaluación de datos
Se observa la fiabilidad y se calcula la eficiencia de los modelos. Para esta tarea se reserva con frecuencia una partición de los datos la cual es considerada hasta estos momentos. Si el modelo es estable debe tener un nivel de predicción aceptable para estos datos, de esta forma se evalúa.
Referencias
- Conceptos básicos sobre CRIsp DM de IBM
- SAS SEMMA SAS Enterpirse Miner Concepts
Deja un comentario