¿Qué es Minería de Datos?

En este artículo, hago referencia a definiciones sobre minería de datos, o también conocida como data mining, no es un término que haya inventado, después compartiré mi opinión.

Hernández Orallo define como Minería de Datos “el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos”. Cuando la leí, me quedé con dudas. ¿Cómo se extrae el conocimiento? ¿Qué conocimiento se puede extraer? ¿Cuánto es grandes cantidades de datos?

¿Cuál es la mejor definición de Minería de Datos?

Quería entender la definición de data mining, por lo que me di la tarea de indagar más sobre el tema. Consideré una investigación, en la cual se modela el potencial eléctrico de una neurona a través de un sistema de ecuaciones diferenciales de Montoya-Fernando-Larios (modelo de Fitzhugh-Nagumo), analizan teoría, anotan resultados, discuten modificaciones y finalmente concluyen un artículo con aportaciones, nuevo conocimiento. Se ha extraído conocimiento útil y comprensible, desconocido desde luego, la pregunta central que me formulé: ¿hicieron Minería de Datos?

analytics

Muchos científicos dirían que no, otros pocos entusiastas confirmarían un sí, otros tantos no sabrían que responder, ¿qué piensas lector? Tal vez en la investigación anterior faltó analizar grandes cantidades de datos provenientes en diferentes formatos, si este es un requisito, no realizaron Minería de Dato.

Es posible generar bastantes datos para la investigación mencionada, cumpliendo este requisito y volviendo a comenzar el proceso ¿se hace Minería de Datos?, para mí es confusa dicha definición.

No queda claro el concepto, es conveniente contar con más referencias y otras opiniones acerca de la definición de Minería de Datos, a partir de los diferentes puntos de vista asirnos de una definición que nos de claridad.

Fase de análisis en la minería de datos

Según López y Santín “el instituto SAS define el concepto de Minería de Datos como el proceso de Seleccionar, Explorar, Modificar, Modelizar y Valorar grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva respecto a los competidores”. En esta definición el autor aporta, una idea importante: el descubrimiento de “patrones desconocidos que puedan ser utilizados como ventaja competitiva”.

Definición de Minería de Datos

Por otro lado, Witten menciona que:

Minería de Datos o data mining es la extracción de información implícita, previamente desconocida y potencialmente útil. La idea es construir programas que examinen cuidadosa y automáticamente bases de datos, buscando regularidades, patrones. Patrones claros, si es que existen, generales y probables para realizar predicciones precisas en datos futuros”.

¿qué es data mining?

Esta definición, en particular, me convence, con ella tengo una idea más clara acerca de qué es Minería de Datos. Observa que en las tres definiciones se menciona extracción de información (conocimiento) desconocida y útil en bases de datos (aunque los dos primeros autores no mencionaron explícitamente bases de datos).

En Witten están implícitamente todas las etapas y procesos en los datos que se mencionaron en los primeros párrafos. Su aportación, aunque parece obvia es importante porque si no existe el software para analizar los datos, inevitablemente se tendría que programar los algoritmos, y este no es el objetivo de la minería de datos.

Programas para hacer Minería de datos

Estos paquetes computacionales o programas para data mining, son populares para los ahora científicos de datos:

  • IBM SPSS Modeler una herramienta para científicos de datos que ahora se caracteriza por arrastrar y soltar los modelos a utilizar. Más sencillo no podría ser.
  • SAS La herramienta comercial líder en el sector privado, usada en todo tipo de industrias
  • WEKA Esencialmente para investigadores y estudiantes.
  • R El lenguaje y programa más popular en la investigación, empresas con implementaciones open source, universidades entre otros institutos.
  • KNIME Una de mis favoritas, todavía no muy conocida, esta plataforma integra WEKA, R, lenguaje Java y muchos más. Deberías pasar por su página, te enamorarás de ella.
Programas para minería de datos

Este software para minería de datos, son versátiles, los algoritmos son genéricos, sólo cambian parámetros, si se requiere hacer análisis más robusto con mucho a detalle, se tendría que programar algoritmos.

Minería de datos enfoque funcional

Se considera a la Minería de Datos desde una óptica funcional como una máquina, donde se leen bases de datos, se procesan (se aplican los algoritmos para encontrar regularidades, patrones), y se obtienen resultados, por ejemplo: grupos, asociaciones y clasificaciones.

Data mining además de ser un proceso, tiene su aspecto artesanal en la etapa de interpretación de los resultados, éstos deberán contextualizarse, discutirse en grupo preferentemente multidisciplinario, y lo más importante para nosotros, que el resultado final se utilizable para la toma de decisiones en los negocios o en alguna disciplina.

El descubrimiento de conocimiento en Bases de Datos KDD

Hand en su libro menciona que “Data Mining con frecuencia pertenece a un contexto más amplio, el Descubrimiento de Conocimiento en Bases de Datos, o KDD (knowledge discovery in databases por su sigla en inglés), este término tiene sus orígenes en el campo de la investigación de inteligencia artificial.

El proceso KDD involucra varias etapas: seleccionar datos objetivo, preprocesamiento de datos, transformación de los mismos (si es necesario), modelado realizar Minería de Datos para extraer patrones y relaciones, finalmente interpretar y evaluar las estructuras descubiertas”, continúa diciendo “Minería de Datos es un ejercicio interdisciplinario.

Estadística, tecnología en base de datos, aprendizaje automático, reconocimiento de patrones, inteligencia artificial y visualización”, todo para generar conocimiento de calidad, nuevo y útil. Siempre considerar la evaluación del proceso.

Es importante destacar que los resultados deben ser interpretados por especialistas que le den sentido, que expliquen que significan esas reglas, esos patrones, esos clúster, ese árbol, esa red neuronal. La Minería de Datos no sólo es un proceso, sino que pertenece a un contexto más amplio que es la extracción de conocimiento en bases de datos.

trabajo multisdisciplinario

La minería de datos como proceso

De esta forma data mining adquiere un carácter más práctico, como si fuese un proceso, el autor Han afirma:

Si se ha realizado la exploración de datos y su evaluación, considerar las reglas de negocio del sector para determinar objetivos. El Descubrimiento de Conocimiento como un proceso consiste de una secuencia iterativa de los siguientes pasos:

  • Limpieza de datos (para remover ruido y datos inconsistentes)
  • Integración de Datos (donde múltiples orígenes de datos pueden combinarse)
  • Selección de Datos (donde datos relevantes para la tarea de análisis son obtenidos de las bases de datos)
  • transformación de datos (donde los datos son transformados o consolidados en un formato apropiado para minarlos por resumen realizado u operaciones de agregación)
  • Minería de Datos (el proceso esencial donde métodos inteligentes son aplicados en orden para extraer los patrones de los datos)
  • Evaluación de los Patrones (para identificar los patrones realmente interesantes que representan conocimiento basado en medidas interesantes)
  • Presentación del Conocimiento (donde las técnicas de visualización y la representación del conocimiento son usadas para mostrar el conocimiento extraído al usuario)

Desde esta perspectiva la aplicación de la Minería de datos también es un subproceso en entorno más general y multidisciplinario. Con mucha frecuencia enfocada al comportamiento del cliente.

Usos de la minería de datos

Los alcances de la Minería de Datos implican predicción automatizada de tendencias y comportamientos, clasificación, segmentación de clientes, análisis de cesta de mercado, identificación de que pacientes que sufrieron un para cardíaco vuelvan a tenerlo, etc., lamentablemente y con buenos resultados suelen no valorar los resultados.

Usos de la minería de datos

En el trabajo de Vallejos, se encuentra una frase que me agrada demasiado “algo peor que no tener información (datos) es tener información y no saber qué hacer con ella”, se observa la necesidad de líderes que desarrollen una cultura analítica.

Puedes revisar este ejemplo de minería de datos web, o web scraping.

Conclusiones

La Minería de Datos, desde mi punto de vista particular y práctico, es un conjunto de algoritmos matemáticos, programados en un lenguaje para computadora, para analizar grandes y no tan grandes cantidades de datos (no necesariamente en bases de datos) que busca regularidades, patrones, reglas dentro de un proceso de investigación científica o de negocio con el objetivo de obtener resultados que aporten argumentos para construir nuevo conocimiento.

Data mining se puede aplicar a cualquier disciplina. Existen disciplinas y ramas del análisis de datos que se enfocan a la integración de datos (DATA INTEGRATION), la limpieza de datos (DATA CLEANING), y en relación a la selección de variables podemos decir que esta le pertenece al experto en ciencia.

Recuerdo a George Box, que menciona que un científico descubre sucesos importantes prescindiendo de la técnicas avanzadas en estadística, de tal forma que ellos sin el auxilio de estadistas pueden continuar su labor, no pasa lo mismo con los estadistas, éstos pueden ser diestros operando modelos avanzados de estadística, pero si no se especializan en algún campo de investigación no darán los frutos deseados.

En la Minería de Datos se espera que los datos se describan por sí mismos, que respondan preguntas tales como: ¿por qué son?, ¿cómo son?, y así por el estilo, de hecho es su objetivo, sin embargo, en ocasiones sucede que directivos tienen expectativas muy altas, casi mágicas, creen que en la Minería de Datos con sólo colocar la Base de Datos y aplicar modelos se extraerá conocimiento útil y en cuestión de segundos prescindiendo de la valiosas aportaciones de profesionales e investigadores. No es así, es una verdadera investigación, con sus aciertos y errores, en ocasiones de tiempos prolongados.

Referencias

[1] J. Hernández Orallo, MJ Ramírez Quintana, and C Ferri Ramírez. Introducción a la Minería de Datos. España, Madrid: Pearson Education S.A., 2004.

[2] C.B. Montoya, H.C.C.Y. Fernando, and O. Larios. El modelo de Fitzhugh-Nagumo para el potencial electrico de una neurona. Aportaciones Matemáticas, 32:31-49, 2003.

[3] C. Pérez López and D. Santín González. Data mining. Soluciones con Enterprse Miner. Alfaomega Grupo Editor, México, 2006.

[4] I.H. Witten and E. Frank. Data mining: practical machine learning tools and techniques. Morgan Kaufmann, 2005.

[5] DJ Hand, H. Mannila, and P. Smyth. Principles of data mining. The MIT Press, 2001.

[6] [17] S. Vallejos. Minería de datos. Trabajo de Adscripción, páginas 1-30, 2006.