Permíteme opinar, comentar que antes de llegar al título científico de datos, las tareas relacionadas con su actividad las hacían los mineros de datos o analistas de datos; y anterior a estos se les nombraba estadistas.
Cierto que bastantes matemáticos tenían un papel importante, muchas veces eran los únicos con conocimientos específicos para implementar, construir algoritmos y solucionar problemas.
Previo a responder qué es un científico de datos, me gustaría que consideráramos los siguientes datos, me parecen interesantes; y con ello mostrar una perspectiva diferente a la definición de científico de datos.
Popularidad del término Minería de Datos
La siguiente gráfica la obtuve de Google Trends, servicio gratuito. En ella se indica la popularidad de término buscado, veamos qué tal le va a las búsquedas sobre minería de datos. La ventana de tiempo la tomaremos desde 2014 hasta la fecha, y geográficamente el término de búsqueda corresponde a México.
Se puede observar que la búsqueda “minería de datos” tuvo bastante popular en 2014, y fue cayendo hasta nuestros días. Si añadimos “Ciencia de Datos” y contrastamos, se ve cómo ésta nueva tendencia crece.
Considerando una ventana de los últimos 60 meses, la cienca de datos está más en voga.
¿Qué es un científico de datos?
Para mí el nombramiento científico de datos sólo es la evolución de aquellos a los que se conocían como analistas de datos que usan técnicas de minería de datos. En México a los profesionistas con estos conocimientos, se les nombra Analista SAS o Consultor analítico. Me parece que nunca estuvo de moda “mineros de datos”.
En noviembre de 2017 hice un breve ejercicio con minería texto para analizar las vacantes en tres sitios web, que requerían profesionales con conocimientos de minería de datos. Estas vacantes estaban tituladas como Estadístico, Analista de datos, Consultor SAS; Analítico, y sus combinaciones.
De ese ejercicio, lo que encontré es que las habilidades y conocimientos de aquellos días, son equivalentes a las que hoy en día se busca en un científico de datos.
Requieren tener una formación en matemáticas, computación y estadística, para aplicar sus conocimientos en resolver problemas con grandes cantidades de datos, principalmente en el mundo de los negocios. Su popularidad se debe al desarrollo y madures de lo que se conoce como big data.
¿Qué requiere saber los Científicos de Datos?
A medida que pasan los años, en los negocios se piden cada vez más conocimientos y habilidades con mucha experiencia; a muy temprana edad. Te puedes sorprender con los requisitos de las vacantes y más con las responsabilidades exigidas con salarios risibles (siento ser tan subjetivo). En resumen y sólo para la CIudad de México y área metropolitana:
Profesionistas con formación en las siguientes disciplinas: Actuaría, Matemáticas, Economía, Computación, Ingeniería, Informática. Maestría en Ciencia de Datos
Lenguajes de programación: SQL, PL SQL, R, SAS, Phyton, Hadoop, Hive, Spark
Diseño y desarrollo de modelos analíticos con Minería de datos (ETL, limpieza, análisis e interpretación de datos), análisis estadístico cualitativo y cuantitativo, aprendizaje automático (algoritmos de Machine Learning), inteligencia artificial, modelado predictivo y proyecciones. Big Data. Implementación y puesta en producción de modelos analíticos. Visualización de modelos y creación de dashboards (BI).
Los conocimientos esenciales
En mi opinión son tres conocimientos sólidos los que debes tener si deseas laborar en alguna empresa que tenga en su estructura un departamento de analítica
- Matemática: muestreo, estadística, probabilidad y algoritmos
- Programación: R, Phyton y SAS
- Bases De datos: MySQL, Teradata
Aunque muchas veces se requiere más que estos conocimientos, los mencionados son pilares de todo lo que sigue; puedes prácticamente adaptarte a cualquier industria de tu especialidad.
Mi colaboración en proyectos en la industria petrolera y la banca de consumo, había un consultor especiales en cada área, a manera de ejemplo, unos los que creaban ETL’s (extracción de diversas fuentes: archivos txt, csv, Teradata, etc). Otros los analíticos, los del BI y todos orquestados por líderes y PMs.