» » Data Science utilizando herramientas Open Source

Data Science utilizando herramientas Open Source

Qué es Data Science

Data science es una disciplina que que busca convertir datos en bruto en conocimiento. Aunque esto es una definición simple, en la práctica es un campo muy amplio que requiere mucha práctica para ser dominado.

Wikipedia define Data Science como: “Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva

 

El proceso de Data Science

 

Data Science

 

A grandes rasgos, lo primero que se debe hacer es importar los datos, ya sea desde archivos, base de datos o una API web.

Una vez importados, es necesario ordenarlos, de una forma que permita un análisis consistente. En pocas palabras, que cada columna sea una variable y cada fila una observación.

Una vez ordenada, es necesario hacer algunas transformaciones. Estas incluyen reducir la muestra a un grupo de interés, crear nuevas variables usando funciones, calculando agregaciones, etc. En la terminología de Data Science, ordenar y transformar se llama habitualmente wrangling (riña o pelea), describiendo lo difícil que es a menudo conseguir que los datos tomen una forma útil para hacer análisis.

Una vez preparados los datos hay dos formas de generar conocimiento: Visualizar y Modelar. Ambas formas tienen sus fortalezas y debilidades complementarias, por lo que un análisis en la vida real consistirá en muchas iteraciones.

Visualización es fundamental en cualquier actividad. Una buena visualización mostrará cosas que no se esperaban o levantará nuevas dudas sobre los datos, también dará pistas si se está haciendo o no preguntas correctas, o incluso si se requieren más datos. Pero no pueden escalarse muy bien ya que requieren de un humano que las interprete.

Modelar es complementario a la visualización. Una vez teniendo preguntas suficientemente precisas, se puede modelar para responderlas. Son fundamentalmente matemáticos así que pueden escalarse bien, pero parten de una suposición. Por lo que no pueden sorprender con respuestas novedosas o inesperadas.

El último paso es comunicar. No importa lo bien que estén los modelos y las visualizaciones, si no es posible comunicar con el resto los resultados con el resto de la organización.

Alrededor de todo lo anterior se encuentra la programación. Esto es automatizar tareas comunes a lo largo de todo el proceso.

Data Science usando R

Data Science - R plot

R es un lenguaje y un entorno estadístico de cálculos y visualización. Es un proyecto de GNU similar al lenguaje S desarrollado por Bell Laboratories. R se considera una implementación diferente de S, y aunque hay diferencias, mucho del código en S puede ser ejecutado en R sin problemas.

El entorno R provee un amplio rango de técnicas estadísticas y gráficas, además, se puede ampliar por medio de packages. R provee una vía open source para la investigación estadística y es un buen entorno para el Data Science, ya que provee distintas vías para importar datos, ordenarlos y transformarlos.

Además, de poseer paquetes para el modelado y visualización, incluso de comunicación utilizando R Markdown, u otros packages que pueden ser ejecutados en R Server o OBIEE 12c, aunque este último no es Open Source.

Data Science - Pentaho's Data Integration

R se conecta a bases de datos y archivos excel mediante una implementación de ODBC llamada RODBC. Si esto no es suficiente para tareas de importación, es posible usar adicionalmente Pentaho’s Data Integration.

Pentaho’s Data Integration ofrece una interfaz similar a Microsoft Integrations Services para quienes estén familiarizados con ella, siendo una muy buena alternativa open source de integración.

 

KNIME Analytics Platform

Data Science - Knime

 

KNIME es una plataforma de minería de datos basada en Eclipse. Es una herramienta gráfica que abarca todo el proceso desde la importación a la visualización.

Además de los módulos base, la plataforma Knime puede ser ampliada con extensiones. Estas extensiones  incluyen la ejecución de scripts R, text mining, algoritmos de machine learning Weka. Incluso Knime permite ejecutar códigos escritos en Java, Python o Perl.

Conclusiones

Los datos son el nuevo petróleo de las compañías que a diario generan mucha información. Pero es necesario saber refinar estos recursos y convertirlos en conocimiento. Esto es posible  utilizando herramientas de libre dominio, o open source.  La barrera económica inicial deja de ser un obstáculo, para enfocarse directamente en la investigación y desarrollo.