¿Qué diferencias hay entre Big Data, Data Science, Data Analytics y Data Mining o Minería de datos?



Los datos están en todas partes. De hecho, la cantidad de datos digitales que existe está creciendo a un ritmo rápido, duplicándose cada dos años y cambiando la forma en que vivimos. Según IBM, se generaron 2.500 millones de gigabytes (GB) de datos todos los días en 2012.

Un artículo de Forbes afirma que Data está creciendo más rápido que nunca antes y para el año 2020, se crearán aproximadamente 1,7 megabytes de nueva información por segundo para cada ser humano en el planeta.

Lo que hace que sea extremadamente importante al menos conocer los conceptos básicos del campo. Después de todo, aquí es donde reside nuestro futuro.


Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan un negocio día a día. Pero no es la cantidad de datos lo que es importante. Lo que importa es lo que hacen las organizaciones con los datos. Los datos grandes se pueden analizar en busca de ideas que conducen a mejores decisiones y movimientos comerciales estratégicos.

El análisis de datos de Data Analytics (DA) es el proceso de examinar conjuntos de datos para extraer conclusiones sobre la información que contienen, cada vez más con la ayuda de sistemas y software especializados. Las tecnologías y técnicas de análisis de datos DA se usan ampliamente en las industrias comerciales para permitir que las organizaciones tomen decisiones comerciales más informadas y por parte de científicos e investigadores para verificar o refutar modelos, teorías e hipótesis científicas.


Data Mining o Minería de datos o exploración de datos es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. La minería de datos estudia los datos sin un rumbo fijo y trata de determinar si aparece un patrón sobre los mismos.

Data Science: frente a datos estructurados y no estructurados, Data Science es un campo que comprende todo lo relacionado con la limpieza, la preparación y el análisis de datos. Data Science es la combinación de estadísticas, matemáticas, programación, resolución de problemas, captura de datos de maneras ingeniosas, la capacidad de ver las cosas de manera diferente y la actividad de limpieza, preparación y alineación de los datos.

Si bien el término "BIG DATA" es relativamente nuevo, el acto de recopilar y almacenar grandes cantidades de información para un análisis final es antiguo. El concepto cobró impulso a principios de la década de 2000, cuando el analista de la industria Doug Laney articuló la definición actual de big data como las tres V:

Volumen. Las organizaciones recopilan datos de una variedad de fuentes, incluidas las transacciones comerciales, las redes sociales y la información de datos de sensores o de máquina a máquina. En el pasado, almacenarlo habría sido un problema, pero las nuevas tecnologías (como Hadoop) han aliviado la carga.

Velocidad. Los datos se transmiten a una velocidad sin precedentes y deben tratarse de manera oportuna. Las etiquetas RFID, los sensores y la medición inteligente están impulsando la necesidad de lidiar con torrentes de datos casi en tiempo real.

Variedad. Los datos vienen en todo tipo de formatos, desde datos estructurados y numéricos en bases de datos tradicionales hasta documentos de texto no estructurados, correo electrónico, video, audio, datos bursátiles y transacciones financieras.

Se consideran dos dimensiones adicionales cuando se trata de big data:
  1. Variabilidad. Además de las crecientes velocidades y variedades de datos, los flujos de datos pueden ser muy inconsistentes con los picos periódicos. ¿Hay algo que sea tendencia en las redes sociales? Las cargas de datos máximas diarias, estacionales y desencadenadas por eventos pueden ser difíciles de gestionar. Aún más con datos no estructurados.
  2. Complejidad. Los datos de hoy provienen de múltiples fuentes, lo que hace que sea difícil vincular, unir, limpiar y transformar datos en todos los sistemas. Sin embargo, es necesario conectar y correlacionar relaciones, jerarquías y enlaces de datos múltiples, o sus datos pueden perder el control rápidamente.



Referencias
https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
https://searchdatamanagement.techtarget.com/definition/data-analytics
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article

Comentarios

Entradas más populares de este blog

ESCANEO DEL CODIGO PDF417 DEL DNI (Documento Nacional de Identidad digital)

¿Que tipos de Mensajes de HL7 hay?

¿Que es Razor?