Data Lake es un término de TI más reciente creado para una nueva categoría de almacén de datos. Pero, ¿qué es un lago de datos?
Según IBM, "un lago de datos es un repositorio de almacenamiento que contiene una enorme cantidad de datos sin procesar o refinados en formato nativo hasta que se accede a ellos".
Eso tiene sentido. Creo que el aspecto más importante de esta definición es que los datos se almacenan en su "formato nativo". Los datos no se manipulan ni transforman de manera significativa; simplemente se almacena y cataloga para uso futuro.
En un lago de datos se puede almacenar cualquier tipo de datos: estructurados, semiestructurados y no estructurados. Por ejemplo, las organizaciones pueden usar un lago de datos para la información de los clientes capturada de múltiples fuentes para análisis y agregación futuros. Esto puede consistir en datos estructurados típicos (números, caracteres, fechas y horas), así como documentos complejos, texto, multimedia y más. En general, los datos se ingieren sin transformación y los científicos de datos pueden ejecutar modelos analíticos contra los datos; los analistas comerciales pueden aumentar las actividades de inteligencia comercial con los datos; e incluso se puede utilizar como un archivo de datos a largo plazo.
Las organizaciones están bajo una intensa presión en estos días para capturar cualquier dato que pueda ser relevante para su negocio. Y el número de fuentes y la cantidad de datos sigue aumentando constantemente. Por lo tanto, el deseo de obtener los datos cuando están disponibles es alto, pero el tiempo para organizar y comprender que los datos en su totalidad en el momento de la captura no suele estar disponible.
Pero un lago de datos no debe tratarse como un vertedero de datos. Es importante tener un medio para comprender y administrar los datos almacenados en el lago de datos. Sin un mecanismo para definir, poblar, acceder y administrar los datos en sus lagos de datos, los encontrará menos útiles.
La población de un lago de datos requiere el conocimiento y las herramientas adecuadas para la integración de datos. Debido a que el lago de datos contiene múltiples tipos de datos de múltiples fuentes, debe incluir soporte para una amplia gama de diferentes plataformas, tipos de datos y estructuras, interfaces y capacidades de procesamiento.
También necesitará alguna forma de gestión de metadatos para que un entorno de lago de datos siga siendo útil y saludable. Como mínimo, un lago de datos requiere información sobre cada tipo de datos almacenados allí, pero también alguna orientación sobre dónde se originaron (es decir, su procedencia), los elementos de datos que contiene, el significado de cada uno y cómo leerlos. Por supuesto, los metadatos pueden ser mínimos para empezar y luego desarrollarse a medida que los científicos de datos y los equipos de análisis exploran los datos.
Algunos expertos han conjeturado que los lagos de datos provocarán la muerte de los data marts y los almacenes de datos. Pero si lo piensas, este no puede ser el caso. Un almacén de datos, como lo define Bill Inmon, el padre del almacén de datos, es "una recopilación de datos orientada al sujeto, integrada, variable en el tiempo y no volátil en apoyo del proceso de toma de decisiones de la gerencia".
A diferencia de un lago de datos, donde los datos se capturan y almacenan sin transformación ni agregación, un almacén de datos contiene datos transformados de múltiples fuentes y está diseñado para usuarios comerciales. Un lago de datos no puede tener el mismo propósito a menos que los datos se modifiquen de su “formato nativo” ... y luego deje de ser un lago de datos por definición.
Ciertamente, existen muchas otras diferencias. Un almacén de datos contiene datos estructurados, mientras que un lago de datos puede contener datos estructurados, no estructurados y semiestructurados. Los datos en el lago de datos provienen de múltiples fuentes y tendrán diferentes esquemas. Como tal, el lago de datos requiere la capacidad de lectura de esquema y una plataforma, como Hadoop, que admita dicho requisito. Dado que los datos de múltiples fuentes dispares se almacenan en su formato nativo, los lagos de datos no pueden admitir el esquema en escritura como lo hacen los almacenes de datos.
Por supuesto, Hadoop no es la única tecnología que se puede utilizar para lagos de datos. Algunas organizaciones con una mentalidad más centrada en la nube están utilizando soluciones de proveedores de la nube como Amazon Web Services (AWS) y otros.
El tipo de almacenamiento que se puede utilizar también separa los almacenes de datos de los lagos de datos. Con un almacén de datos, el rendimiento es importante y no desea almacenar datos que los profesionales de negocios consultarán en dispositivos de almacenamiento más lentos y menos costosos. Por el contrario, almacenar un lago de datos en estos dispositivos tiene mucho sentido.
Por lo tanto, comprenda las diferencias entre los lagos de datos y los almacenes de datos; utilícelos en consecuencia; y no confunda los dos.
Fuente: https://tdan.com/differences-between-data-lake-and-data-warehouses/28613