Un data warehouse o almacén de datos, según Bill Inmon, es una colección de datos que se encuentra dentro de una determinada área donde los datos almacenados deben guardarse de manera segura, fiable, fácil de recuperar y administrar y se caracteriza por ser no volátiles, integrados, temáticos e históricos.
- No volátil: la información es permanente, es decir, el almacén de información de un datawarehouse existe para ser leído pero no modificado.
- Integrado: los datos guardados deben estar integrados a través de una estructura consistente, por lo que las inconsistencias existentes entre distintos sistemas operacionales deben ser eliminadas. Además, la información se debe estructurar en diferentes niveles de detalle en función de las necesidades de los usuarios.
- Temático: los datos deben encontrarse organizados por temáticas para facilitar su acceso y entendimiento a los usuarios finales.
- Históricos: en sistemas operacionales, los datos reflejan siempre la información del presente. En cambio, en los sistemas datawarehouse, los datos toman distintos valores en función de una variable en el tiempo. Esto permite llevar a cabo comparaciones y analizar tendencias.
Consideraciones de un datawarehouse
En el funcionamiento de los datawarehouse, es muy importante tener en mente la separación de los datos utilizados en operaciones diarias de los datos utilizados en el datawarehouse para propósitos como la ayuda en la toma de decisiones ya que al tener objetivos finales, podrían generar confusión. Además, se deben tener descripciones globales y análisis comprensivos de toda la organización el los datawarehouse.
Data lake, ¿qué es?
Un data lake se define como un repositorio de almacenamiento centralizado que contiene big data de varias fuentes en un tipo de formato conocido como “en crudo” o “raw”. Esto significa que no ha sido procesado. Este tipo de repositorio permite almacenar tanto datos estructurados, semiestructurados como no estructurados, lo que hace que los datos puedan ser conservados en un formato más flexible para su uso futuro.
Ventaja del uso de un data lake
La principal ventaja de un data lake es que funciona a través de un tipo de estructura denominada schema-on-read o también llamado esquema contra escritura. Dicho concepto significa que los datos no deben seguir un esquema predefinido para ser guardados. Esto hace que se ahorre una gran cantidad de tiempo dedicada a la definición de la estructura.
Principales diferencias entre un datawarehouse y un data lake
Las principales diferencias entre un datawarehouse y un data lake se encuentran en que un data lake no tiene una estructura predefinida mientras que un datawarehouse sí. Además, dado que en un data lake los datos no se encuentran organizados en un formato simplificado antes de ser almacenados, requieren de expertos que comprendan perfectamente los distintos tipos de datos junto con sus relaciones para poder ser leídos. En cambio, un datawarehouse es fácilmente accesible tanto para técnicos como para usuarios finales gracias a su esquema bien definido.