En la actualidad, las empresas tienen que hacer frente al análisis de distintos tipos de datos muy diversos, desde bases de datos relacionales, que tienen una estructura muy definida, hasta datos no estructurados como imágenes, vídeos o incluso tweets. Principalmente podemos diferenciar dos procesos a la hora de integrar los datos, el proceso de ETL y el proceso de ELT.
En ese sentido, la forma en la que integramos los datos en nuestro sistema de gestión de base de datos es muy diferente según:
- El tipo de dato con el que estamos trabajando
- La arquitectura en la que lo vamos a hospedar
- La información que queremos extraer de los mismos
En qué consiste el proceso ETL
El proceso de ETL incluye los pasos de extracción, transformación y carga. Existen muchas herramientas enfocadas a ejecutar este proceso y principalmente se utiliza cuando trabajamos con datos que vamos a guardar en un histórico. Recogemos datos de múltiples fuentes y los almacenamos para dar respuestas en un futuro.
En este caso, los pasos se ejecutan en el siguiente orden:
- Primero extraemos los datos de nuestras fuentes de datos.
- Después los transformamos para que se ajusten al esquema que nosotros necesitamos.
- Por último, los cargamos sobre nuestras bases de datos para empezar a consultarlos, analizarlos y construir modelos con ellos.
Este orden a la hora de ejecutar el proceso hace que destinemos tiempo a la etapa de transformación, para finalmente cargar los datos ya limpios en un datawarehouse, un tipo de almacén mucho más estructurado.
En qué consiste el proceso ELT
Con la aparición de los datos en streaming y la necesidad de ofrecer respuestas mucho más rápidas, ha surgido el proceso ELT. En este caso, el proceso cambia un poco:
- Lo que primero hacemos previo a la transformación de los datos, es la carga de los mismos en nuestros sistemas.
- Una vez los datos están cargados, empezamos a dar respuestas rápidas que nos ayudan a hacernos una idea de la información que tenemos y dar respuestas a eventos prácticamente en tiempo real.
- Después del proceso de carga, efectuamos las transformaciones necesarias para dejar los datos en el formato que queremos y poder realizar otros tipos de análisis.
De esta forma, hemos definido ambos procesos y visto el uso que podemos darle a cada uno de ellos. La implementación de uno u otro dependerá de los objetivos que tengamos y las características de nuestra arquitectura, aunque normalmente las empresas optan por utilizar ambos procesos, ya que se construyen arquitecturas híbridas donde se dan respuestas en tiempo real a la vez que se almacenan los datos en un histórico para dar respuestas con un análisis mucho más profundo.
Para conocer todas nuestras novedades suscríbete a nuestra newsletter .También puedes seguirnos en nuestras redes sociales:
Team: Jorge López, Formador técnico en Icono Training Consulting.