es el proceso de recopilación de datos de todas las fuentes de datos requeridas. Las fuentes de datos vienen en muchas formas y tamaños, desde sistemas RDBMS hasta APIs para compartir archivos o desde fuentes públicas a privadas o desde fuentes de datos pagadas a gratuitas.
Las fuentes de datos pueden
- contener información de identificación personal o propiedad intelectual de la empresa
- ser desordenadas, desestructuradas o estructuradas y bien descritas
- generar datos a frecuencias variadas o producir datos constantemente a través de flujos de datos
- admitir mecanismos de datos “pull” o mecanismos de datos “push” de forma síncrona o asíncrona
Esto significa que la parte extraída de la herramienta ETL debe ser extremadamente flexible, resistente y maleable para soportar la diversidad de fuentes de datos y las variaciones en los procedimientos y protocolos de extracción de datos.
Las arquitecturas de datos deben poder conectarse a múltiples fuentes de datos en paralelo y extraer datos para que estén disponibles para su procesamiento posterior sin afectar la capacidad de recuperación de otros procesos de extracción.