{"id":39021,"date":"2023-10-06T23:12:49","date_gmt":"2023-10-06T23:12:49","guid":{"rendered":"https:\/\/www.conectasoftware.com\/magazine\/?p=39021"},"modified":"2024-02-02T12:11:08","modified_gmt":"2024-02-02T12:11:08","slug":"implantacion-etl-diseno-del-mapa-de-datos-logico","status":"publish","type":"post","link":"https:\/\/www.conectasoftware.com\/magazine\/implantacion-etl-diseno-del-mapa-de-datos-logico\/","title":{"rendered":"Implantaci\u00f3n ETL: Dise\u00f1o del mapa de datos l\u00f3gico"},"content":{"rendered":"\n<h3 class=\"wp-block-heading\">Dise\u00f1ando lo L\u00f3gico antes de lo F\u00edsico<\/h3>\n\n\n\n<p>Parte esencial de la implantaci\u00f3n de un ETL en una empresa es determinar c\u00f3mo desarrollar el proceso ETL l\u00f3gico y utilizarlo para esbozar la implementaci\u00f3n f\u00edsica del ETL. Antes de comenzar cualquier desarrollo f\u00edsico de ETL, es imprescindible asegurarse de cumplir los siguientes pasos:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>El linaje de datos es el proceso de comprender, registrar y visualizar los datos a medida que fluyen desde las fuentes de datos hasta su consumo.<\/p>\n<\/blockquote>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Tener un Plan:<\/strong> El proceso ETL debe ser conceptualizado y documentado l\u00f3gicamente. El mapa de datos l\u00f3gico, proporcionado por el arquitecto de la base de datos, sirve como especificaci\u00f3n para que el equipo de ETL cree los trabajos f\u00edsicos de ETL. Este documento, a veces denominado informe de <strong>linaje <\/strong>de datos, constituye la base del metadato que se presentar\u00e1 a los evaluadores de calidad y, finalmente, a los usuarios finales para describir exactamente qu\u00e9 se realiza entre el sistema fuente y el almac\u00e9n de datos. <\/li>\n\n\n\n<li><strong>Identificar Candidatos de Fuentes de Datos:<\/strong> Partiendo de los objetivos empresariales de alto nivel, se deben identificar las posibles <strong>fuentes <\/strong>de datos que se creen respaldar\u00e1n las decisiones requeridas por la comunidad empresarial. Dentro de estas fuentes, se deben identificar elementos de datos espec\u00edficos que se consideran centrales para los datos del usuario final. Estos elementos de datos son luego las entradas para el paso de perfilado de datos.<\/li>\n\n\n\n<li><strong>Analizar Sistemas Fuente con una Herramienta de Perfilado de Datos:<\/strong> Los datos en los sistemas fuente deben ser escrutados en cuanto a calidad, completitud y aptitud para el prop\u00f3sito. Dependiendo de la organizaci\u00f3n, la calidad de los datos puede o no recaer bajo la responsabilidad del equipo de ETL, pero alguien con una visi\u00f3n para las necesidades de los tomadores de decisiones que utilizar\u00e1n el almac\u00e9n de datos debe realizar este paso de perfilado de datos. Cada sistema fuente debe ser analizado, y cualquier anomal\u00eda detectada debe ser documentada. Es esencial aplicar reglas empresariales adecuadas para rectificar los datos antes de cargarlos en el almac\u00e9n de datos.<\/li>\n\n\n\n<li><strong>Recibir un Recorrido por el Linaje de Datos y las Reglas Empresariales:<\/strong> Una vez que las fuentes de datos han sido calificadas por el paso de perfilado de datos y se comprende el modelo de datos objetivo final, el arquitecto de la base de datos y el analista de negocios deben guiar al arquitecto y desarrolladores de ETL a trav\u00e9s del linaje de datos y las reglas empresariales para extraer, transformar y cargar las \u00e1reas tem\u00e1ticas del almac\u00e9n de datos.<\/li>\n\n\n\n<li><strong>Recibir un Recorrido por el Modelo de Datos del Almac\u00e9n de Datos:<\/strong> El equipo de ETL debe comprender completamente el modelo de datos f\u00edsico del almac\u00e9n de datos. Esto incluye conceptos de modelado dimensional. Comprender los mapeos en una base tabla por tabla no es suficiente. El equipo de desarrollo debe tener un entendimiento profundo de c\u00f3mo las dimensiones, hechos y otras tablas especiales en el modelo dimensional trabajan juntas para implementar soluciones de ETL exitosas.<\/li>\n\n\n\n<li><strong>Validar C\u00e1lculos y F\u00f3rmulas:<\/strong> Verificar con los usuarios finales cualquier c\u00e1lculo especificado en el linaje de datos. Es \u00fatil asegurarse de que los c\u00e1lculos son correctos antes de invertir tiempo codificando los algoritmos incorrectos en el proceso de ETL.<\/li>\n<\/ol>\n\n\n\n<h3 class=\"wp-block-heading\">Dentro del Mapa de Datos L\u00f3gico<\/h3>\n\n\n\n<p>Antes de adentrarnos en los detalles de las diversas fuentes que encontraremos, necesitamos explorar el dise\u00f1o actual del documento de mapeo de datos l\u00f3gico. Este documento contiene la definici\u00f3n de datos para los sistemas fuente del almac\u00e9n de datos en toda la empresa, el modelo de datos objetivo del almac\u00e9n de datos y la manipulaci\u00f3n exacta de los datos requerida para transformarlos desde su formato original hasta su destino final.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Componentes del Mapa de Datos L\u00f3gico<\/h4>\n\n\n\n<p>El mapa de datos l\u00f3gico se presenta generalmente en un formato de tabla o hoja de c\u00e1lculo e incluye los siguientes componentes espec\u00edficos:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Nombre de la Tabla Objetivo:<\/strong> El nombre f\u00edsico de la tabla tal como aparece en el almac\u00e9n de datos.<\/li>\n\n\n\n<li><strong>Nombre de la Columna Objetivo:<\/strong> El nombre de la columna en la tabla del almac\u00e9n de datos.<\/li>\n\n\n\n<li><strong>Tipo de Tabla:<\/strong> Indica si la tabla es un hecho, dimensi\u00f3n o subdimensi\u00f3n (outrigger).<\/li>\n\n\n\n<li><strong>Base de Datos Fuente:<\/strong> El nombre de la instancia de la base de datos donde residen los datos fuente. Este componente suele ser la cadena de conexi\u00f3n necesaria para conectarse a la base de datos. Tambi\u00e9n puede ser el nombre de un archivo tal como aparece en el sistema de archivos. En este caso, tambi\u00e9n se incluir\u00eda la ruta del archivo.<\/li>\n\n\n\n<li><strong>Nombre de la Tabla Fuente:<\/strong> El nombre de la tabla de donde provienen los datos fuente. Habr\u00e1 muchos casos en los que se requiera m\u00e1s de una tabla. En esos casos, simplemente se enumeran todas las tablas necesarias para poblar la tabla relativa en el almac\u00e9n de datos objetivo.<\/li>\n\n\n\n<li><strong>Nombre de la Columna Fuente:<\/strong> La columna o columnas necesarias para poblar el objetivo. Simplemente se enumeran todas las columnas requeridas para cargar la columna objetivo. Las asociaciones de las columnas fuente se documentan en la secci\u00f3n de transformaci\u00f3n.<\/li>\n\n\n\n<li><strong>Transformaci\u00f3n:<\/strong> La manipulaci\u00f3n exacta requerida de los datos fuente para que correspondan al formato esperado del objetivo. Este componente generalmente se anota en SQL o pseudo-c\u00f3digo.<\/li>\n<\/ul>\n\n\n\n<p>Los componentes individuales en el mapeo de datos l\u00f3gico parecen ser simples y directos. Sin embargo, al estudiarlos m\u00e1s detenidamente, el documento revela muchos requisitos ocultos para el equipo de ETL que de otro modo podr\u00edan haber pasado por alto. El prop\u00f3sito principal de este documento es proporcionar al desarrollador de ETL un plan claro de lo que se espera del proceso ETL. Esta tabla debe representar, sin lugar a dudas, el curso de acci\u00f3n involucrado en el proceso de transformaci\u00f3n.<\/p>\n\n\n\n<p>Al examinar este enfoque, se pueden notar algunas revelaciones que, de pasar desapercibidas, podr\u00edan causar mucho tiempo en la soluci\u00f3n de problemas y depuraci\u00f3n, retrasando finalmente el proyecto. Por ejemplo, se podr\u00eda notar que los tipos de datos entre la fuente y el objetivo para el estado se convierten de 255 caracteres a 75 caracteres. Aunque la reducci\u00f3n de la escala de datos podr\u00eda estar respaldada por la documentaci\u00f3n del an\u00e1lisis de datos, si en el futuro se crearan valores con m\u00e1s de 75 caracteres, se podr\u00edan perder los datos. Adem\u00e1s, algunas herramientas de ETL podr\u00edan abortar o fallar todo el proceso con este tipo de error de desbordamiento de datos. <\/p>\n\n\n\n<p>Es importante notar que la notaci\u00f3n de transformaci\u00f3n para el estado no define expl\u00edcitamente esta conversi\u00f3n de datos; la conversi\u00f3n est\u00e1 impl\u00edcita. Por definici\u00f3n, nadie da cuenta expl\u00edcitamente de las conversiones impl\u00edcitas. Las conversiones impl\u00edcitas son comunes y notorias por aparecer sorpresivamente y destruir los procesos. Para evitar problemas, el equipo de ETL debe asumir la responsabilidad de manejar expl\u00edcitamente estos tipos de conversiones de datos impl\u00edcitas.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dise\u00f1ando lo L\u00f3gico antes de lo F\u00edsico Parte esencial de la implantaci\u00f3n de un ETL en una empresa es determinar c\u00f3mo desarrollar el proceso ETL l\u00f3gico y utilizarlo para esbozar la implementaci\u00f3n f\u00edsica del ETL. Antes de comenzar cualquier desarrollo f\u00edsico de ETL, es imprescindible asegurarse de cumplir los siguientes pasos: El linaje de datos [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":39026,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[430],"tags":[],"class_list":{"0":"post-39021","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-automatizacion"},"_links":{"self":[{"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/posts\/39021","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/comments?post=39021"}],"version-history":[{"count":3,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/posts\/39021\/revisions"}],"predecessor-version":[{"id":39024,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/posts\/39021\/revisions\/39024"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/media\/39026"}],"wp:attachment":[{"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/media?parent=39021"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/categories?post=39021"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.conectasoftware.com\/magazine\/wp-json\/wp\/v2\/tags?post=39021"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}