3 Data Warehouse y DataMart 3.4 Procesos básicos del Data Warehouse. (21 09 2012)

215 views
Skip to first unread message

Administrador Grupo

unread,
Sep 18, 2012, 11:27:01 AM9/18/12
to itecnodgo_nint...@googlegroups.com
Cuales son los procesos en un DWH expliquelos e incluya un esquema.

FE 21 09 2012

victor.niebla.romero

unread,
Sep 18, 2012, 1:08:05 PM9/18/12
to itecnodgo_nint...@googlegroups.com
Proceso Basicos de un Data WareHouse

Extracción:

La etapa de extracción es el primer paso para obtenerdatos hacia un data warehouse. Extraer significa leer y entender losdatos de los sistemas fuente y copiar las partes que se necesiten alárea de staging intermedio de datos para su posterior uso.

Transformación:

Una vez que los datos son extraídos existen numerosos procesos de transformación que se les pueden aplicar.
Algunos son:
  1. Limpiar los datos corrigiendo problemas de tipeo,resolviendo problemas de dominio (tal como un nombre deciudad incompatible con un código postal), tratar elementosde datos faltantes y estandarizar los datos.
  2. Purgar los campos seleccionados de los sistemas fuentes que no son útiles para el data warehouse.
  3. Combinar diversas fuentes de datos, haciendo coincidir los valores claves o realizando matcheos por campos no clave.
  4. Crear claves subrogadas para cada registros de dimensión de forma tal de evitar la dependencia en claves de lossistemas transaccionales.
  5. Realizar agregaciones y sumarizaciones.
Carga e indexado:
Cargar el datawarehouse es replicar las tablas de dimensión y las de facts utilizando comunmente bulk loading (cargamasiva). La carga masiva es importante, en contraste con la carga por registro la cual es más lenta. El datawarehouse o data mart debe entonces indexar los nuevos datos para la performance de lasconsultas.

Aseguramiento de la calidad:
cuando el datawarehouse ha sidocargado, indexado y correctamente agregado, el último paso antes dela publicación es el aseguramiento de la calidad. Esto puede hacersecon reportes donde se verifiquen los totales.

Publicación:
en este paso, los usuarios acceden a la información deldatawarehouse.


Referencias Bibliograficas
proceso DW.png
Message has been deleted

francisco.gonzalez.cassio

unread,
Sep 19, 2012, 12:13:19 AM9/19/12
to itecnodgo_nint...@googlegroups.com
Un data warehouse es una base de datos, pero por sí sola no significa nada, hay una gran
cantidad de procesos detrás de una arquitectura de data warehouse de suma importancia para
el mismo. Estos comprenden desde procesos de extracción que estudian y seleccionan los
datos fuente adecuados para el data warehouse hasta procesos de consulta y análisis de datos
que despliegan la información de una forma fácil de interpretar y analizar.

Procesos Básicos de un Data Warehouse:

Extracción:
El proceso de extracción consiste en estudiar y entender los datos fuente,
tomando aquellos que son de utilidad para el data warehouse.

Transformación:
Una vez que los datos son extraídos, éstos se transforman. Este proceso incluye
corrección de errores, resolución de problemas de dominio, borrado de campos que no
son de interés, generación de claves, agregación de información, etc.

Carga e Indices:
Al terminar el proceso de transformación, se cargan los datos en el data warehouse.

Chequeo de Calidad:
Una vez ingresada la información al data warehouse, se realizan controles de calidad
para asegurar que la misma sea correcta.

Liberación/Publicación:
Cuando la información se encuentra disponible, se le informa al usuarios. Es importante
publicar todo cambios que se hallan realizado.

Consulta:
El usuario final debe disponer de herramientas de consulta y procesamiento de datos. Este
proceso incluye consultas ad hoc, reportes, aplicaciones DSS, data mining, etc.

Feedback:
Aveces es aconsejable seguir el camino inverso de carga. Por ejemplo, puede alimentarse
los sistemas legales con información depurada del data warehouse o almacenar en el
mimso alguna consulta generada por el usuario que sea de interés.

Auditoría:
Los procesos de auditoría permiten conocer de donde proviene la información así como
también qué cálculos la generaron.

Seguridad:
Una vez construído el data warehouse, es de interés para la organización que la
información llegue a la mayor cantidad de usuarios pero, por otro lado, se tiene sumo
cuidado de protegerlo contra posibles 'hackers', 'snoopers' o espías. El desarrollo de
Internet a incrementado éste dilema.

Respaldo y Recuperación:
Se deben realizar actividades de backup y restore de la información, tanto la
almacenada en el data warehouse como la que circula desde los sistemas fuente al data
warehouse.

Fuente:

Esquema:

Datawarehouse.jpg

deyci.quezada

unread,
Sep 19, 2012, 3:39:33 PM9/19/12
to itecnodgo_nint...@googlegroups.com
PROCESOS DE UN DWH
ETL

    EXTRACCIÓN:
   
  • La integración de todos los sistemas dispares en toda la empresa es el verdadero reto para conseguir el almacenamiento de datos a un estado en el       que se puede utilizar.
  • Los datos se extraen de fuentes de datos heterogéneas.
  • Cada fuente de datos tiene su conjunto distinto de características que deben ser gestionados e integrados en el sistema de ETL para extraer eficazmente los datos.
  TRANSFORMACIÓN:
  • Paso principal en la ETL agrega valor.
  • En realidad cambia los datos y proporciona una guía si los datos pueden ser utilizados para los fines previstos.
  • e realiza en el área de almacenamiento
   CARGA:
   DIMENSIÓN DE CARGA
  • Físicamente construido para tener los conjuntos mínimos de los componentes.
  • La clave principal es un campo que contiene un solo entero único sentido - claves suplentes.
  • El DWH es dueño de estas llaves y no permite ninguna otra entidad para asignar.
  • De las tablas planas normalizadas - todos los atributos de una dimensión debe tener un valor único en la presencia de una dimensión clave primaria.
  • En caso de poseer uno o más de otros campos que componen la clave natural de la dimensión.
  • El módulo de carga de datos se compone de todos los pasos necesarios para administrar dimensiones de variación lenta (SCD) y escribir la dimensión en el disco como una tabla física en el formato adecuado dimensiones correctas con las claves principales, claves correctas naturales y finales atributos descriptivos.
  • Creación y asignación de las claves suplentes se presentan en este módulo.
  • La mesa está definitivamente por etapas, ya que es el objeto a ser cargado en el sistema de presentación del almacén de datos.
  • Cuando DWH recibe la notificación de que una fila existente en la dimensión ha cambiado lo reparte tres tipos de respuestas
  • tipo 1
  • tipo 2
  • tipo 3
  HECHO DE CARGA
  • Las tablas de hechos sostienen las mediciones de una empresa. La relación entre las tablas de hechos y las mediciones es extremadamente    simple. Si   una medición existe, puede ser modelado como una fila de la tabla hecho. Si una fila de la tabla hecho existe, es una medida.
  • Cuando se construye una tabla de hechos, el paso final es la conversión de ETL las teclas naturales en los registros de entrada nuevos en las teclas correctas, sustitutos contemporáneos.
  • ETL mantiene una tabla especial sustituto de búsqueda de claves para cada dimensión. Esta tabla se actualiza cada vez que una entidad nueva dimensión se crea y cada vez que un cambio de tipo 2 se produce en una entidad dimensión existente.
  • Todas las tablas de búsqueda requeridos deberían ser depositado en la memoria de modo que puedan ser acceder aleatoriamente como cada registro hecho entrante presenta sus claves naturales. Esta es una de las razones para hacer que las tablas de consulta separadas de las tablas de datos originales dimensión de almacén.

FUENTE:
DWH.jpg

luis.galindo.ortega

unread,
Sep 20, 2012, 12:19:10 AM9/20/12
to itecnodgo_nint...@googlegroups.com
Procesos básicos de un Datawarehouse

Una vez vistos los componentes de un datawarehouse, podemos analizar los diferentes procesos de un esquema de datawarehousing:

Extracción:
La etapa de extracción es el primer paso para obtener datos hacia un datawarehouse. Extraer significa leer y entender los datos de los sistemas fuente y copiar las partes que se necesiten al área de staging intermedio de datos para su posterior uso.

Transformación:
Una vez que los datos son extraídos existen numerosos procesos de transformación que se les pueden aplicar. Algunos son:
  1. Limpiar los datos corrigiendo problemas de tipeo, resolviendo problemas de dominio (tal como un nombre de ciudad incompatible con un código postal), tratar elementos de datos faltantes y estandarizar los datos.
  1. Purgar los campos seleccionados de los sistemas fuentes que no son útiles para el data warehouse.
  2. Combinar diversas fuentes de datos, haciendo coincidir los valores claves o realizando matcheos por campos no clave.
  1. Crear claves subrogadas para cada registros de dimensión de forma tal de evitar la dependencia en claves de los sistemas transaccionales.
  2. Realizar agregaciones y sumarizaciones.
Carga e indexado:
Cargar el datawarehouse es replicar las tablas de dimensión y las de facts utilizando comúnmente bulk loading (carga masiva). La carga masiva es importante, en contraste con la carga por registro la cual es más lenta. El datawarehouse o data mart debe entonces indexar los nuevos datos para la performance de las consultas.

Aseguramiento de la calidad:
Cuando el datawarehouse ha sido cargado, indexado y correctamente agregado, el último paso antes dela publicación es el aseguramiento de la calidad. Esto puede hacerse con reportes donde se verifiquen los totales.

Publicación:
En este paso, los usuarios acceden a la información del datawarehouse [1]

Bibliografia

jmanuelgarciaaragon

unread,
Sep 20, 2012, 11:47:09 AM9/20/12
to itecnodgo_nint...@googlegroups.com

3.4 Procesos básicos del Data WareHouse (ETL)

·         Extracción: este es el primer paso de obtener la información hacia el ambiente del Data WareHouse.

·         Transformación: una vez que la información es extraída hacia el área de trafico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión.

·         Carga: al final del proceso de transformación, los datos están en forma para ser cargados. [1]


 

[1] http://www.monografias.com/trabajos17/data-warehouse/data-warehouse.shtml#loseleme

José de Jesús Santes Palacios

unread,
Sep 22, 2012, 12:24:36 AM9/22/12
to itecnodgo_nint...@googlegroups.com
*Procesos en un DWH
Extracción: este es el primer paso de obtener informacion hacia el ambiente del Data Warehouse.
Transformación: una vez que la informacion es extraida hacia el are de trafico de datos, hay posibles pasos de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los campos necesarios para el Data Warehouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión.
Carga: al final del proceso de transformación,los datos están en forma para ser cargados.


José de Jesús Santes Palacios

unread,
Sep 22, 2012, 12:25:48 AM9/22/12
to itecnodgo_nint...@googlegroups.com
data_warehousing_architecture.jpg

jgerardo.felixo

unread,
Sep 22, 2012, 12:56:35 AM9/22/12
to itecnodgo_nint...@googlegroups.com

Los procesos básicos del Data WareHouse (ETL)

·          Extracción: este es el primer paso de obtener la información hacia el ambiente del Data WareHouse.

·          Transformación: una vez que la información es extraída hacia el área de trafico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión.

·          Carga: al final del proceso de transformación, los datos están en forma para ser cargados. [1]

 

ETL - este termino viene de ingles de las siglas Extract-Transform-Load que significan Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el proceso que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta los métodos y herramientas necesarias para mover datos desde múltiples fuentes a un almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart ó bodega de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence), también llamado “Gestión de los Datos” (Data Management).

La idea es que una aplicación ETL lea los datos primarios de unas bases de datos de sistemas principales, realice transformación, validación, el proceso cualitativo, filtración y al final escriba datos en el almacén y en este momento los datos son disponibles para analizar por los usuarios.

Los más populares herramientas y aplicaciones ETL del mercado

  • IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
  • Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
  • SAS ETL Studio
  • Oracle Warehouse Builder
  • Informatica PowerCenter
  • Cognos Decisionstream
  • Ab Initio
  • BusinessObjects Data Integrator (BODI)
  • Microsoft SQL Server Integration Services (SSIS) [2]

[1] http://www.monografias.com/trabajos17/data-warehouse/data-warehouse.shtml#losproce

[2] http://etl-tools.info/es/bi/proceso_etl.htm

 

 

cipriano.hernadez.alanis

unread,
Sep 22, 2012, 4:12:19 PM9/22/12
to itecnodgo_nint...@googlegroups.com
El martes, 18 de septiembre de 2012 10:27:02 UTC-5, Administrador Grupo escribió:

cesar.monarrez.a

unread,
Sep 26, 2012, 1:05:00 AM9/26/12
to itecnodgo_nint...@googlegroups.com

Procesos básicos del Data WareHouse.

  • Extracción: es el primer paso de obtener la información hacia el ambiente del DataWarehouse.
  • Transformación: una vez que la información es extraída hacia el área de trafico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve,seleccionar únicamente los campos necesarios para el Data Warehouse, combinar fuentes de datos,haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de unadimensión.
  • Carga: al final del proceso de transformación, los datos están en forma para ser cargados. [1]


Referencias Bibliograficas.

[1] http://es.scribd.com/doc/27007744/Que-Es-Un-Data-Warehouse


proceso DWH.jpg
Reply all
Reply to author
Forward
0 new messages