Investigue los pasos a seguir para la construcción de un datawarehouse.Fecha de entrega 7 11 12
--
En efecto, como punto de arranque de todo, es preciso “vender la idea” a los usuarios finales de un Data Warehouse. Esto es así, por ser una idea bastante novedosa y sobre la que pueden surgir recelos de su efectividad. Estos recelos se pueden eliminar comenzando por un pequeño módulo, del cual se valoren los beneficios posteriores, para iniciar progresivamente el desarrollo de nuevos módulos, cada uno con un coste unitario cada vez más reducido, pero sin embargo con unos beneficios distribuidos cada vez mayores por poder cada vez incluir más información.
El simple hecho de realizar un informe de necesidades previas en el que se enumeren la situación de los datos entre los diversos sistemas operacionales, puede ser un hecho decisivo para emprender un proyecto de este tipo. Muchas veces la información existente se encuentra tan poco normalizada, existen tantas discrepancias entre estos sistemas, que el abordar un Data Warehouse en el que se limpien estos datos y se normalicen pueden aportar un valor intangible: “la calidad y fiabilidad de la información“.
La venta de esta idea no sólo se ha de realizar frente a la Dirección sino que es preciso realizarla a todos los niveles: a la Dirección, Gerencia e incluso al área de Desarrollo.
Tras esta venta de la idea, comienzan dos fases similares al análisis de requisitos del sistema (ARS según abreviaturas de la metodología METRICA): la definición de objetivos y requerimientos de información, en el que se analicen las necesidades del comprador.
En esta fase se definirá el equipo de proyecto que debe estar compuesto por representantes del departamento informático y de los departamentos usuarios del Data Warehouse además de la figura de jefe de proyecto.
Se definirá el alcance del sistema y cuales son las funciones que el Data Warehouse realizará como suministrador de información de negocio estratégica para la empresa. Se definirán así mismo, los parámetros que permitan evaluar el éxito del proyecto.
Definición de los requerimientos de información
Tal como sucede en todo tipo de proyectos, sobre todo si involucran técnicas novedosas como son las relativas al Data Warehouse, es analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.
Es por ello por lo que nos remitimos al apartado de esta guía de Análisis de las necesidades del comprador. Será en este punto, en donde detallaremos los pasos a seguir en un proyecto de este tipo, en donde el usuario va a jugar un papel tan destacado.
Definición de los requerimientos de información
Durante esta fase se mantendrán sucesivas entrevistas con los representantes del departamento usuario final y los representantes del departamento de informática. Se realizará el estudio de los sistemas de información existentes, que ayudaran a comprender las carencias actuales y futuras que deben ser resueltas en el diseño del Data Warehouse
Asimismo, en esta fase el equipo de proyecto debe ser capaz de validar el proceso de entrevistas y reforzar la orientación de negocio del proyecto. Al finalizar esta fase se obtendrá el documento de definición de requerimientos en el que se reflejarán no solo las necesidades de información de los usuarios, sino cual será la estrategia y arquitectura de implantación del Data Warehouse.
Diseño y modelización
Los requerimientos de información identificados durante la anterior fase proporcionarán las bases para realizar el diseño y la modelización del Data Warehouse.
En esta fase se identificarán las fuentes de los datos (sistema operacional, fuentes externas,..) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lógico de datos del Data Warehouse. Este modelo estará formado por entidades y relaciones que permitirán resolver las necesidades de negocio de la organización.
El modelo lógico se traducirá posteriormente en el modelo físico de datos que se almacenará en el Data Warehouse y que definirá la arquitectura de almacenamiento del Data Warehouse adaptándose al tipo de explotación que se realice del mismo.
La mayor parte estas definiciones de los datos del Data Warehouse estarán almacenadas en los metadatos y formarán parte del mismo.
Implementación
La implantación de un Data Warehouse lleva implícitos los siguientes pasos:
La información necesaria para mantener el control sobre los datos se almacena en los metadatos técnicos (cuando describen las características físicas de los datos) y de negocio (cuando describen cómo se usan esos datos). Dichos metadatos deberán ser accesibles por los usuarios finales que permitirán en todo momento tanto al usuario, como al administrador que deberá además tener la facultad de modificarlos según varíen las necesidades de información.
Con la finalización de esta fase se obtendrá un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informática.
Revisión
La construcción del Data Warehouse no finaliza con la implantación del mismo, sino que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores.
Después de implantarse, debería realizarse una revisión del Data Warehouse planteando preguntas que permitan, después de los seis o nueve meses posteriores a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en función de la utilización que se haga del nuevo sistema.
Diseño de la estructura de cursos de formación
Con la información obtenida de reuniones con los distintos usuarios se diseñarán una serie de cursos a medida, que tendrán como objetivo el proporcionar la formación estadística necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicación. Se realizarán prácticas sobre el desarrollo realizado, las cuales permitirán fijar los conceptos adquiridos y servirán como formación a los usuariosFases desarrollo de un Datawarehouse.Antes de desarrollar un data warehouse, es crítico el desarrollo de una estrategia equilibrada que sea apropiadapara sus necesidades y sus usuarios.
Las preguntas que deben tenerse en cuenta son:- ¿Quién es el auditorio?
- ¿Cuál es el alcance?- ¿Qué tipo de data warehouse debería construirse?
Las fases del ciclo son:*Planeación: La planeación es una fase importante de la implementación del Data Warehouse. Las decisiones tomadasdurante la fase de planeación tienen un impacto significativo en el ámbito de implementación y en la magnitud delesfuerzo. Las decisiones clave de planeación incluyen la selección de un enfoque de arriba hacia abajo (de Iogeneral a Io particular), de abajo hacia arriba (en sentido opuesto) o combinado; la selección de la arquitecturaapropiada de Data Warehouse; la selección adecuada del ámbito de información, fuentes de datos y tamaño delmetamodelo; y la estimación de planes de programa y proyecto y justificaciones de presupuesto.
*Requerimientos: Durante la fase de requerimientos se debe considerar una diversidad de ellos. Los requerimientosson conducidos por el negocio y por la tecnología. La cuidadosa selección y especificación de requerimientos enesta etapa proporciona un proyecto cimentado que arroja resultados con rapidez.
*Análisis: La fase de análisis es importante ya que determina la forma en que se cubrirán los requerimientos. Estafase se enfoca principalmente en la conversión de especificaciones de requerimientos a especificaciones demetamodelo para el Data Warehouse. Después, estas especificaciones se usan para generar extractores del DataWarehouse y software de transformación, integración, resumen y adición.
*Construcción: La fase de construcción resalta los diversos intercambios "construir en comparación con comprar".Mediante la selección adecuada de componentes suministrados por fabricantes, es posible construir una primeraimplementación del Data Warehouse rápida y eficaz.
*Despliegue: La fase de despliegue en el ciclo de desarrollo del Data Warehouse tiene un componente únicodenominado comercialización de información. Esto reconoce que la mercancía que suministra el Data Warehouse a sususuarios finales (clientes) es la propia información. Como un producto de mercancía, la información también debecomercializarse como los bienes de consumo. La comercialización comprende la capacidad de hacer énfasis en ladisponibilidad, los beneficios y el empaque para hacerla atractiva al usuario final.Fuente:
http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse2#2.8.Modelo de Planificación para unDatawarehouse|outline
11 Pasos para Construir un Datawarehouse con Éxito
Cada vez más empresas empiezan a utilizar Datawareouse para obtener información útil sobre sus negocios y tomar decisiones adecuadas.
Hasta hace poco, sólo las grandes compañías se podían permitir crear un DW y tener aplicaciones y analistas para extraer toda esa información. Sin embargo, el abaratamiento de los costes de software y, sobre todo, del hardware, hacen que su uso se haya popularizado y extendido.
Por este motivo, se hace necesario establecer unos criterios que lleven a al creación de este entorno de forma exitosa.
1) Reconocer que el trabajo será más duro de lo que se esperaba inicialmente.
Es muy habitual encontrarse con que más de un 30% de la información contenida en los sistemas operaciones o es incorrecta o incompleta para incorporarla al DW. Esta mala calidad de los datos incide en la complejidad del trabajo.
Otro ejemplo, es el de los administradores de la base de datos, que usan números en lugar de nombres de ciudades para optimizar el cálculo en sistemas operacionales. En un entorno Business Intelligence, este tipo de ‘trucos’ no son muy útiles, pues los usuarios necesitan descripciones completas.
Otro tema que hace el trabajo más duro del esperado, es la aparición de nuevos productos o divisiones durante el proceso de implementación. Algo habitual dada la duración del mismo.
2) Conocer los datos en los sistemas origen.Antes de comenzar a construir el DW es muy importante analizar los datos y sus interrelaciones entre todas las Bases de Datos disponibles. Posteriormente, al migrar esa información al DW, será necesario mantener esas relaciones, por lo que es muy importante hacerlo bien para evitar inconsistencias en el modelo de datos que pueden provocar muchos quebraderos de cabeza.
3) Saber reconocer entidades equivalentes
Uno de los principales problemas que surgen cuando se analizan sistemas heterogéneos, es la de identificar como una misma entidad, elementos que aparecen con nombres y descripciones diferentes, pero que se refieren a lo mismo.
Por ejemplo, dos departamento diferentes (Comercial y Finanzas), pueden estar registrando en sus sistemas información sobre un mismo cliente, pero puede que este registrado con nombre diferentes (nº cliente, nº fiscal, nombre social, etc…)
4) Usar metadatos como soporte a la calidad de los datos.
El uso de metadatos (datos sobre los datos), es crucial para el éxito de un DW. Es muy importante empezar a recoger y almacenar metadatos desde las fases iniciales del proyecto e incluir todas las fases del mismo.
También es muy útil integrar todos los metadatos en un lugar común. Esto será especialmente interesante cuando estemos trabajando con diferentes herramientas, cada una de las cuales, genera sus propios metadatos.
5) Seleccionar las herramientas ETL adecuadas.
Las herramientas ETL, se encargan de las extracción de datos de los sistema fuente, de su transformación y posterior carga en el DW o en algún sistema intermedio para posteriores transformaciones.
A la hora de seleccionar una herramienta ETL, será muy útil que tenga un manejo sencillo y represente de forma visual todas las transformaciones. Así mismo, será muy útil que pueda ir generando metadatos, conforme se vaya realizando el proceso ETL.
6) Tomar ventaja de las fuentes externas
La integración de fuentes externas a los sistemas operacionales, como puede ser la infomación de encuestas de satisfacción de los clientes o los estudios de mercado de terceros, o información sobre competidores, puede aportar un valor añadido muy importante al DW.
Esta información nos permitirá sacar conclusiones mucho más avanzadas sobre el negocio, que las meramente internas como ventas, costes, etc.
7) Utilizar nuevos métodos de distribución de la información.Antiguamente, se necesitaba de la participación de analistas que prepararan los informes para cada necesidad de los usuarios. Sin embargo, ahora se pueden utilizar informes parametrizables, envíos vía e-mail, alertas, etc… de modo que son los usuarios finales los que acceden directamente a la información que necesitan y pueden configurarse sus propias consultas.
8) Centrarse en aplicaciones para uso en MarketingUn DW ofrece una de sus mayores ventajas a los departamentos de Marketing, donde se tienen que manejar grandes cantidades de información. Empresas del sector de distribución, banca y seguros pueden realizar complejos análisis de ventas cruzadas y generar ofertas en base a un portfolio de productos que se pueda ajustar a las necesidades de los clientes.
9) Enfatizar los primeros resultados positivos para ganar apoyo de la organización
La reducción de la complejidad de estos sistemas y el enfoque incremental utilizado en su creación, hacen que se pueda empezar a ver algunos frutos en un corto plazo de tiempo.
Esto tiene que ser aprovechado para que la organización valide lo realizado y apoye con sugerencias y compromiso los nuevos desarrollos que aún están pendientes.
10) No hay que infravalorar los requerimientos de HardwareEn un DW, los requerimientos de hardware son uno de los principales temas a valorar. A veces, se diseña una arquitectura que puede ser ampliamente suficiente para la entrada en producción, pero a menudo se olvida que estos sistemas crecen muy rápidamente, se necesitan sistemas de copia seguros y las necesidades de rendimiento, en términos de agilizar los cálculos son muy importantes. Por eso, nunca conviene infravalorar el número de CPU´s y memoria en disco disponibles.
11) Considerar el Outsourcing para el desarrollo y mantenimiento del DWMuchas compañías de mediano y gran tamaño utilizan el outsourcing como medio de garantizar el complejo, largo y costoso proceso de poner en funcionamiento un DW y evitan la dificultad de encontrar y retener profesional IT capacitados.
El outsourcing puede llegar a generar nuevas ideas y desarrollos en base a su conocimiento profundo del DW y de su arquitectura, además no tiene los problemas de falta de personal capacitado de muchas empresas.
Once pasos para construir un Datawarehouse con éxito
Cada vez más empresas empiezan a utilizar Datawarehouses para obtener información útil sobre sus negocios y tomar decisiones adecuadas.
Hasta hace poco, sólo las grandes compañías se podían permitir crear un DW y
tener aplicaciones y analistas para extraer toda esa información. Sin embargo,
el abaratamiento de los costes de software y, sobre todo, del hardware, hacen
que su uso se haya popularizado y extendido.
Por este motivo, se hace necesario establecer unos criterios que lleven a al creación de este entorno de forma exitosa
1) Reconocer que el trabajo será más duro de lo que se esperaba inicialmente.
Es muy habitual encontrarse con que más de un 30% de la información contenida en los sistemas operaciones o es incorrecta o incompleta para incorporarla al DW. Esta mala calidad de los datos incide en la complejidad del trabajo.
Otro ejemplo, es el de los administradores de la base de datos, que usan números en lugar de nombres de ciudades para optimizar el cálculo en sistemas operacionales. En un entorno Business Intelligence, este tipo de ‘trucos’ no son muy útiles, pues los usuarios necesitan descripciones completas.
Otro tema que hace el trabajo más duro del esperado, es la aparición de nuevos productos o divisiones durante el proceso de implementación. Algo habitual dada la duración del mismo.
2) Conocer los datos en los sistemas origen.
Antes de comenzar a construir el DW es muy importante analizar los datos y sus interrelaciones entre todas las Bases de Datos disponibles Posteriormente, al migrar esa información al DW, será necesario mantener esas relaciones, por lo que es muy importante hacerlo bien para evitar inconsistencias en el modelo de datos que pueden provocar muchos quebraderos de cabeza.
3) Saber reconocer entidades equivalentes
Uno de los principales problemas que surgen cuando se analizan sistemas
heterogéneos, es la de identificar como una misma entidad, elementos que
aparecen con nombres y descripciones diferentes, pero que se refieren a lo
mismo.
Por ejemplo, dos departamento diferentes (Comercial y Finanzas), pueden estar
registrando en sus sistemas información sobre un mismo cliente, pero puede que
este registrado con nombre diferentes (nº cliente, nº fiscal, nombre social,
etc…)
4) Usar metadatos como soporte a la calidad de los datos.
El uso de metadatos (datos sobre los datos), es crucial para el éxito de un DW. Es muy importante empezar a recoger y almacenar metadatos desde las fases iniciales del proyecto e incluir todas las fases del mismo.
También es muy útil integrar todos los metadatos en un lugar común. Esto será especialmente interesante cuando estemos trabajando con diferentes herramientas, cada una de las cuales, genera sus propios metadatos.
5) Seleccionar las herramientas ETL adecuadas.
Las herramientas ETL, se encargan de las extracción de datos de los sistema fuente, de su transformación y posterior carga en el DW o enalgún sistema intermedio para posteriores transformaciones.
A la hora de seleccionar una herramienta ETL, será muy útil que tenga un manejo
sencillo y represente de forma visual todas las transformaciones.
Así mismo, será muy útil que pueda ir generando metadatos, conforme se vaya
realizando el proceso ETL.
6) Tomar ventaja de las fuentes externas
La integración de fuentes externas a los sistemas operacionales, como puede
ser la infomación de encuestas de satisfacción de los clientes o los estudios
de mercado de terceros, o información sobre competidores, puede aportar un
valor añadido muy importante al DW.
Esta información nos permitirá sacar conclusiones mucho más avanzadas sobre el negocio, que las meramente internas como ventas, costes, etc…
7) Utilizar nuevos métodos de distribución de la información.
Antiguamente, se necesitaba de la participación de analistas que prepararan los informes para cada necesidad de los usuarios. Sin embargo, ahora se pueden utilizar informes parametrizables, envios via e-mail, alertas, etc… de modo que son los usuarios finales los que acceden directamente a la información que necesitan y pueden configurarse sus propias consultas.
8) Centrarse en aplicaciones para uso en Marketing
Un DW ofrece una de sus mayores ventajas a los departamentos de Marketing, donde se tienen que manejar grandes cantidades de información. Empresas del sector de distribución, banca y seguros pueden realizar complejos análisis de ventas cruzadas y generar ofertas en base a un portfolio de productos que se pueda ajustar a las necesidades de los clientes.
9) Enfatizar los primeros resultados positivos para ganar apoyo de la organización
La reducción de la complejidad de estos sistemas y el enfoque incremental utilizado en su creación, hacen que se pueda empezar a ver algunos frutos en un corto plazo de tiempo.
Esto tiene que ser aprovechado para que la organización valide lo realizado y apoye con sugerencias y compromiso los nuevos desarrollos que aún están pendientes.
10) No hay que infravalorar los requerimientos de Hardware
En un DW, los requerimientos de hardware son uno de los principales temas a valorar. A veces, se diseña una arquitectura que puede ser ampliamente suficiente para la entrada en producción, pero a menudo se olvida que estos sistemas crecen muy rápidamente, se necesitan sistemas de copia seguros y las necesidades de rendimiento, en términos de agilizar los cálculos son muy importantes. Por eso, nunca conviene infravalorar el número de CPU´s y memoria en disco disponibles.
11) Considerar el Outsourcing para el desarrollo y mantenimiento del DW
Muchas compañias de mediano y gran tamaño utilizan el outsourcing como medio de garantizar el complejo, largo y costoso proceso de poner en funcionamiento un DW y evitan la dificultad de encontrar y retener profesional IT capacitados.
El outsourcing puede llegar a generar nuevas ideas y desarrollos en base a su conocimiento profundo del DW y de su arquitectura, además no tiene los problemas de falta de personal capacitado de muchas empresas. [1]
[1]http://todobi.blogspot.mx/2005/12/once-pasos-para-construir-un.html
Pasos a seguir en la construcción de un Data Warehouse
Los procesos básicos del Data Warehouse son:
Extracción: es el primer paso de obtener información hacia el ambiente del Data Warehouse. Consiste en extraer los datos desde los sistemas de origen. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación.
Un parte intrínseca del proceso de extracción es la de analizar los datos extraídos, se realiza un chequeo, el cual verifica si los datos cumplen la pauta o estructura que se esperaba. Si no es así son rechazados.
Transformación: luego de que la información fue extraída, se pueden realizar diferentes pasos de transformación, como ser: limpieza de la información, botar a la basura lo que consideramos innecesario, seleccionar campos específicos que consideremos necesarios para el Data Warehouse, realizar combinaciones fuentes de datos, etc.
Carga: al final del proceso de transformación, los datos están en forma para ser cargados. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes.
Referencias:
http://www.dametareas.com/datawarehousing-metodologia-de-kimball-y-herramientas-de-sql-server-2005/
Tal y como aparecía en un artículo en ComputerWorld: "Un Data Warehouse no se puede comprar, se tiene que construir". Como hemos mencionado con anterioridad, la construcción e implantación de un Data Warehouse es un proceso evolutivo.
Este proceso se tiene que apoyar en una metodología específica para este tipo de procesos, si bien es más importante que la elección de la mejor de las metodologías, el realizar un control para asegurar el seguimiento de la misma.
En las fases que se establezcan en el alcance del proyecto es fundamental el incluir una fase de formación en la herramienta utilizada para un máximo aprovechamiento de la aplicación. El seguir los pasos de la metodología y el comenzar el Data Warehouse por un área específica de la empresa, nos permitirá obtener resultados tangibles en un corto espacio de tiempo.
Planteamos aquí la metodología propuesta por SAS Institute: la "Rapid Warehousing Methodology". Dicha metodología es iterativa, y está basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases: