Etl

Published on February 2017 | Categories: Documents | Downloads: 44 | Comments: 0 | Views: 441
of 10
Download PDF   Embed   Report

Comments

Content

4 Construcción
En este capítulo se describe la secuencia de pasos para configurar las herramientas utilizadas para la construcción del Data Mart.

4.1

Configuración del software
Para el presente proyecto se utilizarán el sistema operativo Windows XP, base de datos PostgreSQL y la suite Pentaho. A continuación se muestra las configuraciones de estas herramientas.

4.1.1

Configuración de la Base de Datos Para la configuración del motor de base de datos PostgreSQL se deben realizar los siguientes pasos:   

Descargar el paquete postgreSQL 8.3 de

página de descargas de

postgreSQL: http://www.postgresql.org/download/windows Instalar el paquete postgreSQL 8.3 que incluye la interfaz gráfica pgAdmin III. Configurar la conexión local que se va a utilizar para la creación de las bases de datos. Para ello se ingresan los siguientes datos: o o o o o o o  Nombre: postgreSQL Servidor: localhost Puerto: 5432 BD de Mantenimiento: postgres Usuario: postgres Contraseña: ****** Servicio: postgresql-8.3

Crear la base de datos para almacenar las dimensiones y las tablas de hechos, para ello se ingresan los siguientes datos: o Nombre: multidimensional

o o o

Propietario: postgres Codificación: UTF8 Tablespace: pg_default

4.1.2

Configuración de Pentaho Para la configuración de Pentaho se debe descargar la suite Pentaho de la página: http://www.pentaho.com/products/try_bi_suite.php, luego se tienen que configurar las herramientas que se utilizarán para el proceso ETL, la elaboración de los cubos y los reportes, estas son:

Plataforma: Para la instalación de la plataforma se sigue el Wizard que proporciona el instalador de Pentaho. En ella se registran las contraseñas que se utilizarán para el usuario administrador y para realizar publicaciones. Además se incluye la creación de un usuario cliente estándar con una contraseña por defecto (Joe/password). Data Integration (Kettle): Esta herramienta servirá para la construcción de los procesos ETL, específicamente se usará la aplicación Spoon, una interfaz gráfica que permite arrastrar los componentes de entrada, transformación y salida de los procesos. Para su configuración se debe iniciar Pentaho Data Integration desde la ruta: C:\Archivos de programa\pentaho\design-tools\dataintegration\spoon.bat y se mostrará la siguiente pantalla de inicio.

En esta ventana se crea el repositorio de los objetos de los procesos ETL, para ello primero se configura la base de datos que se usará, y se ingresan los siguientes datos:       Tipo de conexión: postgreSQL Servidor: localhost Nombre de la BD: postgres Puerto: 5432 Usuario: postgres Contraseña: *****

Finalmente se ingresa un nombre y una descripción para el repositorio. Schema Workbench (Kettle): Esta herramienta servirá para la creación de los archivos XML que usaremos para la construcción de los cubos. Para su configuración se debe tener los drivers correspondientes a las bases de datos que utilizaremos, estos deben estar en la siguiente carpeta: C:\Archivos de programa\pentaho\design-tools\schema-workbench\drivers,

para el caso de postgreSQL se utilizará el driver postgresql-8.3-604.jdbc3.jar. Luego se debe iniciar Schema Workbench desde la ruta: C:\Archivos de programa\pentaho\design-tools\schema-workbench y se

configuran las preferencias. Para ello se ingresa al menú Herramientas / Preferencias. En esa ventana se ingresan los siguientes datos:     Driver: org.postgresql.Driver Conexión URL: jdbc:postgresql://localhost:5432/multidimensional Usuario: postgres Contraseña: ******

Para comprobar el paso anterior se debe ingresar al menú Archivo/ Nuevo/ Explorador JDBC. Finalmente para crear los cubos ingresar al menú Archivo/ Nuevo/ Esquema.

4.2

Construcción de procesos de carga
Para la construcción de los procesos ETL el primer paso es definir las transformaciones que se realizarán sobre los datos extraídos. Para eso se utilizará la interfaz gráfica Spoon.

Para

añadir

una

transformación

se

ingresa

al

menú

Archivo/

Nuevo/

Transformación y para añadir los steps (pasos que sigue esta transformación) basta con arrastrar los íconos desde la barra lateral. Luego para crear las relaciones (hops) entre steps se debe seleccionar un step y dejar presionado el botón central del Mouse arrastrándolo hasta el siguiente step.

Luego de definir un proceso ETL se realizan las pruebas respectivas, para ello se ingresa al menú Transformación/ Ejecutar. En la parte inferior se observará una pestaña con la descripción los steps realizados y otra más con el historial de las operaciones internas para realizar dichos steps. A continuación se muestra como ejemplo la carga de la dimensión producto. 4.2.1 Carga de dimensión Producto Esta dimensión utiliza cinco tablas del modelo relacional, estas son: Producto, Familia, Subfamilia, Marca y Modelo. La tabla destino donde se almacenará la dimensión es: dim_producto. A continuación se muestra el diagrama ETL para la carga de esta dimensión.

4.2.2

Carga de Fact Table Venta por Zona Esta tabla utiliza como fuente a la dimensión producto creada en el paso anterior y a las dimensiones zona geográfica y tiempo que se cargan de la misma manera que producto y se almacenan en las tablas: Dim_producto, dim_zona_geografica y dim_tiempo Además utiliza la tabla ventas por zona del modelo relacional para obtener las unidades vendidas de productos por zona. A continuación se muestra el diagrama ETL para la construcción de esta tabla de hechos.

4.3
4.3.1

Construcción de Reportes
Reporte de ventas por zona Este reporte muestra el volumen de ventas por zona geográfica. Esta información se almacena en la tabla de hechos ventas_por_Zona. Para crear el cubo “ventas” se utilizarán además de esta tabla de hechos las dimensiones producto, zona_geográfica y tiempo. A continuación se muestra la estructura en forma de árbol con las jerarquías, tablas y el código XML generado a partir de la herramienta Schema Workbench.

Finalmente después de publicar este archivo XML, se observará el resultado en la consola cliente ingresando con el usuario por defecto (joe/password). Allí se escoge un nuevo Analysis View, se elige el esquema y cubo publicados y se obtiene un cuadro con las dimensiones cargadas como se muestra a continuación en la siguiente pantalla.

4.4

Ejecución de las Pruebas de proceso de carga Todas las pruebas se realizaron en un ambiente local, es decir con una base de datos en localhost tanto para las tablas transaccionales como para las dimensionales y tablas de hechos. Además la data que se utilizó se ajusta a los datos reales que se encuentran en los catálogos de productos de la empresa que los comercializa, en cambio, los volúmenes de venta si fueron estimados.

A continuación se muestra el resultado de una ejecución de la carga de la dimensión producto, se puede ver las actividades que se realizó por cada step, es decir la lectura de cada una de las tablas transaccionales, la integración y la escritura en la tabla dimensional. Esta información se obtuvo del log de actividades del Pentaho Data Integration.

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close