HERRAMIENTAS DE BUSINESS INTELLIGENCE - DATAWAREHOUSE


  • Introducción
  • Definición
  • Datawarehouse
  • Estructura del Dat awarehouse

1.-INTRODUCCIÓN








1.-DEFINICIÓN
En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

Definición de Bill Inmon
Bill Inmon1 fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del repositorio de datos:
Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.
Definición de Ralph Kimball[editar]
Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis"[cita requerida]. También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad"[cita requerida]. Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.
Una definición más amplia de almacén de datos[editar]
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.


• Se entiende como herramientas de Business Intelligence
todas las aplicaciones orientadas a convertir datos en
conocimiento para la organización, mediante la
transformación de datos en información estructurada para
su explotación directa por parte de la dirección.



3. Datawarehouse
• Un Datawarehouse es un gran almacén de datos, en
el que se integran datos procedentes de varias fuentes.
• Además un Datawarehouse debe disponer de una gran
capacidad de almacenamiento (gigabytes o terabytes)

7
Definición
• Datawarehouse (Almacén de datos) se define como
una colección de datos que verifican las siguientes
propiedades:
– Está orientado a objetos (a un tema)
– Datos integrados
– No volátiles
– Variante en el tiempo
que surgieron como una herramienta de soporte
para la toma de decisiones a nivel gerencialJuan Alvites
8
Explicación de la definición
• Orientado hacia temas: los datos se almacenan y
agrupan por temas de interés.Juan Alvites
9
Explicación de la definición
• Datos integrados: el almacén de datos integra
datos que provienen de varias fuentes. Partimos
de una base de datos (operacional) y mediante un
proceso de carga de datos hacemos el
Datawarehouse. El proceso de carga es lo más
complicado por problemas de codificación,
medidas de los atributos… de las bases de datos.
BD
BD
BD
DW
CARGAJuan Alvites
10
Explicación de la definición
• No volátiles: son estables, una vez almacenados los
datos no se modifican.
BD D DW
W
SELECT
INSERT
UPDATE
DELETE
REPORTS SELECT
CARGAJuan Alvites
11
Explicación de la definición
• Variante en el tiempo: los datos contienen
información sobre la fecha de los mismos, porque
se hacen cargas de datos continuamente. Cuando
los datos van cambiando, se actualizan los
históricos y se guardan en ficheros temporales.
Siempre va haber una variable tiempo.
TIEMPO
# id_tiempo
* periodoJuan Alvites
12
Características
• Podemos resumir las características de un
Datawarehouse:
– Trabaja con datos de negocio
– Orientado a un sujeto
– Almacena datos actuales orientado a un histórico
(actual + histórico)
– Datos más bien resumidos (no información
detallada)Juan Alvites
13
DIFERENCIAS
BD OPERACIONAL
- Datos operacionales
- Orientado a
aplicaciones
- Datos Actuales
- Datos Detallados
- Datos en continuo
cambio
DATAWAREHOUSE
- Datos de negocio
- Orientado al sujeto
- Actuales + Histórico
- Datos Resumidos
- Datos EstablesJuan Alvites
Almacenes y Minería de Datos 14
ARQUITECTURA DATAWAREHOUSE
GESTOR
CARGA
GESTOR
ALMACENAMIENTO
GESTOR
CONSULTAS
BD
operacional
Partimos de una BD operacional y se basa en 3 módulosJuan Alvites
15
GESTOR DE CARGA
• Permite hacer la carga. Como dificultades nos
podemos encontrar:
– La integración de los datos
– Elección del momento de la carga
– El tiempo de carga sea el mínimo posible
– Buen diccionario de datos o METADATA (para evitar
cometer errores en la carga)
– Diseño de procedimientos PL/SQLJuan Alvites
16
GESTOR DE ALMACENAMIENTO
• Se encarga del almacenamiento, de la estructura,….
 Existe una tabla llamada FACT (Hecho) y unas tablas
llamadas dimensiones o tablas dimensionales.
 Entre la tabla FACT y las tablas dimensionales suele
haber relaciones 1:N
 Este modelo tiene forma de estrella por eso se
denomina MODELO STARJuan Alvites
17
MODELO ESTRELLA - STAR
FACT
DIM_1
DIM_2
DIM_TIEMPO
DIM_3
# PK4
# PK1
# PK2
# PK3
# PK1
# PK2
# PK3
# PK4
*campoA
*campoBJuan Alvites
18
GESTOR DE CONSULTAS
• Las consultas se hacen sobre la tabla FACT.
También se encarga de los perfiles, pues las
consultas (reports) serán diferentes dependiendo
del usuario y sus necesidades.Juan Alvites
19
Ejemplo 1:
CATEGORIAS_PROF
# c_categoria
* descripción
* salario_min
* salario_max
USUARIOS
# c_usuario
* nombre
* apellido1
* apellido2
* c_categoria
* direccion
USU_OFERTAS
# c_categoria
# c_oferta
* salario_deseado
OFERTAS
# c_oferta
* descripción
* salario_min
* salario_max
* fx_alta
1
n
1 1
n nJuan Alvites
20
Ejemplo 1: CATEGORIAS_PROF
# c_categoria
* descripción
* salario_min
* salario_max
USUARIOS
# c_usuario
* nombre
* apellido1
* apellido2
* c_categoria
* direccion
OFERTAS
# c_oferta
* descripción
* salario_min
* salario_max
* fx_alta
TIEMPO
# c_tiempo
* descripcion
USU_OFERTAS
# c_usuario
# c_categoria
# c_oferta
* salario_deseadoJuan Alvites
21
REPORTS
• ¿Cuántos usuarios se han apuntado a las ofertas de
empleo del mes de enero?
SELECT count(*)
FROM USUARIOS_OFERTAS U, OFERTAS O
WHERE U.c_oferta=o.c_oferta
AND O.fx_alta BETWEEN (’01/01/07’,`31/01/07´)Juan Alvites
Ejemplos Arquitectura de Datawarehouse
22Juan Alvites

No hay comentarios :

Publicar un comentario