You are on page 1of 55

MAESTRIA EN TECNOLOGIAS DE INFORMACIN

TECNOLOGAS DE LA INFORMACIN EN LAS ORGANIZACIONES

MTI. ROSA IMELDA GARCA CHI

UNIDAD 4. TECNOLOGA DE BASE DE DATOS

MTI. ROSY CHI

Temas de la Unidad 4

MTI. ROSY CHI

UNIDAD 4. TECNOLOGIA DE BASE DE DATOS

Concepto de BASE DE DATOS

MTI. ROSY CHI

BASE DE DATOS - Concepto

Una base de datos o banco de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemticamente para su posterior uso.
En este sentido, una biblioteca puede considerarse una base de datos compuesta en su mayora por documentos y textos impresos en papel e indexados para su consulta.

MTI. ROSY CHI

BASE DE DATOS - Concepto

Actualmente, y debido al desarrollo tecnolgico de campos como la informtica y la electrnica, la mayora de las bases de datos estn en formato digital (electrnico), y por ende se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.

MTI. ROSY CHI

Sistemas Gestores de Bases de Datos

Existen programas denominados sistemas gestores de bases de datos, abreviado SGBD, que permiten almacenar y posteriormente acceder a los datos de forma rpida y estructurada. Las propiedades de estos SGBD, as como su utilizacin y administracin, se estudian dentro del mbito de la informtica.

MTI. ROSY CHI

Tipos de base de datos

MTI. ROSY CHI

Tipos de base de datos

Las bases de acuerdo al contexto de datos que se est manejando, pueden la utilidad de las mismas clasificarse o de varias las necesidades que satisfagan. maneras,

MTI. ROSY CHI

Tipos de Base de Datos

Segn la variabilidad de los datos almacenados

Segn el contenido

MTI. ROSY CHI

Segn la variabilidad de los datos almacenados

Bases de datos estticas


Son bases de datos de slo lectura, utilizadas primordialmente para almacenar datos histricos que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a travs del tiempo, realizar proyecciones, tomar decisiones y realizar anlisis de datos para inteligencia empresarial.

Bases de datos dinmicas


stas son bases de datos donde la informacin almacenada se modifica con el tiempo, permitiendo operaciones como actualizacin, borrado y adicin de datos, adems de las operaciones fundamentales de consulta. Un ejemplo de esto puede ser la base de datos utilizada en un sistema de informacin de un supermercado, una farmacia, un videoclub o una empresa.

MTI. ROSY CHI

Segn el contenido

Bases de datos bibliogrficas


Slo contienen un subrogante (representante) de la fuente primaria, que permite localizarla. Un registro tpico de una base de datos bibliogrfica contiene informacin sobre el autor, fecha de publicacin, editorial, ttulo, edicin, de una determinada publicacin, etc. Puede contener un resumen o extracto de la publicacin original, pero nunca el texto completo, porque si no, estaramos en presencia de una base de datos a texto completo (o de fuentes primarias ver ms abajo). Como su nombre lo indica, el contenido son cifras o nmeros. Por ejemplo, una coleccin de resultados de anlisis de laboratorio, entre otras.

Bases de datos de texto completo


Almacenan las fuentes primarias, como por ejemplo, todo el contenido de todas las ediciones de una coleccin de revistas cientficas.

MTI. ROSY CHI

Segn el contenido
Directorios
Un ejemplo son las guas telefnicas en formato electrnico.

Bases de datos o "bibliotecas" de informacin qumica o biolgica


Son bases de datos que almacenan diferentes tipos de informacin proveniente de la qumica, las ciencias de la vida o mdicas

MTI. ROSY CHI

Segn el contenido

Se pueden considerar en varios subtipos:


Las que almacenan secuencias de nucletidos o protenas.

Las bases de datos de rutas metablicas. Bases de datos de estructura, comprende los registros de datos experimentales sobre estructuras 3D de biomolculas

Bases de datos clnicas.


Bases de datos bibliogrficas (biolgicas, qumicas, mdicas y de otros campos)

MTI. ROSY CHI

Modelos de bases de datos

MTI. ROSY CHI

Modelos de bases de datos

Adems de la clasificacin por la funcin de las bases de datos, stas tambin se pueden clasificar de acuerdo a su modelo de administracin de datos.

MTI. ROSY CHI

.Modelo de Base de Datos


Un modelo de datos es bsicamente una "descripcin" de algo conocido como contenedor de datos (algo en donde se guarda la informacin), as como de los mtodos para almacenar y recuperar informacin de esos contenedores.

Los modelos de datos no son cosas fsicas: son abstracciones que permiten la implementacin de un sistema eficiente de base de datos; por lo general se refieren a algoritmos, y conceptos matemticos.

Algunos modelos con frecuencia utilizados en las bases de datos:

MTI. ROSY CHI

Bases de datos jerrquicas


En este modelo los datos se organizan en forma de rbol invertido (algunos dicen raz), en donde un nodo padre de informacin puede tener varios hijos. El nodo que no tiene padres es llamado raz, y a los nodos que no tienen hijos se los conoce como hojas. Las bases de datos jerrquicas son especialmente tiles en el caso de aplicaciones que manejan un gran volumen de informacin y datos muy compartidos permitiendo crear estructuras estables y de gran rendimiento. Una de las principales limitaciones de este modelo es su incapacidad de representar eficientemente la redundancia de datos.

Base de datos de red


ste es un modelo ligeramente distinto del jerrquico; su diferencia fundamental es la modificacin del concepto de nodo: se permite que un mismo nodo tenga varios padres (posibilidad no permitida en el modelo jerrquico). Fue una gran mejora con respecto al modelo jerrquico, ya que ofreca una solucin eficiente al problema de redundancia de datos; pero, an as, la dificultad que significa administrar la informacin en una base de datos de red ha significado que sea un modelo utilizado en su mayora por programadores ms que por usuarios finales.

Algunos modelos con frecuencia utilizados en las bases de datos:


Bases de datos relacionales

MTI. ROSY CHI

Bases de datos transaccionales Son bases de datos cuyo nico fin es el envo y recepcin de datos a grandes velocidades, estas bases son muy poco comunes y estn dirigidas por lo general al entorno de anlisis de calidad, datos de produccin e industrial, es importante entender que su fin nico es recolectar y recuperar los datos a la mayor velocidad posible, por lo tanto la redundancia y duplicacin de informacin no es un problema como con las dems bases de datos, por lo general para poderlas aprovechar al mximo permiten algn tipo de conectividad a bases de datos relacionales. Un ejemplo habitual de transaccin es el traspaso de una cantidad de dinero entre cuentas bancarias. Normalmente se realiza mediante dos operaciones distintas, una en la que se decrementa el saldo de la cuenta origen y otra en la que incrementamos el saldo de la cuenta destino. Para garantizar la atomicidad del sistema (es decir, para que no aparezca o desaparezca dinero), las dos operaciones deben ser atmicas, es decir, el sistema debe garantizar que, bajo cualquier circunstancia (incluso una cada del sistema), el resultado final es que, o bien se han realizado las dos operaciones, o bien no se ha realizado ninguna.

ste es el modelo utilizado en la actualidad para modelar problemas reales y administrar datos dinmicamente. Tras ser postulados sus fundamentos en 1970 por Edgar Frank Codd, de los laboratorios IBM en San Jos (California), no tard en consolidarse como un nuevo paradigma en los modelos de base de datos. Su idea fundamental es el uso de "relaciones". Estas relaciones podran considerarse en forma lgica como conjuntos de datos llamados "tuplas". Pese a que sta es la teora de las bases de datos relacionales creadas por Codd, la mayora de las veces se conceptualiza de una manera ms fcil de imaginar. Esto es pensando en cada relacin como si fuese una tabla que est compuesta por registros (las filas de una tabla), que representaran las tuplas, y campos (las columnas de una tabla). En este modelo, el lugar y la forma en que se almacenen los datos no tienen relevancia (a diferencia de otros modelos como el jerrquico y el de red). Esto tiene la considerable ventaja de que es ms fcil de entender y de utilizar para un usuario espordico de la base de datos. La informacin puede ser recuperada o almacenada mediante "consultas" que ofrecen una amplia flexibilidad y poder para administrar la informacin. El lenguaje ms habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language o Lenguaje Estructurado de Consultas, un estndar implementado por los principales motores o sistemas de gestin de bases de datos relacionales.

Algunos modelos con frecuencia utilizados en las bases de datos:


Bases de datos orientadas a objetos

MTI. ROSY CHI

Bases de datos multidimensionales Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creacin de Cubos OLAP. Bsicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podra serlo tambin en una base de datos multidimensional), la diferencia est ms bien a nivel conceptual; en las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien representan mtricas que se desean estudiar.

Este modelo, bastante reciente, y propio de los modelos informticos orientados a objetos, trata de almacenar en la base de datos los objetos completos (estado y comportamiento). Una base de datos orientada a objetos es una base de datos que incorpora todos los conceptos importantes del paradigma de objetos: Encapsulacin - Propiedad que permite ocultar la informacin al resto de los objetos, impidiendo as accesos incorrectos o conflictos. Herencia - Propiedad a travs de la cual los objetos heredan comportamiento dentro de una jerarqua de clases. Polimorfismo - Propiedad de una operacin mediante la cual puede ser aplicada a distintos tipos de objetos. En bases de datos orientadas a objetos, los usuarios pueden definir operaciones sobre los datos como parte de la definicin de la base de datos. Una operacin (llamada funcin) se especifica en dos partes. La interfaz (o signatura) de una operacin incluye el nombre de la operacin y los tipos de datos de sus argumentos (o parmetros). La implementacin (o mtodo) de la operacin se especifica separadamente y puede modificarse sin afectar la interfaz. Los programas de aplicacin de los usuarios pueden operar sobre los datos invocando a dichas operaciones a travs de sus nombres y argumentos, sea cual sea la forma en la que se han implementado. Esto podra denominarse independencia entre programas y operaciones.

Algunos modelos con frecuencia utilizados en las bases de datos:

MTI. ROSY CHI

Bases de datos documentales Permiten la indexacin a texto completo, y en lneas generales realizar bsquedas ms potentes. Tesaurus es un sistema de ndices optimizado para este tipo de bases de datos.

Bases de datos deductivas

Un sistema de base de datos deductiva, es un sistema de base de datos pero con la diferencia de que permite hacer deducciones a travs de inferencias. Se basa principalmente en reglas y hechos que son almacenados en la base de datos. Las bases de datos deductivas son tambin llamadas bases de datos lgicas, a raz de que se basa en lgica matemtica. Este tipo de base de datos surge debido a las limitaciones de la Base de Datos Relacional de responder a consultas recursivas y de deducir relaciones indirectas de los datos almacenados en la base de datos.

MTI. ROSY CHI

BASE DE DATOS PERSONALES

TECNOLOGIA DE BASE DE DATOS

MTI. ROSY CHI

BASE DE DATOS PERSONALES

Son colecciones de datos que integran informacin de personas, tales como su nombre, su RFC, su direccin, su telfono, su estado civil, su correo, entre otras.

Estas Bases de Datos se encuentran y deben estar protegidas por la Ley de Datos Personales para que no se haga mal uso de ellas

MTI. ROSY CHI

BASE DE DATOS CORPORATIVAS

TECNOLOGIA DE BASE DE DATOS

MTI. ROSY CHI

BASE DE DATOS CORPORATIVAS

Son colecciones de datos que la empresa integra en diferentes bases de datos.

Estas colecciones involucran a clientes, proveedores, productos, entre otros.

Con estas bases de datos, las organizaciones pueden construir sistemas de informacin para la toma de decisiones o ERP

MTI. ROSY CHI

MTI. ROSY CHI

DATAWAREHOUSE

TECNOLOGIA DE BASE DE DATOS

MTI. ROSY CHI

Datawarehouse o Almacn de Datos


En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea).

El almacenamiento de los datos no debe usarse con datos de uso actual.

Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

MTI. ROSY CHI

Caractersticas de un Data Warehouse

1. Orientado a temas
Orientado a los temas principales de la organizacin. La informacin se clasifica en funcin de los aspectos que son de inters para la organizacin. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales. Por ejemplo, tenemos informacin que proviene de los datos operacionales de distintas reas como son: prestamos, ahorros, nminas y crditos. Pues los temas que nos pueden interesar son: clientes, productos, vendedores y actividad.

2. Integrado
En un sistema operacional no hay integracin, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integracin se muestra de diferentes maneras: consistencia en codificacin de estructuras, en unidades de medida de las variables, en mltiples fuentes, en convenciones de nombres, en atributos fsicos de los datos etc

MTI. ROSY CHI

Caractersticas de un Data Warehouse


3. Variante en el tiempo
En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la informacin almacenada en el Data Warehouse refleja un histrico de los datos en un horizonte de tiempo mucho ms amplio (del orden de aos). De esta forma podemos detectar tendencias en el tiempo.

4. No voltil
El Data Warehouse existe para ser ledo y no para ser modificado, la informacin es por tanto permanente, la actualizacin del Data Warehouse significa la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l, sin ningn tipo de accin sobre lo que ya exista. Los datos ms recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle. Por ejemplo: en el ao actual se guardaran las ventas diarias de los diferentes artculos, mientras que los datos anteriores se mantendran accesibles de manera agregada.

MTI. ROSY CHI

MTI. ROSY CHI

DATAMART

TECNOLOGIA DE BASE DE DATOS

MTI. ROSY CHI

Data marts

Los Data marts son subconjuntos de datos de un data warehouse para reas especficas.

MTI. ROSY CHI

Data marts

Usuarios limitados.

rea especfica.

Tiene un propsito especfico.

Tiene una funcin de apoyo.

MTI. ROSY CHI

CUBOS DE INFORMACIN

UNIDAD 4.

MTI. ROSY CHI

Cubos de informacin

Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada.

El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional.

MTI. ROSY CHI

Cubos de informacin

MTI. ROSY CHI

VARIABLES Y DIMENSIONES

A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados.

Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad.

Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

MTI. ROSY CHI

Dimensiones

Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones).

Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc.

Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.

MTI. ROSY CHI

Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados.

Forman parte de la tabla de hechos.

Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar.

Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido.

En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...

Ejemplos

MTI. ROSY CHI

Ejemplos de variables podran ser:


Beneficios Gastos Ventas etc.

Ejemplos de dimensiones podran ser:


producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc.

MTI. ROSY CHI

DATAMINING

TECNOLOGIA DE BASE DE DATOS

MTI. ROSY CHI

Data Mining o Minera de Datos

es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos.

MTI. ROSY CHI

Data Mining o Minera de Datos

El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y gestin de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, mtricas de Intereses, consideraciones de la Teora de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualizacin y actualizacin en lnea.

MTI. ROSY CHI

Data Mining

El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas),

pero tambin se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial , aprendizaje automtico y la inteligencia empresarial.

MTI. ROSY CHI

Un proceso tpico de minera de datos consta de los siguientes pasos generales:


1.Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles.

2.Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).

3.Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos.

MTI. ROSY CHI

proceso tpico de minera de datos

4.Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin.

5.Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. 6.Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

MTI. ROSY CHI

PROTOCOLO DE UN PROYECTO DE MINERA DE DATOS

Unidad 4. Tecnologa de Base de Datos

Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:

MTI. ROSY CHI

Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos.

Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar.

MTI. ROSY CHI

Tcnicas de minera de datos

MTI. ROSY CHI

Las tcnicas ms representativas son: Redes neuronales

Regresin lineal
rboles de decisin Modelos estadsticos Agrupamiento o Clustering

Reglas de asociacin

MTI. ROSY CHI

Las tcnicas ms representativas son:


Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:
El Perceptrn El Perceptrn multicapa Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen.

Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables.

MTI. ROSY CHI

Las tcnicas ms representativas son:


rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:
Algoritmo ID3 Algoritmo C4.5

Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta.

MTI. ROSY CHI

Las tcnicas ms representativas son:


Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:
Algoritmo K-means Algoritmo K-medoids

Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos.

MTI. ROSY CHI

EJEMPLOS DE USO DE LA MINERA DE DATOS

MTI. ROSY CHI

Ejemplos de uso de la minera de datos


Negocios Anlisis de gases Hbitos de compra en supermercados Patrones de fuga

Ingeniera elctrica

Gentica

Fraudes

Ciencia e Ingeniera

Recursos humanos

Juegos Terrorismo

Comportamiento en Internet

You might also like