You are on page 1of 29

Datos y objetos

simblicos

Anlisis multidimensional de datos

Anlisis multidimensional
de datos (AMD)
Anlisis multidimensional clsico: se estudian
conjuntos de objetos individuales
representados por elementos atmicos de
datos.

Anlisis multidimensional
de datos
Describir cualquier situacin, por ejemplo, las
caractersticas fsicas de una persona, la situacin poltica
en un pas, las propiedades de una imagen, el
rendimiento de un proceso, el anlisis de una obra de
arte, requiere tener en cuenta simultneamente varias
variables. Para describir las caractersticas fsicas de una
persona podemos utilizar variables como su estatura, su
peso, la longitud de sus brazos y de sus piernas, etc. Para
describir la situacin poltica de un pas, variables como
la existencia o no de un rgimen democrtico, el grado
de participacin poltica de los ciudadanos, el nmero de
partidos y sus afiliados, etc. El anlisis de datos
multivariantes tienen por objeto el estudio de varias
variables evaluadas en unidades de anlisis de una
poblacin. Pretende los siguientes objetivos:

Objetivos del anlisis


multivariado
Resumir el conjunto de variables en una pocas nuevas variables,
construidas como transformaciones de las originales, con la
mnima prdida de informacin .

Por ejemplo, el crecimiento de los precios en una economa se resume


en un ndice de precios, la calidad de una universidad o de un
departamento se resume en unos pocos indicadores y las dimensiones
del cuerpo humano se resumen en la ropa de confeccin en unas pocas
variables indicadoras del conjunto. Disponer de estas indicadores tiene
varias ventajas: (1) si son pocas podemos representarlas grficamente
y comparar distintos conjuntos de datos o instantes en el tiempo; (2)
simplifican el anlisis al permitir trabajar con un nmero menor de
variables; (3) si las variables indicadoras pueden interpretarse,
podemos mejorar nuestro conocimiento de la realidad estudiada. El
anlisis multivariante de datos proporciona mtodos objetivos para
conocer cuntas variables indicadoras, que a veces se denomina
factores, son necesarias para describir una realidad compleja y
determinar su estructura.

Objetivos del anlisis


multivariado
Encontrar grupos en los datos si existen.
Si observamos un conjunto de variables en un estudio
sobre empresas, esperamos que los datos indiquen una
divisin de las empresas en grupos en funcin de su
rentabilidad, su eficacia comercial o su estructura
productiva.

En muchas situaciones los grupos son desconocidos a


priori y queremos disponer de un procedimiento objetivo
para obtener los grupos existentes y clasificar las
observaciones.

Objetivos del anlisis


multivariado
Clasificar nuevas observaciones en grupos
definidos.
los grupos estn bien definidos a priori y queremos clasificar nuevas
observaciones. Por ejemplo, queremos clasificar a clientes que
solicitan crditos como fiables o no, personas como enfermas o no, o
disear una mquina que clasifique monedas o billetes en clases
prefijadas.

Para alcanzar estos tres objetivos una herramienta importante


es entender la estructura de dependencia entre las variables,
ya que las relaciones entre las variables son las que permiten
resumirlas en variables indicadoras, encontrar grupos no
aparentes por las variables individuales o clasificar en casos
complejos. Un problema distinto es relacionar dos conjuntos
de variables. Por ejemplo, podemos disponer de un conjunto
de variables de capacidad intelectual y otros de resultados
profesionales y queremos relacionar ambos conjuntos de
variables. En particular, los dos grupos de variables pueden
corresponder a las mismas variables medidas en dos
momentos distintos en el tiempo o en el espacio y queremos
ver la relacin entre ambos conjuntos.

Las tcnicas de anlisis multivariante tienen


aplicaciones en todos los campos cientficos y
comenzaron desarrollndose para resolver
problemas de clasificacin en Biologa, se extendieron para encontrar variables indicadoras
y factores en Psicometra, Marketing y las
Ciencias sociales y han alcanzado una gran
aplicacin en Ingeniera y Ciencias de la
computacin como herramientas para resumir
la informacin y disear sistemas de
clasificacin automtica y de reconocimiento
de patrones

Administracin de Empresas: Construir tipologas de clientes. Agricultura: Clasificar


terrenos de cultivo por fotos areas.
Arqueologa: Clasificar restos arqueolgicos.
Biometra: Identicar los factores que determinan la forma de un organismo vivo.
Ciencias de la Computacin: Disear algoritmos de clasificacin automtica.
Ciencias de la Educacin: Investigar la efectividad del aprendizaje a distancia.
Ciencias del medio ambiente: Investigar las dimensiones de la contaminacin ambiental.
Documentacin: Clasificar revistas por sus artculos y construir indicadores bibliomtricos.
Economa: Identificar las dimensiones del desarrollo econmico.
Geologa: Clasificar sedimentos.
Historia: Determinar la importancia relativa de los factores que caracterizan los periodos
prerevolucionarios.
I
Ingeniera: Transmitir ptimamente seales por canales digitales.
Lingstica: Encontrar patrones de asociacin de palabras.
Medicina: Identificar tumores mediante imgenes digitales.
Psicologa: Determinar los factores que componen la inteligencia humana
Sociologa y Ciencia Poltica: Construir tipologas de los votantes de un partido.

DESCRIPCIN DE DATOS
MULTIVARIANTES
La informacin de partida para los mtodos estudiados puede
ser de varios tipos.
La ms habitual es una tabla donde aparecen los valores de p
variables observadas sobre n elementos. Las variables pueden
ser cuantitativas, cuando su valor se exprese numricamente,
como la edad de una persona, su estatura o su renta, o
cualitativas, cuando su valor sea un atributo o categora,
como el gnero, el color de los ojos o el municipio de
nacimiento. Las variables cuantitativas pueden a su vez
clasificarse en continuas o de intervalo, cuando pueden tomar
cualquier valor real en un intervalo, como la estatura, o
discretas, cuando slo toman
valores enteros, como el nmero de hermanos. Las variables
cualitativas pueden clasificarse en binarias, cuando toman
nicamente dos valores posibles, como el gnero (mujer,
hombre) o generales, cuando toman muchos valores posibles,
como el municipio de residencia.

Ejemplo
En 100 estudiantes de una universidad medimos la edad, el gnero (1 mujer,
0 hombre), la calificacin media, el municipio de residencia (que se codifica
en 4 categoras en funcin del tamao) y el curso ms alto en que se
encuentra matriculado. Los datos iniciales se representan en una tabla de
100 filas, cada una de ellas correspondiente a los datos de un estudiante. La
tabla tendr 5 columnas, cada una de ellas conteniendo los valores de una de
las 5 variables definidas. De estas 5 variables 3 son cuantitativas, una binaria
(el gnero) y otra cualitativa general (municipio de residencia, que tomar los
valores 1, 2, 3, y 4). Alternativamente podramos codificar el municipio de
residencia con tres variables binarias, y entonces, la matriz de datos tendr n
=100 filas y p = 7 columnas correspondientes a las tres cuantitativas, el
gnero, y las tres variables binarias adicionales para describir el tamao del
municipio de residencia.

Ejemplo
En 400 puntos de una ciudad instalamos controles
que proporcionan cada hora las medidas de 30
variables ambientales y de contaminacin
atmosfrica en dicho punto. Cada hora tendremos
una matriz de datos con 400 filas, los puntos de
observacin, y 30 columnas, las 30 variables
observadas.

Objeto simblico
Modo de representacin de
datos complejos.
Surge de analizar diferentes
bases de datos

Datos y objetos
simblicos
Tradicionalmente se
representan las UA como
entidades simples y las
variables adoptando un valor
o categora en cada individuo

Datos y objetos simblicos


Los valores de las variables pueden no ser
atmicos
Grupo de valores, un intervalo de valores o una
distribucin de probabilidad

Ejemplo:
La variable y: tiempo dedicado a la prctica
de deporte.
Evaluada como el nmero de minutos
dedicados a la prctica del deporte por da

Un objeto simblico
puede describir:
Un grupo
Una clase de entidades

Ejemplo Tabla simblica:


SEXO

EDAD

PROFESIN

OS1

{Mujer 0,33
Varn 0,67}

[25,57]

{Profesionales
0,35, personal
directivo 0,25,
jefes administ.
0,4}

OS2

[mujer 0,50
Varn 0,50}

[18.42]

{comerciantesvendedores
0,55;
administrativos
0,45}

Datos simblicos relativos


a las variables sexo,
residencia y estado civil

Diagrama de Diday

P()

P()

: conjunto de unidades de anlisis


descripcin de los elementos de

y
E

D
h

Y:
Asocia a cualquier w de su descripcin
D: conjunto de descripcin de subconjunto de

OS: es un conjunto de propiedades


concernientes
a un subconjunto de

Ejemplo

(Patricia Calvo, Cristina Prado, Yolanda Prez, Marina Ayestarn;


Eustat, Instituto Vasco de Estadstica):

A partir de la informacin obtenida acerca de los accidentes de trfico


y sus posibles causas se crean 18 objetos simblicos en funcin de
Factores concurrentes al accidente y en funcin de su gravedad.
Las nueve modalidades que corresponden a los factores concurrentes
son: distraccin, infraccin-velocidad, alcohol-drogas, mal estado del
vehculo, mal estado del camino, meteorologa adversa, cansancioenfermedad, inexperiencia, otros no definidos.
En cuanto a la gravedad del accidente se diferencian dos modalidades
Segn haya habido muertos o no.
Dos modalidades que al cruzar con los nueve anteriores crea dieciocho
objetos simblicos.

Uno de esos objetos simblicos se expresa por el siguiente bloque


de texto:
"alcohol-drogas con muertos"(16) =

[epoca ={"primavera"(0.0625),"invierno"(0.25), "verano"(0.4375),


"otoo"(0.25)}] ^ [facatmo = {"otros fact.atmos."(0.0625), "con
lluvia"(0.0625), "buen tiempo"(0.875)}] ^ [hora = {"7-9
horas"(0.1875), "16-18"(0.125), "0-6 horas"(0.0625), "2123"(0.25), "10-12 horas"(0.25), "19-20"(0.125)}] ^ [intersec =
{"no en intersec."(1)}] ^ [lumino = {"pleno da"(0.5625), "noche ilum.suf."(0.12
"noche ilum.insuf."(0.1875), "noche sin ilumi."(0.125)}] ^
[superf = {"seca y limpia"(0.875), "mojada"(0.125)}] ^
[tipoacc = {"salida de calzada"(0.1875), "frontal"(0.375), "vuelco"(0.0625),
"atropello"(0.125), "choque con obstculo"(0.125), "otro"(0.125)}] ^[tipodia =
{"laborable"(0.25), "vspera de festivo" (0.375), "festivo"(0.375)}] ^
[tipovia = {"autopista o autova"(0.25), "va convencional"(0.5),
"resto vas"(0.25)}] ^ [zona =
{"variante"(0.0625), "zona urbana"(0.0625), "carretera"(0.875)}]

Diagrama de Kiviatt

You might also like