Professional Documents
Culture Documents
Galo Valverde L
Índice
hMAP ≡ argmaxP(h∣D)
7
Semántica
Por ejemplo,
P(d ∧ A=equilibrada ∧ S=alta ∧ ¬f ∧ ¬i) = ?
= P(d) P(A=equilibrada) P(S=alta|d, A=equilibrada) P(¬f) P(¬i|S=alta, ¬f)
Árboles de decisión
Un árbol de decisión es un mapa de los posibles
resultados de una serie de decisiones
relacionadas.
Permite que un individuo o una organización
comparen posibles acciones entre sí según sus
costos, probabilidades y beneficios.
Se pueden usar para dirigir un intercambio de
ideas informal o trazar un algoritmo que anticipe
matemáticamente la mejor opción.
• Un árbol de decisión, por lo general, comienza con un único nodo y luego se ramifica en resultados
posibles. Cada uno de esos resultados crea nodos adicionales, que se ramifican en otras posibilidades.
Esto le da una forma similar a la de un árbol.
• Hay tres tipos diferentes de nodos: nodos de probabilidad, nodos de decisión y nodos terminales. Un
nodo de probabilidad, representado con un círculo, muestra las probabilidades de ciertos resultados.
Un nodo de decisión, representado con un cuadrado, muestra una decisión que se tomará, y un nodo
terminal muestra el resultado definitivo de una ruta de decisión.
Ejercicio: Árbol de Decisión
El grupo de diseño del producto de Flores Electric Supplies, Inc., ha determinado que
necesita diseñar una nueva serie de interruptores. Debe decidirse por una de las tres
estrategias de diseño. El pronóstico del mercado es para 200 unidades. Cuanto mejor y
más sofisticada sea la estrategia de diseño y mayor el tiempo invertido en ingeniería de
valor, menor será el costo variable.
El jefe de ingeniería de diseño, Dr. W. L. Berry, decidió que los siguientes costos son una
buena estimación de los costos iniciales y variables relacionados con cada una de las tres
estrategias:
1. Baja tecnología: proceso con poca tecnología y bajo costo que consiste en contratar a nuevos
ingenieros con poca experiencia. Esta posibilidad tiene un costo de $45,000 y probabilidades de
costo variable de 0.3 para $0.55 cada uno, 0.4 para $0.50, y .3 para $0.45.
2. Subcontrato: enfoque de mediano costo que emplea un buen equipo de diseño externo. Esta
alternativa tendría un costo inicial de $65,000 y probabilidades de costo variable de 0.7 para $0.45
cada uno, 0.2 para $0.40, y 0.1 para $0.35.
3. Alta tecnología: enfoque de alta tecnología en el que se usa lo mejor del personal interno y la más
moderna tecnología de diseño asistido por computadora. Esta alternativa tiene un costo inicial de
$75,000 y probabilidades de costo variable de 0.9 para $.40 y 0.1 para $0.35.
¿Cuál es la mejor decisión con base en un criterio de valor monetario esperado (VME)?
(Nota: Queremos el VME más bajo puesto que se manejan costos en este problema).
Planteamiento
Resolución
200
Costos Costo Costo
Alternativa CV Total
Fijos Variable Total
1 Baja Tecnología $ 45,00 0,55 $ 110,00 $ 155,00
2 $ 45,00 0,50 $ 100,00 $ 145,00
3 $ 45,00 0,45 $ 90,00 $ 135,00
4 Subcontrato $ 65,00 0,45 $ 90,00 $ 155,00
5 $ 65,00 0,40 $ 80,00 $ 145,00
6 $ 65,00 0,35 $ 70,00 $ 135,00
7 Alta Tecnología $ 75,00 0,40 $ 80,00 $ 155,00
8 $ 75,00 0,35 $ 70,00 $ 145,00
Ejercicio Grupo
Un gerente está tratando de decidir si debe comprar una máquina o dos. Si compra
sólo una y la demanda resulta ser excesiva, podría adquirir después la segunda
máquina. Sin embargo, perdería algunas ventas porque el tiempo que implica la
fabricación de este tipo de máquinas es de seis meses. Además, el costo por máquina
sería más bajo si comprara las dos al mismo tiempo. La probabilidad de que la
demanda sea baja se ha estimado en 0.30. El valor presente neto, después de
impuestos, de los beneficios derivados de comprar las dos máquinas a la vez es de
$90,000 si la demanda es baja, y de $170,000 si la demanda es alta.
Si se decide comprar una máquina y la demanda resulta ser baja, el valor presente
neto sería de $120,000. Si la demanda es alta, el gerente tendrá tres opciones. La de
no hacer nada tiene un valor presente neto de $120,000; la opción de subcontratar,
$140,000; y la de comprar la segunda máquina, $130,000.
1. Dibuje un árbol de decisiones para este problema.
2. ¿Cuántas máquinas debe comprar la compañía inicialmente? ¿Cuál es el beneficio esperado de
esta alternativa?
Regla de Bayes
De la definición de probabilidad condicional
se puede deducir:
B1 B3 B4
P(B | A) = P(B) P(A | B) / P(A), dado P(A) > 0
Esto permite “invertir” las probabilidades,
por ejemplo obtener la P de una enfermedad B2 A
B5
dado un síntoma, con conocimiento de la P
de los síntomas dado que alguien tiene cierta
enfermedad
Dada una partición, B, de S, la probabilidad
de un evento A se puede obtener como:
P(A) = Si P(A | Bi ) P(Bi)
Eventos independientes
Dos eventos son independientes
si la ocurrencia de uno no altera
la probabilidad de ocurrencia A B
del otro:
P(A | B) = P(A) ó
D E
P(B | A) = P(B) C
Lo que es equivalente a: Pa(A) =
P(A B) = P(A) P(B) Pa(B) =
F G Pa(C) = A
Independientes mutuamente Pa(D) = A, B
exclusivos Pa(E) = B
Pa(F) = C, D
Pa(G) = D
Variables Aleatorias
A cada evento A se le asigna un valor numérico X(A) = k, de forma
que a cada valor le corresponde una probabilidad P(X = k)
X es una variable aleatoria
Ejemplos:
X = Número de águilas en N lanzamientos
Y = Número del dado al lanzarlo
Z = Valor de lectura de un sensor
Tipos de Variables Aleatorias
Variables discretas: p(X): Discretas: el número de valores de X
p(X) 0 (rango) es finito o contablemente finito
S p(X) = 1
Variables continuas: f(x): Continua: puede asumir todos los
posibles valores en cierto intervalo a – b ,
f(x) 0 ejemplos:
f(x) = 1 X = temperatura ambiente
Y = tiempo en el que falle cierto dispositivo
Z = distancia del robot a la pared
Estadísticas
Moda: valor de mayor probabilidad
Mediana: valor medio (divide el área en 2)
Promedio: valor “esperado”:
Motor D Motor I
E(X) = Sx X p(X)
Varianza: dispersión
s 2(X) = Sx (X – E(X))2 p(X) posición
Desviación estándar
s(X) = s 2
odometro sensor
Formulación
Muchos problemas se pueden formular como un conjunto de variables
sobre las que tenemos cierta información y queremos obtener otra, por
ejemplo:
Diagnóstico médico o industrial
Percepción (visión, voz, sensores)
Clasificación (bancos, empleadores, ...)
Modelado de estudiantes, usuarios, etc.
Desde el punto de vista de probabilidad se puede ver como:
Un conjunto de variables aleatorias: X1, X2, X3, ...
Cada variable es generalmente una partición del espacio
Cada variable tiene una distribución de probabilidad (conocida o desconocida)
Variables y Particiones
B1 B3 B4
B2
B5
A1 A2 A3
Cadena de Razonamiento
Permite analizar cómo de sensibles son los nodos a
los cambios en la evidencia
Sobre la red completa:
Explicación automática
Expandiendo los nodos
Sobre una variable V seleccionada por el usuario:
Se muestran los resultados de
P(vk|e)/P(vk) para cada estado vk de V
Muestran cómo se propaga la evidencia a través de
la red y el efecto que esta tiene sobre los nodos de
los caminos desde la evidencia hasta una variable
determinada.
Los nodos de estos caminos se relacionan
dependiendo de la influencia de la evidencia.
Ejemplo:
Se hizo una encuesta a un grupo grande de personas donde se les
preguntaba el genero y si ellos practicaban algún deporte o hacían
ejercicio en general, los resultados de la encuesta fueron los siguientes:
el 40% por ciento de los encuestados eran hombres (A) y el 60% eran
mujeres (B), de los cuales el 80% de los hombres (D) y el 50% de las
mujeres hacían ejercicios (D).
¿Cuál es la probabilidad de que al seleccionar
a una persona al azar esta sea hombre y a la
vez haga ejercicio? p(HnE) = A*D =32%
Bayes: ¿Cuál es la probabilidad que si se
selecciona a alguien que haga ejercicios, esta
sea hombre? p(D|A) = 51,61%
Ejercicio
En una fábrica de latas se producen latas de dos tamaños, de 25 ml y de 40
ml, si se sabe que hacen la misma cantidad de ambas latas y que un 1% de
las latas de 25ml y un 4% de las latas de 40ml salen defectuosas
¿Cuál es la probabilidad que al seleccionar una lata de las defectuosas al
azar, esta sea de 40ml?
Ejercicio
En las elecciones de un país hay 2 candidatos a la presidencia, el candidato
A y el candidato B, y en los resultados de las selecciones de este país se
sabe que un 75% de la población es de clase media o baja y un 25% es de
clase alta, si por el candidato A votó un 90% de la clase alta y un 5% de la
clase media y baja, y se elige una persona al azar de los que votaron por el
candidato A
¿Cuál es la probabilidad que este sea de la clase media o baja?
Ejm. Probabilidades condicionales
Supongamos que nos hicimos un estudio y
nos ha dado positivo para una rara
enfermedad que solo el 0.3 % de la población
tiene.
La tasa de efectividad de este estudio es del
99 %, es decir, que solo da falsos positivos en
el 1 % de los casos.
¿Cuán probable es que realmente tengamos
la enfermedad?
¿Qué es Naïve Bayes?
El clasificador Naive Bayes es un algoritmo de
clasificación simple y efectivo que ayuda en el
desarrollo de modelos de aprendizaje automático
rápido que pueden hacer predicciones precisas.
Es un clasificador probabilístico, lo que significa que
hace predicciones basadas en la probabilidad de un
objeto.
https://colab.research.google.com/drive/1WoF4zrzpg1ivMK3cUgfjCq9XGqpqnzA6#
scrollTo=wWWfdsbsUj3c
Probabilidad Condicional
Una medida de la posibilidad de que ocurra un
evento si ya ha ocurrido otro evento se
llama probabilidad condicional (por suposición,
presunción, afirmación o evidencia).
Probabilidad posterior (P(A|B)): es la
probabilidad de la hipótesis A sobre el evento
observado B.
Probabilidad de verosimilitud P(B|A): significa
Verosimilitud, que es la probabilidad de la
evidencia siempre que la probabilidad de una
hipótesis sea verdadera.
Probabilidad Previa (P(A)): es la probabilidad Lo que nos dice qué tan probable es A si ocurre B, escrito
P(A|B), también conocido como probabilidad posterior.
de una hipótesis antes de ver la evidencia.
Probabilidad Marginal P(B): significa Cuando sabemos con qué frecuencia ocurre B cuando
Probabilidad de Probabilidad Marginal de ocurre A, escrito P(B|A), y qué probabilidad hay de que A
esté solo, escrito P(A), y qué tan probable es que B esté solo,
Evidencia. escrito P(B), sabemos puede escribir P(B|A) (B).
Teorema de Bayes aplicado a estimación
de un sólo parámetro
In [1]: # Ejemplo
a_priori = 0.003
likelihood = 0.99
evidencia = 0.01 La probabilidad de estar realmente enfermo
es de sólo 30 % y no de 99 %, ya que
podemos ser uno de los falsos positivos del
a_posteriori = likelihood * a_priori / evidencia estudio y la enfermedad es realmente muy
rara.
https://colab.research.google.com/drive/1e1NPSAokpmRKepnvlRngW_Heoprx-ZYE#scrollTo=KQ_TKWjr3Ciu&line=7&uniqifier=1
Ejemplo -Naive Rojo
Consideremos el caso de dos compañeros que trabajan en la misma oficina: Alicia
y Bruno. Sabemos que:
Alicia viene a la oficina 3 días a la semana.
Bruno viene a la oficina 1 día a la semana.
Estamos en la oficina y vemos pasar delante de nosotros a alguien muy rápido,
tan rápido que no sabemos si es Alicia o Bruno.
Dada la información que tenemos hasta ahora y asumiendo que solo trabajan 4
días a la semana, las probabilidades de que la persona vista sea Alicia o Bruno,
son:
P(Alicia) = 3/4 = 0.75
P(Bruno) = 1/4 = 0.25
Cuando vimos a la persona pasar, vimos que él o ella llevaba una chaqueta roja.
También sabemos lo siguiente:
Alicia viste de rojo 2 veces a la semana.
Bruno viste de rojo 3 veces a la semana.
Así que, para cada semana de trabajo, que
tiene cinco días, podemos inferir lo
siguiente:
La probabilidad de que Alicia vista de rojo es →
P(Rojo|Alicia) = 2/5 = 0.4
La probabilidad de que Bruno vista de rojo →
P(Rojo|Bruno) = 3/5 = 0.6
Topología de Red
La estructura o topología de la
red debe captar las relaciones
cualitativas entre las variables.
En particular, dos nodos deben
conectarse directamente si uno
afecta o causa al otro, con la
arista indicando la dirección del
efecto.
Algoritmo Naive Bayes Supervisado
https://colab.research.google.com/drive/1MIE-
DDm0uagwoW8o02jG4O3MSSPLGlLO#scrollTo=DwvonC
gyFZ8O
Ejemplo: Diagnóstico médico
En el ejemplo de diagnóstico médico,
podríamos preguntarnos qué factores
afectan la probabilidad de tener cáncer.
Si la respuesta es "Contaminación y
Fumar", entonces deberíamos agregar
aristas desde "Contaminación" y desde
"Fumador" hacia el nodo "Cáncer".
Del mismo modo, tener cáncer afectará la
respiración del paciente y las posibilidades
de tener un resultado positivo de rayos X.
Por lo tanto, también podemos agregar
aristas de "Cáncer" a "Disnea" y "RayosX".
Ejemplo: Diagnóstico médico
Una vez que tenemos definida la
estructura de la red bayesiana, el
siguiente paso es cuantificar las
relaciones entre los nodos
interconectados; esto se hace
especificando una probabilidad
condicional para cada nodo.
Primero, para cada nodo necesitamos
mirar todas las posibles
combinaciones de valores de los
nodos padres.
Taller Deporte P(D)
Alimentación P(A)
no equilibrada 0.6
no 0.9
=P(Infarto = sí | Presión = alta, Fumador = sí) P(Presión = alta alta no 0.7 0.3
| Deporte = sí, Alimentación = equil.) P(Fumador = sí )
norm. no 0.3 0.7
P(Deporte = sí) P(Alimentación = equil.)
= 0,8 × 0,01 × 0,4 × 0,1 × 0,4
= 0,000128
Referencias Bibliográficas
Russell, S. y Norvig, P. Inteligencia artificial: Un enfoque moderno (segunda
edición) (Prentice Hall, 2004). • Cap. 3: “Solución de problemas mediante
búsqueda”
Luger, G.F. Artificial Intelligence (Structures and Strategies for Complex
Problem Solving (4 edition) (Addison–Wesley, 2002) • Cap. 3: “Structure and
strategies for state space search”
“Inteligencia Artificial: Resolución de problemas, algoritmos de búsqueda”,
Javier Béjar
http://www.bubok.es/libros/2050/inteligencia-artificial-resolucion-de-
problemas-algoritmos-de-busqueda
“Inteligencia en Redes de Telecomunicaciones”, Villena, Crespo, 2012
https://medium.com/datos-y-ciencia/algoritmos-naive-bayes-fudamentos-e-
implementaci%C3%B3n-
4bcb24b307f#:~:text=La%20ecuaci%C3%B3n%20Naive%20Bayes%20se,el%20
resultado%20de%20la%20predicci%C3%B3n.