Professional Documents
Culture Documents
Sesión 2
INTRODUCCIÓN ........................................................................................................................................................ 3
DOMINIO V CONSTRUCCIÓN DE MODELOS ............................................................................................................................ 3
CRISP-DM FASE 5: EVALUACIÓN ............................................................................................................................. 16
DOMINIO VI IMPLEMENTACIÓN ........................................................................................................................................ 16
CRISP-DM FASE 6: IMPLEMENTACIÓN .................................................................................................................... 17
DOMINIO VII GESTIÓN DEL CICLO DE VIDA DEL MODELO ....................................................................................................... 18
BIBLIOGRAFÍA ......................................................................................................................................................... 20
Por otro lado, este talle muestra las similitudes entre la metodología CRISP-DM y JTA, como se muestra a
continuación:
La construcción de modelos está en el centro de cualquier esfuerzo analítico; es el punto culminante de las
actividades de encuadre de problemas analíticos. Los buenos modelos dependen de todos los pasos
anteriores: que enmarcan el problema de la empresa; enmarcar el problema de la analítica; y adquirir,
explorar y depurar los datos. Ahora es el momento de desarrollar un modelo para mostrar los impulsores
clave de sus resultados, pronosticar sus objetivos, determinar el mejor uso de los recursos, etc.
x modelo y
y1
x modelo y2
y3
Modelo
Estocástico dados los datos de entrada y los valores de los
parámetros, el modelo da una salida variable, de modo
que siempre obtenemos un resultado diferente debido
a la aleatoriedad
Modelo determinista: en un modelo determinista, dados los datos de entrada y los valores de los
parámetros, el modelo determina exactamente la salida, de modo que siempre obtengamos el mismo
resultado. Si el modelo determinista describiera perfectamente el sistema ambiental en consideración y no
hubiera incertidumbre o fuente de error, entonces dado el valor de la variable independiente (x) y los
parámetros del modelo, podríamos predecir el valor de la variable dependiente (y) exactamente (es decir,
sin incertidumbre).
Modelo estocástico: en un modelo estocástico, dados los datos de entrada y los valores de los parámetros,
el modelo proporciona una salida variable, de modo que siempre obtenemos un resultado diferente debido
a la aleatoriedad. Si existe alguna incertidumbre en los parámetros de nuestro modelo, entonces
esperaríamos que un valor dado de la variable independiente (x) generara un valor diferente de la variable
dependiente (y) cada vez, ya que el modelo es imperfecto. El modelo estocástico es simplemente el error
en nuestra capacidad para predecir el resultado (variable dependiente) de una entrada en particular. Todos
los modelos estadísticos tienen un componente estocástico.
3. Probabilidad: una probabilidad es una evaluación de la probabilidad de que un evento binario (estado
futuro) tome un lugar, que varía numéricamente de cero (imposibilidad) a uno (certeza).
3.1.1. Supuesto de independencia y regla de multiplicación (determinista, predictiva):
Supongamos que A y B representan estados binarios (verdadero-falso, sí-no, encendido-apagado,
ganar-perder ...) por descubrir. P (A) como la probabilidad A resulta ser cierta, P (B) que B lo hace.
La probabilidad de que B
sea VERDADERO dado La probabilidad de que
que A es VERDADERO A sea VERDADERO
𝑷(𝑩|𝑨) 𝑷(𝑨)
𝑷(𝑨|𝑩) =
𝑷(𝑩)
20 % 80 %
EFFORT EFFORT
80 % 20 %
RESULT RESULT
4. Regresión
7.4.1. Regresión lineal del error por mínimos cuadrados (determinista, descriptiva): cómo
alguna variable (medida de estado) se ve influenciada por los valores de una o más de otras
variables. La variable influenciada se llama dependiente y las otras variables son
independientes o explicativas.
8.1.3. Cadenas de Markov (estocásticas, descriptivas): Sea el estado de una cola el número de
clientes que contiene. El siguiente diagrama de espacio de estados muestra las transiciones
entre estados adyacentes a lo largo del tiempo.
8.1.4. Cola M / M / 1 (estocástico, descriptivo): Supongamos que el servicio se presta por orden
de llegada y que tenemos una capacidad infinita para retener las llegadas hasta que reciben
el servicio.
La primera letra es una abreviatura del proceso de llegada. M significa tiempo de llegada
exponencial, que es otra forma de decir que el proceso de llegada es un proceso de Poisson.
La segunda letra es una abreviatura de la distribución del tiempo de servicio. Por tanto, la
segunda M significa que el tiempo de servicio se distribuye exponencialmente. El tercer
número, 1, es el número de servidores del sistema.
13. El principio de optimización y programación dinámica: Una política óptima tiene la propiedad de que
cualquiera que sea el estado y la decisión iniciales, las decisiones restantes deben constituir esa
política óptima con respecto al estado resultante de la primera decisión. El problema del camino más
corto satisface el Principio de Optimización. La enumeración sistemática de estos valores se llama
dinámica programación.
15. Estudio de caso de optimización de cartera resuelto mediante una variedad de métodos
1. Programa lineal
19. Teoría de la búsqueda: Esta es una estimación conservadora de la probabilidad de éxito de la búsqueda,
y podemos hacerlo mucho mejor si podemos permitirnos realizar una búsqueda exhaustiva. No
obstante, este es un modelo descriptivo útil. Uno de los resultados más simples y elegantes es el
siguiente, conocido como ecuación de búsqueda de área de Koopman.
1. Búsqueda de área (estocástico, predictivo)
20. Modelos de guerra de Lanchester: Este es otro modelo militar desarrollado por el ingeniero británico
FW Lanchester en 1914, y publicado 2 años más tarde, para describir los intercambios de combate entre
fuerzas aéreas opuestas. Se ha utilizado más ampliamente para describir el combate terrestre continuo
entre ejércitos.
1. Ley de fuego dirigido de Lanchester (determinista, predictiva)
2. Ley lineal de fuego de área de Lanchester (determinista, predictiva)
3. Simulación de la ley cuadrada de Lanchester
2. Costo para mantener existencias de seguridad (CLF): Este sencillo ejemplo algebraico ilustra la
influencia que tiene el stock de seguridad en las operaciones y los costos de CLF.
23. Interpolación y extrapolación de datos: La interpolación y extrapolación de datos son predicciones que
se utilizan para rellenar huecos, especialmente en series de datos temporales o espaciales donde
tenemos algunas observaciones de un valor de estado dependiente para algunos, pero no suficientes
valores asociados de estados independientes. Como implican los nombres, la interpolación se aplica
dentro del rango de valores de estado independientes observados y la extrapolación en otros lugares.
24. Software
Un analista generalmente necesita estar familiarizado y tener acceso a una serie de herramientas de
software: editor de texto, creador de diapositivas de presentación, hoja de cálculo, gráficos, estadísticas,
simulación, optimización, programación de propósito general y sistema de información geográfica.
Un gráfico de combinación dirigido. Cada ruta incluye una combinación de las etiquetas a, byc
1. Formación: La capacitación para el uso de modelos puede incluir cursos formales y elaborados,
que incluyen opciones y controles del modelo pata la interpretación del modelo.
2. Redactores de informes: están diseñados no solo para transmitir el "qué" de una solución, sino
también para llevar al reconocimiento de los "por qué". Un medio eficaz para comunicar los
resultados comerciales estratégicos es generar un conjunto de estados operativos previstos.
3. Declaración de modelo de formulario estándar
4. Persistencia y monotonicidad
5. Las soluciones modelo requieren mucho pulido y refinamiento antes de que puedan influir
directamente en la política
Comprensible • ¿Está claro qué significa nuestro consejo de selección de artículos?
Persistente
Robusto • ¿Qué tan buena es nuestra solución si nuestras suposiciones son incorrectas?
4. Fidelidad en el modelo: es una elección clave y es quizás la decisión más importante del modelado.
5. Análisis de sensibilidad: es fundamental en cualquier modelo. El objetivo es evaluar cómo los
cambios en los datos de estado pueden influir en los resultados del modelo. Algunos modelos son
notablemente estables y robustos.
6. Estabilidad: si se sabe que su método se comporta mal, se debe decidir si su simplicidad o eficacia
hace que valga la pena el riesgo.
7. Fiabilidad: Algunos modelos son intrínsecamente poco fiables y simplemente no se puede confiar
en que se comporten de forma razonable por varias razones.
8. Escalabilidad: Generalmente, si su modelo se expresa en forma estándar, debería ser sencillo
evaluar el impacto de cambiar la cardinalidad de los índices.
9. Extensibilidad: La extensibilidad se aplica a agregar nuevos detalles, funcionalidades o unir
modelos en una federación unificada.
T-2 Entregar informe con hallazgos
El trabajo de datos que se ha descrito, la adquisición, la limpieza y la exploración de datos (donde buscamos
relaciones internas clave) representan una gran cantidad de trabajo, y es necesario comunicar esos
hallazgos a la comunidad de stakeholder. El tipo de herramienta de comunicación, informe, presentación o
reunión depende de las preferencias; pero es fundamental que la transmisión de esta información se
produzca de una forma u otra.
1. Verificando
La verificación de un modelo consiste en proporcionar un conjunto razonable y representativo de
estados iniciales y observar un conjunto de acciones de respuesta consistente con la práctica
conocida, o simplemente con el sentido común, que conducen a un conjunto de estados resultantes
que pueden conciliarse con acciones.
2. Validando
Validar un modelo establece que está bien alineado con la realidad. Esto rara vez es posible. Un
modelador experimentado le aconsejará que afirmar que un modelo está validado es, bueno,
temerario. El objetivo es asegurarnos de que tenemos una representación razonable de la realidad.
3. Comparación de modelos
Un ciclo de vida se define como una secuencia de fases en el proceso de desarrollo de un modelo o sistema
analítico. Es muy similar al término utilizado en el contexto más general de un ciclo de vida de desarrollo
de software o sistemas común en la disciplina de la gestión de tecnologías de la información (TI).
Una metodología popular y aceptada en la comunidad analítica es CRoss Industry Standard Process for Data
Mining (CRISP-DM). Esta metodología se creó inicialmente como un esfuerzo cooperativo de varias
empresas interesadas en la minería de datos.
• Diseño inicial
• Desarrollo
• Pruebas
• Implementación
• Despliegue
• Seguimiento posterior al despliegue
El tiempo real del calendario que ocurre en cada una de estas diversas fases puede variar ampliamente,
pero depende de las características específicas del modelo o sistema que se está desarrollando. El tiempo
total para todo este proceso puede variar de meses a años, dependiendo de la complejidad de las relaciones
de datos que se modelan.
T-5 Evaluar el beneficio del negocio con modelo a lo largo del tiempo
A medida que el esfuerzo de análisis toma forma y crece dentro de su organización, hay que intentar por
obtener recursos para hacer más y mejores proyectos.
¿Cuánto dinero ha ganado la organización porque sus modelos señalaron el camino? ¿Cuánto dinero ha
ahorrado la organización porque sus modelos señalaron un esfuerzo desperdiciado? Para responder a estas
preguntas de manera defendible, se debe poder evaluar el beneficio del negocio del modelo a lo largo del
tiempo. Para hacerlo, se debe poder simular lo que la organización habría estado haciendo sin los cambios
provocados por el modelo.
Una forma de hacerlo es observar el desempeño de su organización en comparación con los puntos de
referencia de la industria durante el período de tiempo en cuestión. ¿Ha pasado de una organización de
segundo quintil a un primer quintil en un área clave? Otra forma es observar cómo los productos que se
han modelado han cambiado su rendimiento financiero para la organización. ¿Ha aumentado la utilidad
neta desde que se introdujo el modelo? ¿Qué tal el rendimiento de los activos netos?
Taber, A., Samaddar, S., Bordley, R., Musa, R., Smith, M., Stein, F., Truxillo, C., Waltz, Z. (2014).
INFORMSCERTIFIED ANALYTICS PROFESSIONAL (CAP®). Examination Study Guide. Informs.