You are on page 1of 20

Raquel Jorge Hernando

Taller Certificación CAP®


Preparación para la certificación CAP® (Certified Analytics Professional)

Sesión 2

OBSbusiness.school Partner académico:


Índice

INTRODUCCIÓN ........................................................................................................................................................ 3
DOMINIO V CONSTRUCCIÓN DE MODELOS ............................................................................................................................ 3
CRISP-DM FASE 5: EVALUACIÓN ............................................................................................................................. 16
DOMINIO VI IMPLEMENTACIÓN ........................................................................................................................................ 16
CRISP-DM FASE 6: IMPLEMENTACIÓN .................................................................................................................... 17
DOMINIO VII GESTIÓN DEL CICLO DE VIDA DEL MODELO ....................................................................................................... 18
BIBLIOGRAFÍA ......................................................................................................................................................... 20

OBSbusiness.school Partner académico:


Introducción
Este taller explica los diferentes dominios y sus pesos en la certificación CAP® (Certified Analytics
Professional) y más abajo, Podemos encontrar la tabla sobre cada uno de ellos y los pesos que le
corresponden.

Por otro lado, este talle muestra las similitudes entre la metodología CRISP-DM y JTA, como se muestra a
continuación:

CRISP-DM JTA Pesos aproximados


Domain 1 Business Problem Framing 12%–18%
Phase 1: Business Understanding
Domain 2 Analytics Problem Framing 14%–20%
Phase 2: Data Understanding 18%–26%
Domain 3 Data 12%–18%
Phase 3: Data Preparation
Domain 4 Methodology (Approach) Selection 13%–19%
Phase 4: Modelling
Domain 5 Model Building 12%–18%
Phase 5: Evaluation Domain 6 Deployment (T-1 and T-2) 13%–19%
Domain 6 Deployment 7%–11%
Phase 6: Deployment
Domain 7 Model Life Cycle Management 4%–8%

CRIPS-DM Fase 4: Modelado


Dominio V Construcción de modelos
(La capacidad de identificar y construir estructuras de modelos eficaces para ayudar a resolver el problema.)

La construcción de modelos está en el centro de cualquier esfuerzo analítico; es el punto culminante de las
actividades de encuadre de problemas analíticos. Los buenos modelos dependen de todos los pasos
anteriores: que enmarcan el problema de la empresa; enmarcar el problema de la analítica; y adquirir,
explorar y depurar los datos. Ahora es el momento de desarrollar un modelo para mostrar los impulsores
clave de sus resultados, pronosticar sus objetivos, determinar el mejor uso de los recursos, etc.

El objetivo aquí es mostrar, por ejemplo, cómo construir un modelo.

OBSbusiness.school Partner académico:


T-1 Identificar el modelo de estructura
Una vez que se determina una metodología, aún queda por construir el modelo. A veces, esto significa
perfeccionar la metodología. Si ha determinado que un modelo de minería de datos predictivo entonces
necesita determinar el tipo específico de modelo que funcionará mejor para predecir su objetivo.

• ¿El objetivo sigue una distribución binomial?


• ¿Normal?
• ¿Gamma?
• ¿Poisson?

Figura 8: Tipos de distribuciones (https://www.kdnuggets.com/2020/02/probability-distributions-data-science.html)

T-2 Calibrar modelos y datos


1. Tipo de modelos
1.1. Modelo Descriptivo: explicar la relación entre los estados observados.
1.2. Modelo Predictivo: Intentar pronosticar acciones futuras y estados resultantes, tendencias
estacionales ...
1.3. Modelo Prescriptivo: buscar acciones admisibles, conducir al mejor estado final anticipado.

OBSbusiness.school Partner académico:


2. Los modelos también se pueden caracterizar por si son deterministas o estocásticos (aleatorios)
Los modelos deterministas se basan en estimaciones constantes de estado y rendimiento, mientras
que los modelos estocásticos (aleatorios) reconocen la naturaleza aleatoria de algunos estados.
Algunos modelos de simulación estocástica generan estados a partir de distribuciones aleatorias,
mientras que otros buscan caracterizaciones analíticas de procesos aleatorios.

x modelo y

Modelo dados los datos de entrada y los valores de los


Determinista parámetros, el modelo determina exactamente la
salida, de modo que siempre obtengamos el mismo
resultado

y1

x modelo y2

y3

Modelo
Estocástico dados los datos de entrada y los valores de los
parámetros, el modelo da una salida variable, de modo
que siempre obtenemos un resultado diferente debido
a la aleatoriedad

Modelo determinista: en un modelo determinista, dados los datos de entrada y los valores de los
parámetros, el modelo determina exactamente la salida, de modo que siempre obtengamos el mismo
resultado. Si el modelo determinista describiera perfectamente el sistema ambiental en consideración y no
hubiera incertidumbre o fuente de error, entonces dado el valor de la variable independiente (x) y los
parámetros del modelo, podríamos predecir el valor de la variable dependiente (y) exactamente (es decir,
sin incertidumbre).

Modelo estocástico: en un modelo estocástico, dados los datos de entrada y los valores de los parámetros,
el modelo proporciona una salida variable, de modo que siempre obtenemos un resultado diferente debido
a la aleatoriedad. Si existe alguna incertidumbre en los parámetros de nuestro modelo, entonces
esperaríamos que un valor dado de la variable independiente (x) generara un valor diferente de la variable
dependiente (y) cada vez, ya que el modelo es imperfecto. El modelo estocástico es simplemente el error
en nuestra capacidad para predecir el resultado (variable dependiente) de una entrada en particular. Todos
los modelos estadísticos tienen un componente estocástico.

OBSbusiness.school Partner académico:


T-3 Ejecutar y evaluar los modelos
1. Segunda ley de Newton (determinista, descriptiva): En un sistema de referencia de inercia, la suma
vectorial de las fuerzas f (en Newtons) sobre un objeto es igual a la masa m (en kilogramos) de ese
objeto multiplicada por la aceleración a (metros por segundo) del objeto:
2. Contando
2.1.1. Contar permutaciones y combinaciones
Con repetición Sin repetición Una combinación: es una lista de elementos
desordenada.
Una permutación: es una lista ordenada de elementos.
Combinaciones
Repetición: se refiere a si un elemento de la lista se
puede repetir o no.
n es el número de elementos posibles que se pueden
Permutaciones seleccionar
r es la cantidad de elementos que se seleccionaron

3. Probabilidad: una probabilidad es una evaluación de la probabilidad de que un evento binario (estado
futuro) tome un lugar, que varía numéricamente de cero (imposibilidad) a uno (certeza).
3.1.1. Supuesto de independencia y regla de multiplicación (determinista, predictiva):
Supongamos que A y B representan estados binarios (verdadero-falso, sí-no, encendido-apagado,
ganar-perder ...) por descubrir. P (A) como la probabilidad A resulta ser cierta, P (B) que B lo hace.

P (A, B) para representar la probabilidad de unión


𝑃(𝐴,𝐵)
P (A | B) = la probabilidad condicional de A dado B. 𝑃(𝐵)

Si P (A | B) = P (A), entonces el estado A no está influenciado por el estado B, y nos referimos a A


y B como independientes
3.1.2. Teorema de Bayes (determinista, predictivo)

La probabilidad de que B
sea VERDADERO dado La probabilidad de que
que A es VERDADERO A sea VERDADERO

𝑷(𝑩|𝑨) 𝑷(𝑨)
𝑷(𝑨|𝑩) =
𝑷(𝑩)

La probabilidad de que A La probabilidad de que


sea VERDADERO dado B sea VERDADERO
que B es VERDADERO

3.1.3. Modelo binomial de lanzamiento de monedas (estocástico, descriptivo): Una serie de


lanzamientos independientes de cara o cruz con p la probabilidad de que salga cara en cada
lanzamiento es una simulación estocástica

OBSbusiness.school Partner académico:


4. Principio de Pareto: afirma que para muchos resultados aproximadamente el 80% de las consecuencias
provienen del 20% de las causas (los “pocos vitales”). Otros nombres para este principio son la regla
80/20, la ley de los pocos vitales o el principio de escasez de factores.

20 % 80 %
EFFORT EFFORT

80 % 20 %
RESULT RESULT

5. Perspectivas de probabilidad y expertos en la materia


5.1.1. Clásico (a priori o teórico):La probabilidad supone que cada uno de los n posibles
resultados de un evento es igualmente probable y asigna una probabilidad de 1 / n a cada
uno.

5.1.2. Empírico (a posteriori o frecuentista):La probabilidad utiliza la frecuencia relativa


observada de los resultados de experimentos o experiencias repetidos para estimar la
probabilidad de cada resultado futuro.

5.1.3. Subjetivo (personal):La probabilidad no es el resultado de experimentos repetidos ni de


una experiencia histórica empírica a largo plazo, pero es necesaria, por ejemplo, para
evaluar la probabilidad de eventos futuros con los que es posible que no hayamos tenido
ninguna experiencia pasada.

Clásico Frecuentista Subjetivo


Hipótesis principal Principio de indiferencia Frecuencia de ocurrencia Grado de creencia
Datos pasados y clase de Conocimiento e intuición
Base conceptual Simetría hipotética
referencia
Enfoque conceptual Conjetural Empírico Subjetivo
Caso único posible Si No Si
Preciso Si No No
Ambigüedad en principio de Problema de clase de
Problemas Definición circular referencia
indiferencia

OBSbusiness.school Partner académico:


6. Expertos en la materia (PYMES): También llamados expertos en el dominio son aquellos con
experiencia sustancial y juicio experto en el área de interés para la que necesitamos probabilidades.
7. Estadísticas: es generalmente descriptivo o predictivo. Las estadísticas buscan relaciones, quizás
ocultas, entre muestras medidas de conjuntos.
1. Una muestra aleatoria: Para hacer esta predicción más precisa, necesitamos aumentar
nuestro tamaño de muestra aleatorio.

2. Estadísticas descriptivas: media, varianza, percentiles, intervalos de confianza,


histogramas, distribuciones, etc.

3. Estimación de parámetros con intervalo de confianza: utiliza datos de muestra para


estimar los parámetros de la población.

4. Regresión
7.4.1. Regresión lineal del error por mínimos cuadrados (determinista, descriptiva): cómo
alguna variable (medida de estado) se ve influenciada por los valores de una o más de otras
variables. La variable influenciada se llama dependiente y las otras variables son
independientes o explicativas.

OBSbusiness.school Partner académico:


8. Un proceso estocástico: es un modelo de probabilidad descriptivo o predictivo que produce una
ubicación o secuencia de tiempo que representa el estado de un sistema que está sujeto a variación
aleatoria.

8.1.1. Modelo de cola (estocástico, descriptivo): Un modelo de cola describe el comportamiento


de un proceso estocástico, un sistema con clientes que llegan al azar para esperar en una sola
cola para recibir un tiempo de servicio aleatorio. El estado aleatorio del sistema es el número
de clientes que esperan o reciben el servicio.

8.1.2. Modelos exponenciales, de Poisson y sin memoria


Se puede utilizar una variable aleatoria exponencial continua para expresar el tiempo
continuo t entre cambios de estado aleatorios, con densidad de probabilidad
y parámetro  la tasa constante a la que los cambios de estado
(eventos) tienen lugar a lo largo del tiempo (eventos / tiempo).

8.1.3. Cadenas de Markov (estocásticas, descriptivas): Sea el estado de una cola el número de
clientes que contiene. El siguiente diagrama de espacio de estados muestra las transiciones
entre estados adyacentes a lo largo del tiempo.

8.1.4. Cola M / M / 1 (estocástico, descriptivo): Supongamos que el servicio se presta por orden
de llegada y que tenemos una capacidad infinita para retener las llegadas hasta que reciben
el servicio.
La primera letra es una abreviatura del proceso de llegada. M significa tiempo de llegada
exponencial, que es otra forma de decir que el proceso de llegada es un proceso de Poisson.
La segunda letra es una abreviatura de la distribución del tiempo de servicio. Por tanto, la
segunda M significa que el tiempo de servicio se distribuye exponencialmente. El tercer
número, 1, es el número de servidores del sistema.

OBSbusiness.school Partner académico:


9. Simulación digital: es un modelo de simulación abstracto. Esto es similar a un procedimiento
informático, escrito en términos primitivos pero inequívocos.
9.1.1. Simulación de lanzamiento de monedas (estocástico, descriptivo)

10. Optimización matemática (EOQ):


10.1.1. Cantidad de orden económica: Optimización (determinista, prescriptiva): Introducir
previamente constituye la solución de un modelo, más que el modelo.
Queremos minimizar el costo de pedido y el costo de mantenimiento de un artículo de unidad
de mantenimiento de existencias (SKU). Dada la demanda por artículos del período d, el costo
fijo por pedido de reabastecimiento f, y el costo de mantenimiento por artículo por período
h, el estado estable de menor costo se logra ordenando:

𝟐(𝒅𝒆𝒎𝒂𝒏𝒅)(𝒄𝒐𝒔𝒕 𝒑𝒆𝒓 𝒐𝒓𝒅𝒆𝒓)


𝑬𝑶𝑸 = √
𝒄𝒐𝒔𝒕/𝒕𝒊𝒎𝒆
11. Unidades de medida: aunque las unidades métricas son el estándar internacional con todos los
científicos.
12. Método del camino crítico: Consiste en una serie de actividades separables que se agrupan por eventos
de hitos, donde la actividad no puede iniciarse hasta que se hayan archivado todos los eventos
anteriores.

12.1.1. Gráfico de gantt (Determinista, descriptivo)

13. El principio de optimización y programación dinámica: Una política óptima tiene la propiedad de que
cualquiera que sea el estado y la decisión iniciales, las decisiones restantes deben constituir esa
política óptima con respecto al estado resultante de la primera decisión. El problema del camino más
corto satisface el Principio de Optimización. La enumeración sistemática de estos valores se llama
dinámica programación.

OBSbusiness.school Partner académico:


14. Estadística inferencial
14.1.1. Prueba de hipótesis estadística (determinista, descriptiva)
Realidad
H0 falsa H0 verdadera
Rechazo correcto H0 Error tipo 1
Rechazar H0
1- 
Prueba
Error tipo 2 Aceptación correcta de H0
Aceptar H0
 1-

15. Estudio de caso de optimización de cartera resuelto mediante una variedad de métodos
1. Programa lineal

2. Heurístico: Consideremos el escenario anterior cuando investiguemos todos los movimientos


posibles para este peón blanco.

3. Evaluando nuestro progreso


4. Relajaciones y límites:
El límite inferior es el valor más pequeño que se redondearía al valor estimado.
El límite superior es el valor más pequeño que se redondearía al siguiente valor estimado.
16. Teoría de juego
Prescribe acciones para oponentes en conflicto. En el caso más simple de dos personas y suma cero,
cada uno de los dos oponentes elige una acción en secreto, y cuando se toman estas acciones, su
consecuencia conjunta es una recompensa de un jugador al otro.

16.1.1. Programa lineal para resolver Convoy Game (determinista, prescriptivo)

OBSbusiness.school Partner académico:


17. Teoría de la decisión: ofrece dos tipos de información:
1. Puede asesorar sobre cómo tomar decisiones óptimas basadas en las probabilidades de lograr
ganancias o pérdidas particulares como consecuencia.
2. Puede explicar por qué los responsables de la toma de decisión elijan decisiones distintas a las
esperadas.

18. Epidemiología susceptible, expuesta, infectada, recuperada (SEIR) (determinista, predictiva): La


epidemiología matemática ha producido muchos modelos, entre los que SEIR es un buen ejemplo.

19. Teoría de la búsqueda: Esta es una estimación conservadora de la probabilidad de éxito de la búsqueda,
y podemos hacerlo mucho mejor si podemos permitirnos realizar una búsqueda exhaustiva. No
obstante, este es un modelo descriptivo útil. Uno de los resultados más simples y elegantes es el
siguiente, conocido como ecuación de búsqueda de área de Koopman.
1. Búsqueda de área (estocástico, predictivo)

20. Modelos de guerra de Lanchester: Este es otro modelo militar desarrollado por el ingeniero británico
FW Lanchester en 1914, y publicado 2 años más tarde, para describir los intercambios de combate entre
fuerzas aéreas opuestas. Se ha utilizado más ampliamente para describir el combate terrestre continuo
entre ejércitos.
1. Ley de fuego dirigido de Lanchester (determinista, predictiva)
2. Ley lineal de fuego de área de Lanchester (determinista, predictiva)
3. Simulación de la ley cuadrada de Lanchester

OBSbusiness.school Partner académico:


21. Ecuaciones de Salvo de Hughes (deterministas, predictivas): Los modelos clásicos de Lanchester están
dirigidos [sic] al combate sostenido a gran escala que involucra a un gran número de combatientes,
muchos disparos de cada uno y una guerra continua. De hecho, es posible que se necesiten miles de
disparos para lograr una sola muerte.

22. Modelos de un solo uso (Single-Use Models)


1. Interés compuesto y valor actual neto (determinista, descriptivo): Supongamos que tenemos
una inversión que paga un interés del r% al final de cada año y decidimos reinvertir los intereses
al final de cada año. ¿Cuál es el valor de nuestra inversión después de y años?

Year 1 Year 2 Year 3 Year 4


1€ 1,10 € 1,21 € 1,331 €

x 1,10 x 1,10 x 1,10

2. Costo para mantener existencias de seguridad (CLF): Este sencillo ejemplo algebraico ilustra la
influencia que tiene el stock de seguridad en las operaciones y los costos de CLF.

23. Interpolación y extrapolación de datos: La interpolación y extrapolación de datos son predicciones que
se utilizan para rellenar huecos, especialmente en series de datos temporales o espaciales donde
tenemos algunas observaciones de un valor de estado dependiente para algunos, pero no suficientes
valores asociados de estados independientes. Como implican los nombres, la interpolación se aplica
dentro del rango de valores de estado independientes observados y la extrapolación en otros lugares.

24. Software
Un analista generalmente necesita estar familiarizado y tener acceso a una serie de herramientas de
software: editor de texto, creador de diapositivas de presentación, hoja de cálculo, gráficos, estadísticas,
simulación, optimización, programación de propósito general y sistema de información geográfica.

OBSbusiness.school Partner académico:


25. Enumeración basada en pilas: Los gráficos y redes dirigidos (gráficos con atributos de datos) surgen
con frecuencia en el modelado, y terminamos buscando formas de maniobrar a través de ellos con
algún objetivo en mente.
1. Estructuras de datos:
1. Stack PATH (también conocido como cola de último en entrar, primero en salir o LIFO)
2. Formación
3. Lista de adyacencia
4. Estructura de arco de corriente
2. Generando permutaciones y combinaciones
Un gráfico de subconjunto dirigido. Cada nodo tiene una etiqueta de objeto (letra) y un número
escalonado. Hay una fila de nodos para cada uno de n = 3 objetos, y cada fila tiene k = 3 escalones.

Un gráfico de combinación dirigido. Cada ruta incluye una combinación de las etiquetas a, byc

26. Aprendizaje automático


Hay tres clases amplias de problemas de aprendizaje automático, con clases definidas en función de los
datos proporcionados para "entrenar" algorítmicamente los modelos: problemas de aprendizaje
supervisado, problemas de aprendizaje no supervisado y problemas de aprendizaje reforzado.

OBSbusiness.school Partner académico:


T-4 Integración del modelo
Normal de uso para el Dato

1. Datos patentados: Los datos patentados se involucran habitualmente en los estudios de


modelado. Es mejor establecer protocolos de modelo con anticipación para el almacenamiento,
la indexación, la gobernanza y el uso de cualquier fuente de datos.
2. Datos con licencia: Los datos con licencia de orígenes comerciales generalmente vienen con
restricciones sobre cómo se pueden usar. Por ejemplo, los datos del sistema de información
gráfica (SIG) sobre carreteras, ríos, ferrocarriles, cables submarinos, etc. vienen con límites
explícitos en el dominio de aplicación permitido.
3. Información de identificación personal (PII): contiene datos que pueden permitir o facilitar la
identificación de las personas.
4. Sistema de información de infraestructura crítica protegida (PCIIMS)
5. Junta de Revisión Institucional (IRB): los requisitos de documentación de investigación de sujetos
humanos requieren la presentación y revisión de protocolos para garantizar la seguridad
6. Copyright y marca comercial
7. Parafraseado y plagiado
8. Visualizaciones de los resultados del modelo
9. Integridad de los datos
10. Evolución de múltiples datos

T-5 Documentar y comunicar los hallazgos (incluidos supuestos, limitaciones y restricciones)


Comunicarse con las partes interesadas
La mayoría de los modelos contemporáneos se utilizan a través de una interfaz gráfica de usuario (GUI) y,
en muchos casos, la GUI consume más esfuerzo de desarrollo que el modelo.

1. Formación: La capacitación para el uso de modelos puede incluir cursos formales y elaborados,
que incluyen opciones y controles del modelo pata la interpretación del modelo.
2. Redactores de informes: están diseñados no solo para transmitir el "qué" de una solución, sino
también para llevar al reconocimiento de los "por qué". Un medio eficaz para comunicar los
resultados comerciales estratégicos es generar un conjunto de estados operativos previstos.
3. Declaración de modelo de formulario estándar
4. Persistencia y monotonicidad
5. Las soluciones modelo requieren mucho pulido y refinamiento antes de que puedan influir
directamente en la política
Comprensible • ¿Está claro qué significa nuestro consejo de selección de artículos?

Procesable • ¿Tenemos autoridad para seleccionar estos elementos en estos números?

Legal •¿Podemos elegir este portafolio de artículos?

Persistente
Robusto • ¿Qué tan buena es nuestra solución si nuestras suposiciones son incorrectas?

Elástico • ¿Qué tan buena es nuestra solución si se frustra alguna selección?

6. Obsolescencia del modelo y reglas de pulgar recomendadas por el modelo


Es hora de retirar un modelo cuando el problema que aborda se resuelve por otros medios o se
reemplaza por otras preocupaciones.

OBSbusiness.school Partner académico:


CRISP-DM Fase 5: Evaluación
Dominio VI Implementación
(La capacidad de implementar el modelo seleccionado para ayudar a resolver el problema de negocio.)

T-1 Realizar la validación empresarial del modelo


Documentación, gestión y rendimiento del modelo: La formulación del modelo merece mucha atención y
ningún modelo está completo sin dicha documentación.
1. Formulación de modelos

Definir conjunto de Definir elementos Definir variables de Dar una discusión


Indicar el modelo
índices de datos estado y acción en lenguaje sencillo

2. Elección del lengaje de implementación: es importante la elección del lenguaje de


implementación, ya que puede tener un efecto desastroso en la velocidad del modelo.
3. Modelos supervisados versus automatizados: Algunos modelos según sea necesario son
supervisados por un modelador, mientras que otros están automatizados o sin supervisión.

4. Fidelidad en el modelo: es una elección clave y es quizás la decisión más importante del modelado.
5. Análisis de sensibilidad: es fundamental en cualquier modelo. El objetivo es evaluar cómo los
cambios en los datos de estado pueden influir en los resultados del modelo. Algunos modelos son
notablemente estables y robustos.
6. Estabilidad: si se sabe que su método se comporta mal, se debe decidir si su simplicidad o eficacia
hace que valga la pena el riesgo.
7. Fiabilidad: Algunos modelos son intrínsecamente poco fiables y simplemente no se puede confiar
en que se comporten de forma razonable por varias razones.
8. Escalabilidad: Generalmente, si su modelo se expresa en forma estándar, debería ser sencillo
evaluar el impacto de cambiar la cardinalidad de los índices.
9. Extensibilidad: La extensibilidad se aplica a agregar nuevos detalles, funcionalidades o unir
modelos en una federación unificada.
T-2 Entregar informe con hallazgos
El trabajo de datos que se ha descrito, la adquisición, la limpieza y la exploración de datos (donde buscamos
relaciones internas clave) representan una gran cantidad de trabajo, y es necesario comunicar esos
hallazgos a la comunidad de stakeholder. El tipo de herramienta de comunicación, informe, presentación o
reunión depende de las preferencias; pero es fundamental que la transmisión de esta información se
produzca de una forma u otra.

OBSbusiness.school Partner académico:


CRISP-DM Fase 6: Implementación
T-3 Crear requisitos de sistema, usabilidad y modelo para producción
El formato de su informe variará según la organización y cómo vaya a utilizar el informe. Lo principal es que
el informe debe tener un mensaje claro. Las directrices básicas para informes se aplican a este como a
cualquier otro informe. Se puede utilizar gráficas para comunicar los hallazgos siempre que sea posible. Los
gráficos bien construidos pueden simplificar los resultados y descubrir patrones que se pasan por alto
fácilmente en las tablas. Considere siempre las buenas prácticas gráficas. Un gráfico mal construido puede
ser engañoso.

T-4 Entrega del modelo / sistema de producción


Verificación y validación de modelos

1. Verificando
La verificación de un modelo consiste en proporcionar un conjunto razonable y representativo de
estados iniciales y observar un conjunto de acciones de respuesta consistente con la práctica
conocida, o simplemente con el sentido común, que conducen a un conjunto de estados resultantes
que pueden conciliarse con acciones.

2. Validando
Validar un modelo establece que está bien alineado con la realidad. Esto rara vez es posible. Un
modelador experimentado le aconsejará que afirmar que un modelo está validado es, bueno,
temerario. El objetivo es asegurarnos de que tenemos una representación razonable de la realidad.

3. Comparación de modelos

Diagnóstico de Datos antiguos y


Datos de muestra
datos procedencia

•Los datos de muestra •Son defensas vitales de un •Debe establecerse para


generados aleatoriamente modelo, especialmente si cada instancia que utiliza
son conocidos por no ser las fuentes de datos están un modelo y debe
representativos, ralentizar parcialmente mostrarse de manera
el funcionamiento del automatizadas y no destacada y amplia con los
modelo y oscurecer los necesariamente están bajo resultados del modelo.
conocimientos. el control de los
planificadores que utilizan
el modelo.

T-5 Implementación del soporte


Dos elementos clave a considerar como modelo se convierte en la base para que una organización tome
medidas son:
• Planifica la implementación - Esta tarea desarrolla una estrategia de despliegue.
• Planificar el seguimiento y el mantenimiento - Se necesita un plan de seguimiento detallado para
garantizar que los resultados se utilizan correctamente y para determinar cualquier problema.
La implementación es un paso crítico para que los análisis sean procesables. La preparación adecuada
permitirá una implementación sin problemas que garantice el éxito de los esfuerzos analíticos.

OBSbusiness.school Partner académico:


Dominio VII Gestión del Ciclo de Vida del Modelo
(La capacidad de administrar el ciclo de vida del modelo para evaluar el beneficio comercial del modelo a
lo largo del tiempo.)

Un ciclo de vida se define como una secuencia de fases en el proceso de desarrollo de un modelo o sistema
analítico. Es muy similar al término utilizado en el contexto más general de un ciclo de vida de desarrollo
de software o sistemas común en la disciplina de la gestión de tecnologías de la información (TI).

Una metodología popular y aceptada en la comunidad analítica es CRoss Industry Standard Process for Data
Mining (CRISP-DM). Esta metodología se creó inicialmente como un esfuerzo cooperativo de varias
empresas interesadas en la minería de datos.

T-1 Estructura inicial del documento


La documentación debe incluir al menos lo siguiente:
• Supuestos clave sobre el contexto empresarial y el problema de análisis
• Fuentes de datos y esquema de datos
• Métodos utilizados para limpiar y armonizar los datos
• Enfoque de modelos y artefactos de revisión de modelos
• Documentación para cualquier código de software escrito
• Recomendaciones para futuras mejoras del modelo

T-2 Calidad del modelo


Los criterios de evaluación deben crearse por adelantado tanto en términos de los resultados de negocio
como de la precisión y confianza del modelo. Algunos de los criterios que podrían usarse incluyen:
• Valor del modelo en términos de negocio.
• ¿El modelo descubre / predice algo nuevo y útil?
• ¿Es el modelo confiable en una amplia gama de datos?
• ¿Se puede construir un gráfico de "elevación" o "ganancia" para mostrar qué tan bien está
prediciendo el modelo?
• Comprobar si las predicciones del modelo sobre datos desconocidos son tan buenas como las
predicciones sobre los datos que se utilizaron para entrenar o construir el modelo.

OBSbusiness.school Partner académico:


T-3 Recalibrar y mantener el modelo
El ciclo de vida del modelo / sistema de análisis se compone de varias fases:

• Diseño inicial
• Desarrollo
• Pruebas
• Implementación
• Despliegue
• Seguimiento posterior al despliegue

El tiempo real del calendario que ocurre en cada una de estas diversas fases puede variar ampliamente,
pero depende de las características específicas del modelo o sistema que se está desarrollando. El tiempo
total para todo este proceso puede variar de meses a años, dependiendo de la complejidad de las relaciones
de datos que se modelan.

T-4 Actividades de formación para el soporte


Una de las claves para un proyecto o compromiso de análisis exitoso es la capacitación adecuada para los
usuarios del modelo y sus resultados. Si bien la capacitación no necesita cubrir todas las complejidades del
modelo, la capacitación debe garantizar que los usuarios comprendan el uso comercial del modelo analítico
y cómo interpretar los resultados. Como analista, también debe asegurarse de que los usuarios no saquen
más conclusiones de los resultados de lo que el modelo es capaz de producir.

T-5 Evaluar el beneficio del negocio con modelo a lo largo del tiempo
A medida que el esfuerzo de análisis toma forma y crece dentro de su organización, hay que intentar por
obtener recursos para hacer más y mejores proyectos.

¿Cuánto dinero ha ganado la organización porque sus modelos señalaron el camino? ¿Cuánto dinero ha
ahorrado la organización porque sus modelos señalaron un esfuerzo desperdiciado? Para responder a estas
preguntas de manera defendible, se debe poder evaluar el beneficio del negocio del modelo a lo largo del
tiempo. Para hacerlo, se debe poder simular lo que la organización habría estado haciendo sin los cambios
provocados por el modelo.

Una forma de hacerlo es observar el desempeño de su organización en comparación con los puntos de
referencia de la industria durante el período de tiempo en cuestión. ¿Ha pasado de una organización de
segundo quintil a un primer quintil en un área clave? Otra forma es observar cómo los productos que se
han modelado han cambiado su rendimiento financiero para la organización. ¿Ha aumentado la utilidad
neta desde que se introdujo el modelo? ¿Qué tal el rendimiento de los activos netos?

Independientemente de la forma en que lo aborde, evaluar el beneficio comercial le permite "llevar la


cuenta" y comercializar sus capacidades a la organización en general, ayudándola a crecer y desarrollarse
resolviendo problemas comerciales que de otro modo serían insolubles.

OBSbusiness.school Partner académico:


Bibliografía
Cochran, E. b. (2019). Informs Analytics body of Knowledge. John Willey & Sons, Inc .

Taber, A., Samaddar, S., Bordley, R., Musa, R., Smith, M., Stein, F., Truxillo, C., Waltz, Z. (2014).
INFORMSCERTIFIED ANALYTICS PROFESSIONAL (CAP®). Examination Study Guide. Informs.

OBSbusiness.school Partner académico:

You might also like