You are on page 1of 48

Tratamiento de Los Datos de la Muestra para que

“Estimadores Robustos de Tendencia Central” sean


adecuados Predictores del Mercado

Ing. MSc. Luis Fernando Restrepo Gómez


Temario
1. Definiciones.
2. Antecedentes
3. Tamaño de la Muestra
4. Criterios para Decidir como Tratar los Datos
5. Estadística Descriptiva
6. Análisis Exploratorio de Datos “EDA”
7. Ejemplos
8. Conclusiones
1. Definiciones
• La ESTIMACIÓN, consiste en construir un modelo funcional a
partir de los datos que se extraen de la Población (muestra) y a
partir de ellos, se infiere los parámetros de la misma. (Ej. µ; Ϭ; π)

Parámetros:
• Media µ
• Error Est 𝜹𝜹
• Proporción ∏
• Tamaño N
1. Definiciones
• La ESTIMACIÓN, consiste en construir un modelo funcional a
partir de los datos que se extraen de la Población (muestra) y a
partir de ellos, se infiere los parámetros de la misma. (Ej. µ; Ϭ; π)

Estadísticos
• Media X
• Desviación Estándar S
• Proporción P
• Tamaño n
Parámetros:
• Media µ
• Error Est 𝜹𝜹
• Proporción ∏
• Tamaño N
1. Definiciones
• El ESTIMADOR, puede ser una expresión matemática o
un algoritmo de cálculo
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 ∑𝑵𝑵 � 𝟐𝟐
�=
𝑿𝑿 𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
𝒏𝒏 𝒔𝒔 =
𝑵𝑵 − 𝟏𝟏
Media Aritmética de la Muestra Desviación Típica de Muestra < de 30 datos

𝟏𝟏 ∑𝑵𝑵 �
𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
𝟐𝟐
𝜹𝜹 = × 𝑵𝑵 − 𝒏𝒏 ∑𝑵𝑵 �
𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
𝟐𝟐
𝒏𝒏 𝑵𝑵 − 𝟏𝟏 𝜹𝜹 = ×
𝑵𝑵 − 𝟏𝟏 𝑵𝑵 − 𝟏𝟏
Error Estándar a partir de la Desviación Típica N° Datos > 20 Error Estándar a partir de la Desviación Típica N° Datos ≤ 20
1. Definiciones
• Variabilidad, para saber cuán representativo es el valor de
una medida de tendencia central, es necesario tener una
medida de la dispersión de los datos respecto a un
“Estimador de Tendencia Central” como la Media o la
Mediana
• MEDA, es la Mediana del valor MEDA - Medida Robusta de Variabilidad

absoluto de las diferencias 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 = 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 𝑿𝑿𝒊𝒊 − 𝑴𝑴𝑴𝑴


frente a la mediana
1. Definiciones
Medidas de Tendencia Central, son medidas estadísticas de
posición, que indican un valor central en representación de la
disposición de los datos. Son: La Media; La Mediana y La Moda
• Ejemplo: con las calificaciones 4; 7; 5; 6; 5; 4; 5; 5; 5; 6; 5; 4; 4
Se nota a simple vista, que los datos están en torno a 5 (cinco), el
cual podría ser tomado como índice de tendencia central y es
razonable que sean parecidos los “Estimadores” Media, Mediana y
Moda”. (en este caso coinciden en 5)
2. Tendencia central
• Que pasa cuando hay datos atípicos (Extremos) en
la muestra?
• Ejemplo: con las calificaciones 4; 7; 5; 6; 5; 4; 5; 5; 5; 6; 5; 39; 4
• Se nota a simple vista, que los datos están en torno a 5 (cinco), sin
embargo, la Media aritmética, no mostraría adecuadamente el
comportamiento de los datos y por ello, NO podría ser tomado
como índice de tendencia central. (en este caso 𝑋𝑋� = 7.69)
2. Antecedentes
• Entonces como hemos hecho?
Simplemente hemos eliminado el Dato Atípico también
llamado “Outlier” y nuevamente estimamos la Media
Aritmética.
• Y como decidimos si un dato es Atípico?
a) Arbitrariamente, decido eliminar los extremos
b) Pregunto a un colega que hago
c) Por Análisis Exploratorio de los Datos “EDA”
3. Tamaño de Muestra
𝑍𝑍 2 × 𝝈𝝈2
𝑛𝑛 =
𝐸𝐸 2 • Nivel de Confianza “Z”
a) 99% a) Z = 2.575
b) 95% b) Z = 1.96
c) 90% c) Z = 1.645

• Error Muestral Admisible “E”


a) 3%
b) 5%
c) 10%
4. Criterios de
Selección Método
Tipos de Análisis Estadístico Apropiado
En la Estadística, según el número de datos disponibles, existen herramientas que son
más, o son menos, eficientes para efectuar una ESTIMACIÓN apropiada y a través de
un estimador, expresar razonablemente, una característica de la población

Muestras N° de Datos ≥ 30 Inferencia Estadística; Geoestadística; RNA, etc.


Muestras 20 ≤ N° Datos < 30 Análisis para Datos Agrupados en Clases
Muestras 10 ≤ N° Datos < 20 Teoría de Los Errores
Muestras 5 ≤ N° Datos < 10 Estimadores Robustos de Tendencia Central
Muestras 2 ≤ N° Datos < 10 Análisis Multicriterio (AHP; Critic)
5. Estadística
Descriptiva
Estimadores Clásicos o Paramétricos de Tendencia Central
Media Mediana Moda
Tienen asociada un tipo de “distribución normal” de los residuos
La suma de diferencias (de Se ve menos afectada por No es necesariamente única,
todos los valores) respecto a datos atípicos que la media pues pueden haber varias
la media es siempre cero (0) aritmética modas
Minimiza la suma de
Minimiza la suma de Se puede calcular con datos
diferencias en términos
diferencias en valor absoluto en escala nominal
cuadráticos.
Utiliza todos los datos No utiliza todos los datos
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
El análisis exploratorio de datos (EDA), según unos, nueva rama de la
estadística, según otros, una extensión de la estadística descriptiva, que
adopta un cambio de actitud y de enfoque metodológico ante el análisis
de datos.
• El EDA propugna que previo a cualquier análisis estadístico, es
necesario un examen cualitativo de los datos.
• Pretende detectar anomalías o errores en las distribuciones
univariantes de los datos.
• Busca estimadores robustos y resistentes, basados en las
estadísticas de orden y centrados en la mediana.
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
1. Estimadores de Tendencia Central
a) Mediana; b) Promedio de Cuartiles; c) Trimedia; d) Centri-Media (MID)
2. Estimadores de Dispersión
a) Amplitud intercuartílica; b) Mediana de desviaciones absolutas (La MEDA)
3. Estimadores de Forma
a) Índice de Yule; b) Índice de Simetría de Kelly; c) Curtosis;
4. Estimadores Gráficos o Diagramas
a) de Dispersión; b) de Tallo y Hojas; c) de Caja y Bigote;
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
No Tienen asociada ningún tipo de “distribución”
Tienen por objeto limitar la incidencia de “Valores Atípicos”
Busca estadísticos resistentes y robustos basados en “la mediana”
Estimadores Robustos de “Tendencia Central”
En los casos en los que el supuesto de normalidad deba ser
descartado, la estimación de parámetros debe basarse no en la media
muestral, sino en la mediana, estadístico mucho más robusto por su
mayor insensibilidad a la presencia de “valores atípicos”.
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
No Tienen asociada ningún tipo de “distribución”
Tienen por objeto limitar la incidencia de “Valores Atípicos”
Busca estadísticos resistentes y robustos basados en “la mediana”
Estimadores Robustos de “Tendencia Central”
Media Acotada Calcula la media recortada a un “%” de los datos
Media Winsorizada Sustituye los Valores Extremos por Valor Máximo y Mínimo
Trimedia Media Ponderada de las Medias del 1° y 3° Cuartil y el doble de la mediana
Estimadores M Minimizan el sesgo máximo y la varianza máxima
Estimadores L Combinan linealmente cuantiles de diferente orden
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
No Tienen asociada ningún tipo de “distribución”
Tienen por objeto limitar la incidencia de “Valores Atípicos”
Busca estadísticos resistentes y robustos basados en “la mediana”
Estimadores Robustos de “Tendencia Central”
Mediana de HODGES-LEHMANN Estimador α-media Equilibrada
Media Aritmética Múltiple Sucesiva Media Winsorizada
Trimedia de TUKEY Estimador BES
Método Danés Estimador M de Huber
Estimador L de HUBER Estimador de TAKASHI
7. Ejemplo 1
Muestras de 10 a 19 LOTES
Ejemplo 1
Muestra de entre 10 y 19 Datos
Muestra 1 Área Precio Precio Unitario
1 400 100,000 250.00
2 600 120,000 200.00
3 7000 450,000 64.29
4 600 123,000 205.00
5 500 111,000 222.00
6 500 109,000 218.00
7 500 112,000 224.00
8 450 105,000 233.33
9 400 105,000 262.50
10 400 102,000 255.00
11 450 110,000 244.44
12 450 108,000 240.00
13 500 112,000 224.00
14 50 50,000 1,000.00
X 690
Ejemplo 1
Muestra de entre 10 y 19 Datos
Descriptiva Serie Original
Análisis de Estadística

Área Precio Precio Unitario


Media 899.33 129,785.71 274.47 Media
Desviación estándar 1,693.56 93,732.99 214.28
Varianza de la muestra 2,868,149.52 8,785,873,626.37 45,914.04
Curtosis 14.75 12.90 12.36
Coeficiente de asimetría 3.83 3.51 3.39
Rango 6,950.00 400,000.00 935.71
Mínimo 50.00 50,000.00 64.29
Máximo 7,000.00 450,000.00 1,000.00
Suma 13,490.00 1,817,000.00 3,842.56
Ejemplo 1
Muestra de entre 10 y 19 Datos

¿Valor del Lote en Estudio?


𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑

Pero, recordemos que la “Media Aritmética”, cuando


tenemos menos de 30 Datos, no es un buen pronóstico

Entonces…
Ejemplo 1
Muestra de entre 10 y 19 Datos
Descriptiva Serie Original Área Precio Precio Unitario
Media 899.33 129,785.71 274.47
Análisis de Estadística

Error típico 437.28 25,051.20 57.27


Mediana 500.00 109,500.00 228.67 Mediana
Moda 500.00 112,000.00 224.00
Desviación estándar 1,693.56 93,732.99 214.28
Varianza de la muestra 2,868,149.52 8,785,873,626.37 45,914.04
Curtosis 14.75 12.90 12.36
Coeficiente de asimetría 3.83 3.51 3.39
Rango 6,950.00 400,000.00 935.71
Mínimo 50.00 50,000.00 64.29
Máximo 7,000.00 450,000.00 1,000.00
Suma 13,490.00 1,817,000.00 3,842.56
Cuenta 15.00 14.00 14.00
Mayor (1) 7,000.00 450,000.00 1,000.00
Menor(1) 50.00 50,000.00 64.29
Nivel de confianza(95.0%) 937.86 54,119.82 123.72
Ejemplo 1
Muestra de entre 10 y 19 Datos

¿Cual es el Valor del Lote en Estudio?


Si la “Media Aritmética”, no es un buen pronóstico cuando tenemos
menos de 30 Datos…

Entonces resulta mejor estimador la “Mediana”

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕


Ejemplo 1
Muestra de entre 10 y 19 Datos

y… si Aplicamos Análisis Exploratorio de Datos


“EDA”
Precio Unitario

1,000.00
1,200.00

1,000.00
Posibles Outliers o Atípicos
800.00

600.00

262.50

240.00
250.00

244.44

224.00
222.00

218.00

255.00
233.33
224.00
200.00

400.00 205.00
64.29

200.00

-
0 2 4 6 8 10 12 14 16
Ejemplo 1
Muestra de entre 10 y 19 Datos
Elección del Termino Central
• Se Calcula el “Error” (𝛿𝛿 ) o la Incertidumbre de los datos
Teoría de los Errores

• � − 𝑿𝑿𝒊𝒊 > 𝟑𝟑𝟑𝟑, se


Los elementos que cumplen con el criterio: 𝑿𝑿
considerarán como “Outliers" y deberán ser eliminados de la serie
𝟑𝟑𝟑𝟑 = 𝟑𝟑 × 𝟓𝟓𝟓𝟓. 𝟐𝟐𝟐𝟐 = 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖
Muestra 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Precio Unitario 250 200 64 205 222 218 224 233 263 255 244 240 224 1,000
𝑋𝑋𝑖 − 𝑋𝑋� > δ 24.47 74.47 210.18 69.47 52.47 56.47 50.47 41.14 11.97 19.47 30.02 34.47 50.47 725.53
Ejemplo 1
Muestra de entre 10 y 19 Datos
Muestra 1 Área Precio Precio Unitario
1 400 100,000 250.00
2 600 120,000 200.00
3 7000 450,000 64.29
eliminamos los Outliers 4 600 123,000 205.00
o Datos Atípicos de 5 500 111,000 222.00
6 500 109,000 218.00
nuestra Muestra 7 500 112,000 224.00
8 450 105,000 233.33
9 400 105,000 262.50
10 400 102,000 255.00
11 450 110,000 244.44
12 450 108,000 240.00
13 500 112,000 224.00
14 50 50,000 1,000.00
X 690
Ejemplo 1
Muestra de entre 10 y 19 Datos

Muestra 1 Área Precio Precio Unitario


1 400 100,000 250.00
Serie Modificada

2 600 120,000 200.00


3 600 123,000 205.00
4 500 111,000 222.00
5 500 109,000 218.00
6 500 112,000 224.00
7 450 105,000 233.33
8 400 105,000 262.50
9 400 102,000 255.00
10 450 110,000 244.44
11 450 108,000 240.00
12 500 112,000 224.00
X 690
Ejemplo 1
Muestra de entre 10 y 19 Datos

Diagrama de Dispersión – Serie Modificada


Precio Unitario

263
300.00

255
250

244

240
233
224

224
222

218
250.00 205
200

200.00

150.00

100.00

50.00

-
0 2 4 6 8 10 12 14
Ejemplo 1
Muestra de entre 10 y 19 Datos
Descriptiva Serie Modificada Área Precio Precio Unitario
Media 479.17 109,750.00 231.52
Análisis de Estadística
Media
Error típico 19.90 1,938.94 5.63
La Misma
Mediana 475.00 109,500.00 228.67
Mediana
Moda 500.00 112,000.00 224.00
Desviación estándar 68.95 6,716.67 19.49
Varianza de la muestra 4,753.79 45,113,636.36 379.83
Curtosis - 0.22 0.27 - 0.86
Coeficiente de asimetría 0.67 0.65 - 0.04
Rango 200.00 23,000.00 62.50
Mínimo 400.00 100,000.00 200.00
Extremos
Máximo 600.00 123,000.00 262.50
Suma 5,750.00 1,317,000.00 2,778.28
Cuenta 12.00 12.00 12.00
Mayor (1) 600.00 123,000.00 262.50
Menor(1) 400.00 100,000.00 200.00
Nivel de confianza(95.0%) 43.81 4,267.57 12.38
Ejemplo 1
Muestra de entre 10 y 19 Datos

¿Cual es el Valor del Lote en Estudio?


Al eliminar los datos Atípicos, se mitigan los sesgos que producen
los valores extremos, y entonces se realiza a la serie modificada la
obtención del Promedio de los datos de la muestra, luego…

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟕𝟕 𝑻𝑻𝑻𝑻𝑻𝑻 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒆𝒆𝒆𝒆 𝟏𝟏. 𝟐𝟐𝟐 𝒆𝒆𝒆𝒆 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒆𝒆𝒆𝒆 𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 𝒄𝒄𝒄𝒄𝒄𝒄 𝒍𝒍𝒍𝒍 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴
Ejemplo 2

Muestra menor de 10 LOTES


Ejemplo 2
Muestra de entre 10 y 19 Datos
Muestra 2 Área Precio Precio Unitario Precio Unitario
1 7000 450,000 64.29 Media 331.52 Media

Descriptiva Serie Original


2 600 123,000 205.00 Error típico 136.66

Análisis de Estadística
La Misma
3 450 105,000 233.33 Mediana 228.67
Mediana
4 400 105,000 262.50 Moda #N/A
5 500 112,000 224.00 Desviación estándar 334.74
6 50 50,000 1,000.00 Varianza de la muestra 112,050.38
X 690 Curtosis 5.20
Coeficiente de asimetría 2.20
Precio Unitario 1,000
Rango 935.71
Mínimo 64.29
1,200.00

Extremos
Máximo 1,000.00
1,000.00

Suma
800.00
1,989.12
600.00
Cuenta 6.00
263
233

224
205

400.00
Mayor (1) 1,000.00
64

200.00
Menor(1) 64.29
-
0 1 2 3 4 5 6 7 Nivel de confianza(95.0%) 351.29
Ejemplo 2
Muestra Menor de 10 Datos

¿Valor del Lote en Estudio?


𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟕𝟕

Como sabemos, la Media Aritmética no es confiable, en


Muestras menores de 30 datos … pero, entonces ¿resulta
mejor estimador la “Mediana” también en estos casos?
NO, ese solo es el punto de partida
Entonces…
para tratar los Datos de la Muestra
Ejemplo 2 - A
Muestra Menor de 10 Datos
- Lehmann”

Es la mediana de los promedios de los pares sucesivos de observaciones


Estimadores Robustos

de una muestra ordenada.


Precio Unitario Promedio de Pares
64.29
134.64
205.00
214.50
Mediana de “Hodges

224.00
228.67
233.33
247.92
262.50
631.25
1,000.00

Siendo la mediana de Hodges – Lehmann la mediana de esta nueva serie

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕


Ejemplo 2 - B
Muestra Menor de 10 Datos
“Media Aritmética Múltiple Sucesiva”
Se obtienen las medias sucesivas de pares de observaciones
Estimadores Robustos

consecutivas.
Promedio de Promedio de
Precio Unitario Pares 1 Pares 2 Promedio de
64.29 Promedio de
205.00 134.64 Pares 3
174.57 Pares 4 VALOR
224.00 214.50 198.08
221.59 213.765 248.92
233.33 228.67 229.45
238.3 284.2
262.50 247.92 338.95
439.59
1,000.00 631.25

Siendo el Promedio de la serie residual en la 5° Iteración el Termino


Central obtenido por este método = 248.92

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕


Ejemplo 2 - C
Muestra Menor de 10 Datos
Es un promedio pesado del primero, segundo y tercer cuartil; es decir, el
Estimadores Robustos

cuartil inferior ( 25 % ), cuartil medio o mediana ( 50 % ) y cuartil


“Trimedia de TUKEY”

superior ( 75 % ).
Precio
𝑿𝑿𝑻𝑻𝑻𝑻 = ¼ 𝑸𝑸𝟏𝟏 + ½ 𝑸𝑸𝟐𝟐 + ¼ 𝑸𝑸𝟑𝟑 N°
Unitario
Para Serie Simple Impar Para Serie Simple Par 1 64.29
𝑋𝑋(𝑛𝑛+1) 1 2 205.00 𝑄𝑄1 = 205.00
𝑄𝑄1 = 𝑄𝑄1 = 𝑋𝑋𝑋𝑋
4 4
𝑋𝑋(𝑛𝑛 +1) 1 𝑋𝑋𝑋𝑋 𝑋𝑋𝑋𝑋+1 3 224.00
𝑄𝑄2 = 𝑄𝑄2 = ( + ) 𝑄𝑄2 = 228.67
2
3 𝑋𝑋(𝑛𝑛+1)
2 2
3
2 4 233.33
𝑄𝑄3 = 𝑄𝑄3 = 𝑋𝑋𝑋𝑋 5 262.50 𝑄𝑄3 = 262.5
4 4
6 1,000.00
𝑿𝑿𝑻𝑻𝑻𝑻 = 𝟐𝟐𝟐𝟐𝟐 × 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟓𝟓𝟓𝟓𝟓 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 + 𝟐𝟐𝟐𝟐𝟐 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟑𝟑𝟑𝟑. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓


Ejemplo 2 - D
Muestra Menor de 10 Datos
Este método es iterativo, debido a que se ponderan paulatinamente los
Estimadores Robustos

Datos y los Valores Extremos (outliers) en cada iteración, hasta reducir la


incidencia de éstos últimos, a un nivel de Tolerancia admisible, en el sesgo
“Método Danés”

del término de tendencia central. Los Pesos asignados en cada iteración


deben cumplir la siguiente condición: � 𝟐𝟐
𝑿𝑿𝒊𝒊 −𝑿𝑿

(𝑲𝑲�𝜽𝜽)𝟐𝟐
� ≤ 𝑲𝑲 � 𝜽𝜽
𝑷𝑷 = 𝟏𝟏 ⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿 𝑷𝑷 = 𝒆𝒆 � > 𝑲𝑲 � 𝜽𝜽
⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿
Siendo :
• e = 2.718282 ( base de los logaritmos Neperianos )
• K = constante que adopta el valor de 2 o 3
• 𝜃𝜃 = exactitud adoptada para el grupo de mediciones.
Procedimiento
1. Calculamos la Media Aritmética de los Datos:
2. Calculamos los Valores Absolutos de las Diferencias vs la Media
3. Chequemos las Condiciones del Método a partir de 𝑿𝑿𝒊𝒊 − 𝑿𝑿� y Asignamos los Pesos a cada Dato
4. Obtenemos los nuevos Datos y Comenzamos nuevamente el Proceso, hasta que el Valor de la Media
del anterior Vs el nuevo cálculo, no varíen de manera importante
Ejemplo 2 - D
Muestra Menor de 10 Datos
Para nuestro Ejemplo, asumimos:

𝑿𝑿 K ϴ Kx ϴ e
Estimadores Robustos

332 3 40 120 2.718282

Iteración 1

Iteración 2

Iteración 3

Iteración 4
Peso1 (P1)

Peso2 (P2)

Peso3 (P3)

Peso4 (P4)
|X-Xmed|

|X-Xmed|

|X-Xmed|

|X-Xmed|
Original
“Método Danés”

Serie

1 64 267 0.0070 0 236 0.0211 0 229 0.0260 0 234 0.0222 0


2 205 127 0.3290 67 169 0.1386 9 227 0.0281 0 236 0.0210 0
3 224 108 1.0000 224 12 1.0000 224 12 1.0000 224 12 1.0000 224
4 233 98 1.0000 233 3 1.0000 233 3 1.0000 233 3 1.0000 233
5 263 69 1.0000 263 26 1.0000 263 26 1.0000 263 26 1.0000 263
6 1,000 668 0.0000 0 236 0.0208 0 236 0.0208 0 236 0.0208 0
Media 332 236 229 234 235
𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐

� > 𝟏𝟏𝟏𝟏𝟏𝟏 ⇒ 𝑷𝑷𝟏𝟏𝟏𝟏 = 𝒆𝒆
𝑿𝑿𝒊𝒊 − 𝑿𝑿 (𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 = 𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏


Ejemplo 2 - E
Muestra Menor de 10 Datos
Alfa-media Equilibrada”

En este estimador se elimina un número igual de observaciones en


Estimadores Robustos

cada extremo de una Serie simple, ordenada (de menor a mayor).


∑ 𝑿𝑿𝒊𝒊 • Si α = 1 se elimina una observación en
𝑿𝑿∝ = 𝟎𝟎 ≤ ∝ ≤ 𝟐𝟐 cada extremo.
𝒏𝒏 − 𝟐𝟐 × ∝ • Si α = 2 se eliminan dos observaciones
en cada extremo.
En nuestro Ejemplo:
N° Precio Unitario N° Precio Unitario 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓
𝑿𝑿∝ =
1 64.29 1 64.29 𝟔𝟔 − 𝟐𝟐 × 𝟏𝟏
2 205.00 2 205.00 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓
para α = 1 3 224.00 𝑿𝑿∝ =
3 224.00 𝟒𝟒
“Estimador

4 233.33 4 233.33
𝟗𝟗𝟗𝟗𝟗𝟗.𝟖𝟖𝟖𝟖
5 262.50 5 262.50 𝑿𝑿∝ = = 231.21
𝟒𝟒
6 1,000.00 6 1,000.00

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓


Ejemplo 2 - F
Muestra Menor de 10 Datos
Es análogo a las medias recortadas, excepto en que las puntuaciones
Estimadores Robustos

eliminadas, ya no lo son sino que se sustituyen por los valores menor y


“Media Winsorizada”

mayor que quedan para el cómputo de la Media Winsorizada.


Nivel 1: Implica sustituir el dato mayor y el dato menor.
Nivel 2: Implica sustituir los dos datos mayores y los 2 menores, etc.

En nuestro Ejemplo:
N° Datos N° Datos N° Datos 1
1 64 1 64 1 205 para Nivel = 1
2 205 2 205 2 205
3 224 3 224 3 224 𝑿𝑿 = 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐
𝑾𝑾
4 233 4 233 4 233 𝟔𝟔
5 262 5 262 5 262
6 1,000 6 1,000 6 262 𝑿𝑿𝑾𝑾 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗


Ejemplo 2 - G
Muestra Menor de 10 Datos
• Este método es iterativo, debido a que se ponderan paulatinamente los
Estimadores Robustos
“Estimador L de Huber”

Datos y los Valores Extremos (outliers) en cada iteración.


𝑲𝑲� 𝜹𝜹
� ≤ 𝑲𝑲 � 𝜹𝜹
𝑷𝑷 = 𝟏𝟏 ⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿 𝑷𝑷 = � > 𝑲𝑲 � 𝜹𝜹
⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿

𝑿𝑿𝒊𝒊 −𝑿𝑿
Siendo :
• K = constante que adopta el valor de 2 o 3 𝟏𝟏 ∑𝑵𝑵 � 𝟐𝟐
𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
• 𝛿𝛿 = Error Típico de la Población o Incertidumbre. 𝜹𝜹 = ×
𝒏𝒏 𝑵𝑵 − 𝟏𝟏
Procedimiento
1. Calculamos la Media Aritmética y El “Error Típico” de los Datos
2. Calculamos los Valores Absolutos de las Diferencias vs la Media
3. Chequemos las Condiciones del Método a partir de 𝑿𝑿𝒊𝒊 − 𝑿𝑿 � y Asignamos los Pesos a
cada Dato
4. Obtenemos los nuevos Datos y Comenzamos nuevamente el Proceso, hasta que el
Valor de la Media del anterior Vs el nuevo cálculo, no varíen de manera importante
Ejemplo 2 - G
Muestra Menor de 10 Datos

𝑿𝑿 K 𝛅𝛅 K x 𝛅𝛅
Para nuestro Ejemplo, asumimos:
Estimadores Robustos

332 2 136.66 273.32


“Estimador L de Huber”

Iteración 1

Iteración 2

Iteración 3
Peso1 (P1)

Peso2 (P2)

Peso3 (P3)
|X-Xmed|

|X-Xmed|

|X-Xmed|
Original
Serie

1 64 267 1.0000 64 194 1.0000 64 169 1.00 64


2 205 127 1.0000 205 53 1.0000 205 28 1.00 205
3 224 108 1.0000 224 34 1.0000 224 9 1.00 224
4 233 98 1.0000 233 25 1.0000 233 0 1.00 233
5 263 69 1.0000 263 4 1.0000 263 30 1.00 263
6 1,000 668 0.4089 1,000 150 1.0000 1,000 176 1.00 1,000
Media 332 258 233 233

𝟐𝟐𝟐𝟐𝟐𝟐
� > 𝟐𝟐𝟐𝟐𝟐𝟐 ⇒ 𝑷𝑷𝟏𝟏𝟏𝟏 =
𝑿𝑿𝒊𝒊 − 𝑿𝑿 = 𝟎𝟎. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝟔𝟔𝟔𝟔𝟔𝟔

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕


8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central, evitan
el “excesivo empleo” que los Tasadores hacen de la “media
aritmética”, la cual no es un buen estimador, cuando no
disponemos de suficientes datos, lo que resulta cotidiano en el
ejercicio profesional actual, y que por negligencia a sido
peligrosamente instaurado como admisible por algunos entes
reguladores oficiales de los estados Latinoamericanos.

 La enseñanza, propagación del conocimiento y el uso de Los


ESTIMADORES ROBUSTOS de orden, por parte de Los
Tasadores, debe ser una Política de Urgente aplicación en todas
las Asociaciones de Tasación de Latinoamérica.
8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central, reducen
la exclusión arbitraria de Datos “Outliers”, cuando surgen casos
en los que por la poca cantidad de datos, se hace indispensable
transformar los Datos Atípicos y nunca eliminarlos.

 La aplicación del Cálculo de la Media Aritmética como estimador


de la Media Poblacional, a partir de muestras inferiores a 30
datos, resulta una inexactitud que conduce a que nuestros
dictámenes sean Impugnados por “Error Grave”, ya que esto
implica asumir una distribución normal para la población, lo cual
es muy aventurado, dada la muy escasa probabilidad de que así
sea.
8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central
proporcionan una alternativa confiable, para estimar el
comportamiento del mercado, ante la escases de datos o la
dificultad de obtenerlos, lo que resulta cotidiano en nuestras
ciudades panamericanas.

 Previo a cualquier análisis estadístico, es necesario un examen


cualitativo de los datos, mediante el “Análisis Exploratorio de Los
Datos” (EDA).
SOFT-CARE
 Ahora, veamos como todos estos estimadores, los podemos
calcular rápidamente, mediante un sencillo programa, que hemos
estado diseñando conjuntamente el reconocido Colega Tasador
Colombiano Ing. Luis Orlando Castillo y este servidor.

 En la actualidad, el Dr. Castillo, cursa en su 3° Cohorte, la


especialización que adelantan mediante convenio académico de
la Lonja de Medellín (Colombia) y la Universidad Politécnica de
Valencia España.
SOFT-CARE

 Para estimular la difusión y propagación del uso de los


Estimadores Robustos, entre los tasadores Latinoamericanos,
hemos resuelto el Colega Castillo y Yo, subir una “Versión
Gratuita” del Programa de Calculo en el Blog que administro.

tasacionesdemedellinyantioquia.blogspot.com

Gracias

You might also like