Estimación Robusta de Tendencia Central - Ponencia LFRG - BLQ

Tratamiento de Los Datos de la Muestra para que
“Estimadores Robustos de Tendencia Central” sean

adecuados Predictores del Mercado
Ing. MSc. Luis Fernando Restrepo Gómez

Temario
1. Definiciones.
2. Antecedentes
3. Tamaño de la Muestra
4. Criterios para Decidir como Tratar los Datos
5. Estadística Descriptiva
6. Análisis Exploratorio de Datos “EDA”
7. Ejemplos
8. Conclusiones
1. Definiciones
• La ESTIMACIÓN, consiste en construir un modelo funcional a
partir de los datos que se extraen de la Población (muestra) y a
partir de ellos, se infiere los parámetros de la misma. (Ej. µ; Ϭ; π)
Parámetros:
• Media µ
• Error Est 𝜹𝜹
• Proporción ∏
• Tamaño N
1. Definiciones
• La ESTIMACIÓN, consiste en construir un modelo funcional a
partir de los datos que se extraen de la Población (muestra) y a
partir de ellos, se infiere los parámetros de la misma. (Ej. µ; Ϭ; π)
Estadísticos
• Media X
• Desviación Estándar S
• Proporción P
• Tamaño n
Parámetros:
• Media µ
• Error Est 𝜹𝜹
• Proporción ∏
• Tamaño N
1. Definiciones
• El ESTIMADOR, puede ser una expresión matemática o
un algoritmo de cálculo
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 ∑𝑵𝑵 � 𝟐𝟐
�=
𝑿𝑿 𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
𝒏𝒏 𝒔𝒔 =
𝑵𝑵 − 𝟏𝟏
Media Aritmética de la Muestra Desviación Típica de Muestra < de 30 datos
𝟏𝟏 ∑𝑵𝑵 �
𝒊𝒊=𝟏𝟏 𝑿𝑿𝒊𝒊 − 𝑿𝑿
𝟐𝟐
𝜹𝜹 = × 𝑵𝑵 − 𝒏𝒏 ∑𝑵𝑵 �
𝟐𝟐
𝒏𝒏 𝑵𝑵 − 𝟏𝟏 𝜹𝜹 = ×
𝑵𝑵 − 𝟏𝟏 𝑵𝑵 − 𝟏𝟏
Error Estándar a partir de la Desviación Típica N° Datos > 20 Error Estándar a partir de la Desviación Típica N° Datos ≤ 20
1. Definiciones
• Variabilidad, para saber cuán representativo es el valor de
una medida de tendencia central, es necesario tener una
medida de la dispersión de los datos respecto a un
“Estimador de Tendencia Central” como la Media o la
Mediana
• MEDA, es la Mediana del valor MEDA - Medida Robusta de Variabilidad
absoluto de las diferencias 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 = 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 𝑿𝑿𝒊𝒊 − 𝑴𝑴𝑴𝑴

frente a la mediana
1. Definiciones
Medidas de Tendencia Central, son medidas estadísticas de
posición, que indican un valor central en representación de la
disposición de los datos. Son: La Media; La Mediana y La Moda
• Ejemplo: con las calificaciones 4; 7; 5; 6; 5; 4; 5; 5; 5; 6; 5; 4; 4
Se nota a simple vista, que los datos están en torno a 5 (cinco), el
cual podría ser tomado como índice de tendencia central y es
razonable que sean parecidos los “Estimadores” Media, Mediana y
Moda”. (en este caso coinciden en 5)
2. Tendencia central
• Que pasa cuando hay datos atípicos (Extremos) en
la muestra?
• Ejemplo: con las calificaciones 4; 7; 5; 6; 5; 4; 5; 5; 5; 6; 5; 39; 4
• Se nota a simple vista, que los datos están en torno a 5 (cinco), sin
embargo, la Media aritmética, no mostraría adecuadamente el
comportamiento de los datos y por ello, NO podría ser tomado
como índice de tendencia central. (en este caso 𝑋𝑋� = 7.69)
2. Antecedentes
• Entonces como hemos hecho?
Simplemente hemos eliminado el Dato Atípico también
llamado “Outlier” y nuevamente estimamos la Media
Aritmética.
• Y como decidimos si un dato es Atípico?
a) Arbitrariamente, decido eliminar los extremos
b) Pregunto a un colega que hago
c) Por Análisis Exploratorio de los Datos “EDA”
3. Tamaño de Muestra
𝑍𝑍 2 × 𝝈𝝈2
𝑛𝑛 =
𝐸𝐸 2 • Nivel de Confianza “Z”
a) 99% a) Z = 2.575
b) 95% b) Z = 1.96
c) 90% c) Z = 1.645
• Error Muestral Admisible “E”

a) 3%
b) 5%
c) 10%
4. Criterios de
Selección Método
Tipos de Análisis Estadístico Apropiado
En la Estadística, según el número de datos disponibles, existen herramientas que son
más, o son menos, eficientes para efectuar una ESTIMACIÓN apropiada y a través de
un estimador, expresar razonablemente, una característica de la población
Muestras N° de Datos ≥ 30 Inferencia Estadística; Geoestadística; RNA, etc.

Muestras 20 ≤ N° Datos < 30 Análisis para Datos Agrupados en Clases
Muestras 10 ≤ N° Datos < 20 Teoría de Los Errores
Muestras 5 ≤ N° Datos < 10 Estimadores Robustos de Tendencia Central
Muestras 2 ≤ N° Datos < 10 Análisis Multicriterio (AHP; Critic)
5. Estadística
Descriptiva
Estimadores Clásicos o Paramétricos de Tendencia Central
Media Mediana Moda
Tienen asociada un tipo de “distribución normal” de los residuos
La suma de diferencias (de Se ve menos afectada por No es necesariamente única,
todos los valores) respecto a datos atípicos que la media pues pueden haber varias
la media es siempre cero (0) aritmética modas
Minimiza la suma de
Minimiza la suma de Se puede calcular con datos
diferencias en términos
diferencias en valor absoluto en escala nominal
cuadráticos.
Utiliza todos los datos No utiliza todos los datos
6. Análisis Exploratorio
de Datos “EDA”
Estimadores Robustos o No Paramétricos
El análisis exploratorio de datos (EDA), según unos, nueva rama de la
estadística, según otros, una extensión de la estadística descriptiva, que
adopta un cambio de actitud y de enfoque metodológico ante el análisis
de datos.
• El EDA propugna que previo a cualquier análisis estadístico, es
necesario un examen cualitativo de los datos.
• Pretende detectar anomalías o errores en las distribuciones
univariantes de los datos.
• Busca estimadores robustos y resistentes, basados en las
estadísticas de orden y centrados en la mediana.
de Datos “EDA”
1. Estimadores de Tendencia Central
a) Mediana; b) Promedio de Cuartiles; c) Trimedia; d) Centri-Media (MID)
2. Estimadores de Dispersión
a) Amplitud intercuartílica; b) Mediana de desviaciones absolutas (La MEDA)
3. Estimadores de Forma
a) Índice de Yule; b) Índice de Simetría de Kelly; c) Curtosis;
4. Estimadores Gráficos o Diagramas
a) de Dispersión; b) de Tallo y Hojas; c) de Caja y Bigote;
de Datos “EDA”
No Tienen asociada ningún tipo de “distribución”
Tienen por objeto limitar la incidencia de “Valores Atípicos”
Busca estadísticos resistentes y robustos basados en “la mediana”
Estimadores Robustos de “Tendencia Central”
En los casos en los que el supuesto de normalidad deba ser
descartado, la estimación de parámetros debe basarse no en la media
muestral, sino en la mediana, estadístico mucho más robusto por su
mayor insensibilidad a la presencia de “valores atípicos”.
de Datos “EDA”
Media Acotada Calcula la media recortada a un “%” de los datos
Media Winsorizada Sustituye los Valores Extremos por Valor Máximo y Mínimo
Trimedia Media Ponderada de las Medias del 1° y 3° Cuartil y el doble de la mediana
Estimadores M Minimizan el sesgo máximo y la varianza máxima
Estimadores L Combinan linealmente cuantiles de diferente orden
de Datos “EDA”
Mediana de HODGES-LEHMANN Estimador α-media Equilibrada
Media Aritmética Múltiple Sucesiva Media Winsorizada
Trimedia de TUKEY Estimador BES
Método Danés Estimador M de Huber
Estimador L de HUBER Estimador de TAKASHI
7. Ejemplo 1
Muestras de 10 a 19 LOTES
Ejemplo 1
Muestra de entre 10 y 19 Datos
Muestra 1 Área Precio Precio Unitario
1 400 100,000 250.00
2 600 120,000 200.00
3 7000 450,000 64.29
4 600 123,000 205.00
5 500 111,000 222.00
6 500 109,000 218.00
7 500 112,000 224.00
8 450 105,000 233.33
9 400 105,000 262.50
10 400 102,000 255.00
11 450 110,000 244.44
12 450 108,000 240.00
13 500 112,000 224.00
14 50 50,000 1,000.00
X 690
Ejemplo 1
Descriptiva Serie Original
Análisis de Estadística
Área Precio Precio Unitario

Media 899.33 129,785.71 274.47 Media
Desviación estándar 1,693.56 93,732.99 214.28
Varianza de la muestra 2,868,149.52 8,785,873,626.37 45,914.04
Curtosis 14.75 12.90 12.36
Coeficiente de asimetría 3.83 3.51 3.39
Rango 6,950.00 400,000.00 935.71
Mínimo 50.00 50,000.00 64.29
Máximo 7,000.00 450,000.00 1,000.00
Suma 13,490.00 1,817,000.00 3,842.56
Ejemplo 1
¿Valor del Lote en Estudio?

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑
Pero, recordemos que la “Media Aritmética”, cuando

tenemos menos de 30 Datos, no es un buen pronóstico
Entonces…
Ejemplo 1
Descriptiva Serie Original Área Precio Precio Unitario
Media 899.33 129,785.71 274.47
Error típico 437.28 25,051.20 57.27

Mediana 500.00 109,500.00 228.67 Mediana
Moda 500.00 112,000.00 224.00
Desviación estándar 1,693.56 93,732.99 214.28
Varianza de la muestra 2,868,149.52 8,785,873,626.37 45,914.04
Curtosis 14.75 12.90 12.36
Coeficiente de asimetría 3.83 3.51 3.39
Rango 6,950.00 400,000.00 935.71
Mínimo 50.00 50,000.00 64.29
Máximo 7,000.00 450,000.00 1,000.00
Suma 13,490.00 1,817,000.00 3,842.56
Cuenta 15.00 14.00 14.00
Mayor (1) 7,000.00 450,000.00 1,000.00
Menor(1) 50.00 50,000.00 64.29
Nivel de confianza(95.0%) 937.86 54,119.82 123.72
Ejemplo 1
¿Cual es el Valor del Lote en Estudio?

Si la “Media Aritmética”, no es un buen pronóstico cuando tenemos
menos de 30 Datos…
Entonces resulta mejor estimador la “Mediana”
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

Ejemplo 1
y… si Aplicamos Análisis Exploratorio de Datos

“EDA”
Precio Unitario
1,000.00
1,200.00
1,000.00
Posibles Outliers o Atípicos
800.00
600.00
262.50
240.00
250.00
244.44
224.00
222.00
218.00
255.00
233.33
224.00
200.00
400.00 205.00
64.29
200.00
-
0 2 4 6 8 10 12 14 16
Ejemplo 1
Elección del Termino Central
• Se Calcula el “Error” (𝛿𝛿 ) o la Incertidumbre de los datos
Teoría de los Errores
• � − 𝑿𝑿𝒊𝒊 > 𝟑𝟑𝟑𝟑, se

Los elementos que cumplen con el criterio: 𝑿𝑿
considerarán como “Outliers" y deberán ser eliminados de la serie
𝟑𝟑𝟑𝟑 = 𝟑𝟑 × 𝟓𝟓𝟓𝟓. 𝟐𝟐𝟐𝟐 = 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖
Muestra 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Precio Unitario 250 200 64 205 222 218 224 233 263 255 244 240 224 1,000
𝑋𝑋𝑖 − 𝑋𝑋� > δ 24.47 74.47 210.18 69.47 52.47 56.47 50.47 41.14 11.97 19.47 30.02 34.47 50.47 725.53
Ejemplo 1
1 400 100,000 250.00
2 600 120,000 200.00
3 7000 450,000 64.29
eliminamos los Outliers 4 600 123,000 205.00
o Datos Atípicos de 5 500 111,000 222.00
6 500 109,000 218.00
nuestra Muestra 7 500 112,000 224.00
8 450 105,000 233.33
9 400 105,000 262.50
10 400 102,000 255.00
11 450 110,000 244.44
12 450 108,000 240.00
13 500 112,000 224.00
14 50 50,000 1,000.00
X 690
Ejemplo 1

1 400 100,000 250.00
Serie Modificada
2 600 120,000 200.00

3 600 123,000 205.00
4 500 111,000 222.00
5 500 109,000 218.00
6 500 112,000 224.00
7 450 105,000 233.33
8 400 105,000 262.50
9 400 102,000 255.00
10 450 110,000 244.44
11 450 108,000 240.00
12 500 112,000 224.00
X 690
Ejemplo 1
Diagrama de Dispersión – Serie Modificada

Precio Unitario
263
300.00
255
250
244
240
233
224
224
222
218
250.00 205
200
200.00
150.00
100.00
50.00
-
0 2 4 6 8 10 12 14
Ejemplo 1
Descriptiva Serie Modificada Área Precio Precio Unitario
Media 479.17 109,750.00 231.52
Media
Error típico 19.90 1,938.94 5.63
La Misma
Mediana 475.00 109,500.00 228.67
Mediana
Moda 500.00 112,000.00 224.00
Desviación estándar 68.95 6,716.67 19.49
Varianza de la muestra 4,753.79 45,113,636.36 379.83
Curtosis - 0.22 0.27 - 0.86
Coeficiente de asimetría 0.67 0.65 - 0.04
Rango 200.00 23,000.00 62.50
Mínimo 400.00 100,000.00 200.00
Extremos
Máximo 600.00 123,000.00 262.50
Suma 5,750.00 1,317,000.00 2,778.28
Cuenta 12.00 12.00 12.00
Mayor (1) 600.00 123,000.00 262.50
Menor(1) 400.00 100,000.00 200.00
Nivel de confianza(95.0%) 43.81 4,267.57 12.38
Ejemplo 1
¿Cual es el Valor del Lote en Estudio?

Al eliminar los datos Atípicos, se mitigan los sesgos que producen
los valores extremos, y entonces se realiza a la serie modificada la
obtención del Promedio de los datos de la muestra, luego…
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕
𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟕𝟕 𝑻𝑻𝑻𝑻𝑻𝑻 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒆𝒆𝒆𝒆 𝟏𝟏. 𝟐𝟐𝟐 𝒆𝒆𝒆𝒆 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒆𝒆𝒆𝒆 𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 𝒄𝒄𝒄𝒄𝒄𝒄 𝒍𝒍𝒍𝒍 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴
Ejemplo 2
Muestra menor de 10 LOTES

Ejemplo 2
Muestra 2 Área Precio Precio Unitario Precio Unitario
1 7000 450,000 64.29 Media 331.52 Media
Descriptiva Serie Original

2 600 123,000 205.00 Error típico 136.66
La Misma
3 450 105,000 233.33 Mediana 228.67
Mediana
4 400 105,000 262.50 Moda #N/A
5 500 112,000 224.00 Desviación estándar 334.74
6 50 50,000 1,000.00 Varianza de la muestra 112,050.38
X 690 Curtosis 5.20
Coeficiente de asimetría 2.20
Precio Unitario 1,000
Rango 935.71
Mínimo 64.29
1,200.00
Extremos
Máximo 1,000.00
1,000.00
Suma
800.00
1,989.12
600.00
Cuenta 6.00
263
233
224
205
400.00
Mayor (1) 1,000.00
64
200.00
Menor(1) 64.29
-
0 1 2 3 4 5 6 7 Nivel de confianza(95.0%) 351.29
Ejemplo 2
Muestra Menor de 10 Datos
¿Valor del Lote en Estudio?

𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟕𝟕
Como sabemos, la Media Aritmética no es confiable, en

Muestras menores de 30 datos … pero, entonces ¿resulta
mejor estimador la “Mediana” también en estos casos?
NO, ese solo es el punto de partida
Entonces…
para tratar los Datos de la Muestra
Ejemplo 2 - A
- Lehmann”
Es la mediana de los promedios de los pares sucesivos de observaciones

Estimadores Robustos
de una muestra ordenada.

Precio Unitario Promedio de Pares
64.29
134.64
205.00
214.50
Mediana de “Hodges
224.00
228.67
233.33
247.92
262.50
631.25
1,000.00
Siendo la mediana de Hodges – Lehmann la mediana de esta nueva serie
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

Ejemplo 2 - B
“Media Aritmética Múltiple Sucesiva”
Se obtienen las medias sucesivas de pares de observaciones
consecutivas.
Promedio de Promedio de
Precio Unitario Pares 1 Pares 2 Promedio de
64.29 Promedio de
205.00 134.64 Pares 3
174.57 Pares 4 VALOR
224.00 214.50 198.08
221.59 213.765 248.92
233.33 228.67 229.45
238.3 284.2
262.50 247.92 338.95
439.59
1,000.00 631.25
Siendo el Promedio de la serie residual en la 5° Iteración el Termino

Central obtenido por este método = 248.92
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

Ejemplo 2 - C
Es un promedio pesado del primero, segundo y tercer cuartil; es decir, el
cuartil inferior ( 25 % ), cuartil medio o mediana ( 50 % ) y cuartil

“Trimedia de TUKEY”
superior ( 75 % ).
Precio
𝑿𝑿𝑻𝑻𝑻𝑻 = ¼ 𝑸𝑸𝟏𝟏 + ½ 𝑸𝑸𝟐𝟐 + ¼ 𝑸𝑸𝟑𝟑 N°
Unitario
Para Serie Simple Impar Para Serie Simple Par 1 64.29
𝑋𝑋(𝑛𝑛+1) 1 2 205.00 𝑄𝑄1 = 205.00
𝑄𝑄1 = 𝑄𝑄1 = 𝑋𝑋𝑋𝑋
4 4
𝑋𝑋(𝑛𝑛 +1) 1 𝑋𝑋𝑋𝑋 𝑋𝑋𝑋𝑋+1 3 224.00
𝑄𝑄2 = 𝑄𝑄2 = ( + ) 𝑄𝑄2 = 228.67
2
3 𝑋𝑋(𝑛𝑛+1)
2 2
3
2 4 233.33
𝑄𝑄3 = 𝑄𝑄3 = 𝑋𝑋𝑋𝑋 5 262.50 𝑄𝑄3 = 262.5
4 4
6 1,000.00
𝑿𝑿𝑻𝑻𝑻𝑻 = 𝟐𝟐𝟐𝟐𝟐 × 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟓𝟓𝟓𝟓𝟓 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 + 𝟐𝟐𝟐𝟐𝟐 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟑𝟑𝟑𝟑. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓

Ejemplo 2 - D
Este método es iterativo, debido a que se ponderan paulatinamente los
Datos y los Valores Extremos (outliers) en cada iteración, hasta reducir la

incidencia de éstos últimos, a un nivel de Tolerancia admisible, en el sesgo
“Método Danés”
del término de tendencia central. Los Pesos asignados en cada iteración

deben cumplir la siguiente condición: � 𝟐𝟐
𝑿𝑿𝒊𝒊 −𝑿𝑿
−
(𝑲𝑲�𝜽𝜽)𝟐𝟐
� ≤ 𝑲𝑲 � 𝜽𝜽
𝑷𝑷 = 𝟏𝟏 ⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿 𝑷𝑷 = 𝒆𝒆 � > 𝑲𝑲 � 𝜽𝜽
⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿
Siendo :
• e = 2.718282 ( base de los logaritmos Neperianos )
• K = constante que adopta el valor de 2 o 3
• 𝜃𝜃 = exactitud adoptada para el grupo de mediciones.
Procedimiento
1. Calculamos la Media Aritmética de los Datos:
2. Calculamos los Valores Absolutos de las Diferencias vs la Media
3. Chequemos las Condiciones del Método a partir de 𝑿𝑿𝒊𝒊 − 𝑿𝑿� y Asignamos los Pesos a cada Dato
4. Obtenemos los nuevos Datos y Comenzamos nuevamente el Proceso, hasta que el Valor de la Media
del anterior Vs el nuevo cálculo, no varíen de manera importante
Ejemplo 2 - D
Para nuestro Ejemplo, asumimos:
�
𝑿𝑿 K ϴ Kx ϴ e
332 3 40 120 2.718282
Iteración 1
Iteración 2
Iteración 3
Iteración 4
Peso1 (P1)
Peso2 (P2)
Peso3 (P3)
Peso4 (P4)
|X-Xmed|
|X-Xmed|
|X-Xmed|
|X-Xmed|
Original
“Método Danés”
Serie
N°
1 64 267 0.0070 0 236 0.0211 0 229 0.0260 0 234 0.0222 0

2 205 127 0.3290 67 169 0.1386 9 227 0.0281 0 236 0.0210 0
3 224 108 1.0000 224 12 1.0000 224 12 1.0000 224 12 1.0000 224
4 233 98 1.0000 233 3 1.0000 233 3 1.0000 233 3 1.0000 233
5 263 69 1.0000 263 26 1.0000 263 26 1.0000 263 26 1.0000 263
6 1,000 668 0.0000 0 236 0.0208 0 236 0.0208 0 236 0.0208 0
Media 332 236 229 234 235
𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐
−
� > 𝟏𝟏𝟏𝟏𝟏𝟏 ⇒ 𝑷𝑷𝟏𝟏𝟏𝟏 = 𝒆𝒆
𝑿𝑿𝒊𝒊 − 𝑿𝑿 (𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 = 𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏

Ejemplo 2 - E
Alfa-media Equilibrada”
En este estimador se elimina un número igual de observaciones en

cada extremo de una Serie simple, ordenada (de menor a mayor).

∑ 𝑿𝑿𝒊𝒊 • Si α = 1 se elimina una observación en
𝑿𝑿∝ = 𝟎𝟎 ≤ ∝ ≤ 𝟐𝟐 cada extremo.
𝒏𝒏 − 𝟐𝟐 × ∝ • Si α = 2 se eliminan dos observaciones
en cada extremo.
En nuestro Ejemplo:
N° Precio Unitario N° Precio Unitario 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓
𝑿𝑿∝ =
1 64.29 1 64.29 𝟔𝟔 − 𝟐𝟐 × 𝟏𝟏
2 205.00 2 205.00 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓
para α = 1 3 224.00 𝑿𝑿∝ =
3 224.00 𝟒𝟒
“Estimador
4 233.33 4 233.33
𝟗𝟗𝟗𝟗𝟗𝟗.𝟖𝟖𝟖𝟖
5 262.50 5 262.50 𝑿𝑿∝ = = 231.21
𝟒𝟒
6 1,000.00 6 1,000.00
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓

Ejemplo 2 - F
Es análogo a las medias recortadas, excepto en que las puntuaciones
eliminadas, ya no lo son sino que se sustituyen por los valores menor y

“Media Winsorizada”
mayor que quedan para el cómputo de la Media Winsorizada.

Nivel 1: Implica sustituir el dato mayor y el dato menor.
Nivel 2: Implica sustituir los dos datos mayores y los 2 menores, etc.
En nuestro Ejemplo:
N° Datos N° Datos N° Datos 1
1 64 1 64 1 205 para Nivel = 1
2 205 2 205 2 205
3 224 3 224 3 224 𝑿𝑿 = 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐
𝑾𝑾
4 233 4 233 4 233 𝟔𝟔
5 262 5 262 5 262
6 1,000 6 1,000 6 262 𝑿𝑿𝑾𝑾 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗

Ejemplo 2 - G
• Este método es iterativo, debido a que se ponderan paulatinamente los
“Estimador L de Huber”
Datos y los Valores Extremos (outliers) en cada iteración.

𝑲𝑲� 𝜹𝜹
� ≤ 𝑲𝑲 � 𝜹𝜹
𝑷𝑷 = 𝟏𝟏 ⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿 𝑷𝑷 = � > 𝑲𝑲 � 𝜹𝜹
⇒ 𝑿𝑿𝒊𝒊 − 𝑿𝑿
�
𝑿𝑿𝒊𝒊 −𝑿𝑿
Siendo :
• K = constante que adopta el valor de 2 o 3 𝟏𝟏 ∑𝑵𝑵 � 𝟐𝟐
• 𝛿𝛿 = Error Típico de la Población o Incertidumbre. 𝜹𝜹 = ×
𝒏𝒏 𝑵𝑵 − 𝟏𝟏
Procedimiento
1. Calculamos la Media Aritmética y El “Error Típico” de los Datos
2. Calculamos los Valores Absolutos de las Diferencias vs la Media
3. Chequemos las Condiciones del Método a partir de 𝑿𝑿𝒊𝒊 − 𝑿𝑿 � y Asignamos los Pesos a
cada Dato
4. Obtenemos los nuevos Datos y Comenzamos nuevamente el Proceso, hasta que el
Valor de la Media del anterior Vs el nuevo cálculo, no varíen de manera importante
Ejemplo 2 - G
�
𝑿𝑿 K 𝛅𝛅 K x 𝛅𝛅
Para nuestro Ejemplo, asumimos:
332 2 136.66 273.32

“Estimador L de Huber”
Iteración 1
Iteración 2
Iteración 3
Peso1 (P1)
Peso2 (P2)
Peso3 (P3)
|X-Xmed|
|X-Xmed|
|X-Xmed|
Original
Serie
N°
1 64 267 1.0000 64 194 1.0000 64 169 1.00 64

2 205 127 1.0000 205 53 1.0000 205 28 1.00 205
3 224 108 1.0000 224 34 1.0000 224 9 1.00 224
4 233 98 1.0000 233 25 1.0000 233 0 1.00 233
5 263 69 1.0000 263 4 1.0000 263 30 1.00 263
6 1,000 668 0.4089 1,000 150 1.0000 1,000 176 1.00 1,000
Media 332 258 233 233
𝟐𝟐𝟐𝟐𝟐𝟐
� > 𝟐𝟐𝟐𝟐𝟐𝟐 ⇒ 𝑷𝑷𝟏𝟏𝟏𝟏 =
𝑿𝑿𝒊𝒊 − 𝑿𝑿 = 𝟎𝟎. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝟔𝟔𝟔𝟔𝟔𝟔
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central, evitan
el “excesivo empleo” que los Tasadores hacen de la “media
aritmética”, la cual no es un buen estimador, cuando no
disponemos de suficientes datos, lo que resulta cotidiano en el
ejercicio profesional actual, y que por negligencia a sido
peligrosamente instaurado como admisible por algunos entes
reguladores oficiales de los estados Latinoamericanos.
 La enseñanza, propagación del conocimiento y el uso de Los

ESTIMADORES ROBUSTOS de orden, por parte de Los
Tasadores, debe ser una Política de Urgente aplicación en todas
las Asociaciones de Tasación de Latinoamérica.
8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central, reducen
la exclusión arbitraria de Datos “Outliers”, cuando surgen casos
en los que por la poca cantidad de datos, se hace indispensable
transformar los Datos Atípicos y nunca eliminarlos.
 La aplicación del Cálculo de la Media Aritmética como estimador

de la Media Poblacional, a partir de muestras inferiores a 30
datos, resulta una inexactitud que conduce a que nuestros
dictámenes sean Impugnados por “Error Grave”, ya que esto
implica asumir una distribución normal para la población, lo cual
es muy aventurado, dada la muy escasa probabilidad de que así
sea.
8. Conclusiones
 Los ESTIMADORES ROBUSTOS de Tendencia Central
proporcionan una alternativa confiable, para estimar el
comportamiento del mercado, ante la escases de datos o la
dificultad de obtenerlos, lo que resulta cotidiano en nuestras
ciudades panamericanas.
 Previo a cualquier análisis estadístico, es necesario un examen

cualitativo de los datos, mediante el “Análisis Exploratorio de Los
Datos” (EDA).
SOFT-CARE
 Ahora, veamos como todos estos estimadores, los podemos
calcular rápidamente, mediante un sencillo programa, que hemos
estado diseñando conjuntamente el reconocido Colega Tasador
Colombiano Ing. Luis Orlando Castillo y este servidor.
 En la actualidad, el Dr. Castillo, cursa en su 3° Cohorte, la

especialización que adelantan mediante convenio académico de
la Lonja de Medellín (Colombia) y la Universidad Politécnica de
Valencia España.
SOFT-CARE
 Para estimular la difusión y propagación del uso de los

Estimadores Robustos, entre los tasadores Latinoamericanos,
hemos resuelto el Colega Castillo y Yo, subir una “Versión
Gratuita” del Programa de Calculo en el Blog que administro.
tasacionesdemedellinyantioquia.blogspot.com
Gracias

Estimación Robusta de Tendencia Central - Ponencia LFRG - BLQ

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estimación Robusta de Tendencia Central - Ponencia LFRG - BLQ

Uploaded by

Copyright:

Available Formats

Tratamiento de Los Datos de la Muestra para que

“Estimadores Robustos de Tendencia Central” sean

Ing. MSc. Luis Fernando Restrepo Gómez

absoluto de las diferencias 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 = 𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 𝑿𝑿𝒊𝒊 − 𝑴𝑴𝑴𝑴

• Error Muestral Admisible “E”

Muestras N° de Datos ≥ 30 Inferencia Estadística; Geoestadística; RNA, etc.

Área Precio Precio Unitario

¿Valor del Lote en Estudio?

Pero, recordemos que la “Media Aritmética”, cuando

Error típico 437.28 25,051.20 57.27

¿Cual es el Valor del Lote en Estudio?

Entonces resulta mejor estimador la “Mediana”

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

y… si Aplicamos Análisis Exploratorio de Datos

• � − 𝑿𝑿𝒊𝒊 > 𝟑𝟑𝟑𝟑, se

Muestra 1 Área Precio Precio Unitario

2 600 120,000 200.00

Diagrama de Dispersión – Serie Modificada

¿Cual es el Valor del Lote en Estudio?

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟓𝟓𝟓𝟓 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

Muestra menor de 10 LOTES

Descriptiva Serie Original

¿Valor del Lote en Estudio?

Como sabemos, la Media Aritmética no es confiable, en

Es la mediana de los promedios de los pares sucesivos de observaciones

de una muestra ordenada.

Siendo la mediana de Hodges – Lehmann la mediana de esta nueva serie

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟔𝟔𝟔𝟔 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

Siendo el Promedio de la serie residual en la 5° Iteración el Termino

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

cuartil inferior ( 25 % ), cuartil medio o mediana ( 50 % ) y cuartil

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟑𝟑𝟑𝟑. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓

Datos y los Valores Extremos (outliers) en cada iteración, hasta reducir la

del término de tendencia central. Los Pesos asignados en cada iteración

332 3 40 120 2.718282

1 64 267 0.0070 0 236 0.0211 0 229 0.0260 0 234 0.0222 0

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏

En este estimador se elimina un número igual de observaciones en

cada extremo de una Serie simple, ordenada (de menor a mayor).

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓

eliminadas, ya no lo son sino que se sustituyen por los valores menor y

mayor que quedan para el cómputo de la Media Winsorizada.

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗

Datos y los Valores Extremos (outliers) en cada iteración.

332 2 136.66 273.32

1 64 267 1.0000 64 194 1.0000 64 169 1.00 64

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑳𝑳𝑳𝑳𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔𝟔𝟔 × 𝟐𝟐𝟐𝟐𝟐𝟐 = 𝑼𝑼𝑼𝑼 $ 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕

 La enseñanza, propagación del conocimiento y el uso de Los

 La aplicación del Cálculo de la Media Aritmética como estimador

 Previo a cualquier análisis estadístico, es necesario un examen

 En la actualidad, el Dr. Castillo, cursa en su 3° Cohorte, la

 Para estimular la difusión y propagación del uso de los

You might also like