You are on page 1of 14

Tarea 1

Mariella Tognarelli

2022-08-23

Pregunta 1
En un estudio se aplicó un veneno a 40 ratones para evaluar su efectividad. El per-
sonal acargo realizó un seguimiento vigilando los animales cada 5 minutos hasta que todos
muerieron, reportando la siguiente tabla

Considerando esta información, estime y grafique la función de sobrevivencia, densidad y


riesgo.
Para contestar la pregunta, se añadieron columnas a la tabla entregada en el enunciado considerando lo
siguiente:

1
Consideraciones: Sabiendo que se observó la administración del veneno y la muerte de todos
los ratones, se sabe que los datos son incesgados, por lo que, para estimar la función de
sobrevivencia, densidad y riesgo, se pueden emplear las siguientes fórmulas

̂
1. Densidad (𝑓𝑥 (𝑡)) : 𝑁𝑥 (𝑡)
#𝐸𝑣𝑒𝑛𝑡𝑜𝑠•Δ𝑥

̂
2. Sobrevivencia (𝑆𝑥 (𝑡)) : 𝑅𝑥 (𝑡)
#𝑇 𝑜𝑡𝑎𝑙𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

̂
3. Riesgo (𝜆𝑥 (𝑡)) : 𝑅𝑥 (𝑡)
#𝑇 𝑜𝑡𝑎𝑙𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

Al realizar los respectivos cálculos para cada intervalo de tiempo, se obtienen los siguientes valores:

Tiempo Inicio Termino Rx Nx Dif_X fx Sx Riesgo


(0-5] 0 5 40 5 5 0.025 1.000 0.025
(5-10] 5 10 35 7 5 0.035 0.875 0.040
(10-15] 10 15 28 6 5 0.030 0.700 0.043
(15-20] 15 20 22 4 5 0.020 0.550 0.036
(20-25] 20 25 18 5 5 0.025 0.450 0.056
(25-30] 25 30 13 4 5 0.020 0.325 0.062
(30-35] 30 35 9 4 5 0.020 0.225 0.089
(35-40] 35 40 5 0 5 0.000 0.125 0.000
(40-45] 40 45 5 2 5 0.010 0.125 0.080
(45-50] 45 50 3 3 5 0.015 0.075 0.200

Donde:

1. 𝑅𝑥 es la cantidad de individuos cuyo tiempo de sobrevivencia es mayor al límite inferior de x.


2. 𝑁𝑥 es la cantidad de eventos observados en el intervalo de tiempo.
3. Dif_x en realidad es Δ𝑥, que es la diferencia entre el límite superior e inferior del intervalo de obser-
vación.
̂
4. Por último, Riesgo, es en realidad (𝜆𝑥 (𝑡))

Finalmente, se realizaron los respectivos gráficos para los valores encontrados.

2
Función de Densidad
5 10

10 15
0.03

0 5 20 25

15 20 25 30 35
0.02
fx

45 50

40 45
0.01

35 40
0.00

0 10 20 30 40 50
Tiempo

3
Función de Sobrevivencia
0 5
1.00

5 10

0.75
10 15

15 20
Sx(t)

0.50
20 25

25 30

0.25 30 35

35 40 45
45 50

0 10 20 30 40 50
Tiempo

4
Función de Riesgo
45 50
0.20

0.15
Riesgo

0.10
30 35
40 45

25 30
20 25
0.05 10 15
5 10 15 20
0 5

35 40
0.00

0 10 20 30 40 50
Tiempo

P.D. : Lo siento, no logré poner los 3 gráficos uno al lado del otro con ggplot:(, sólo me resulta con funciones
del R, como plot() xd

5
Pregunta 2
Sean 𝑇1 , . . . , 𝑇𝑛 variables aleatorias i.i.d. con función de riesgo común 𝜆(𝑡). Veri-
fique que la función de hazard de T = min(𝑇1 , . . . , 𝑇𝑛 ), digamos 𝜆𝑇 (𝑡), está dada por 𝑛𝜆(𝑡).

En primer lugar, hay que saber cuáles son las funciones de densidad y acumulada de la función mínima para
variables aleatorias entregadas.
Para ello, por definición de independencia, sabemos que:

𝑛
𝐹𝑇 (𝑡) = 1 − ∏ (1 − 𝐹𝑖 (𝑡))
𝑖=1

De la cual se derivan:
𝑛
1. 1 − 𝐹𝑇 (𝑡) = ∏𝑖=1 (1 − 𝐹𝑖 (𝑡))
𝑛 𝑛
2. 𝑓𝑇 (𝑡) = 𝑓1 (𝑡) ∏𝑖≠1 (1 − 𝐹𝑖 (𝑡)) + ... + 𝑓𝑛 (𝑡) ∏𝑖≠𝑛 (1 − 𝐹𝑖 (𝑡))

Una vez esto entendido, se procede a emplear la definición de la tasa de riesgo. Nota: Recordar que para
obtener la función de densidad en base a la acumulada, se debe derivar
𝑓𝑖 (𝑡) 𝑓𝑖 (𝑡)
Se sabe que: 𝜆𝑖 (𝑡) = 𝑆𝑖 (𝑡) = 1−𝐹𝑖 (𝑡)

Donde se obtiene:

𝑓𝑖 (𝑡) = 𝜆𝑖 (𝑡)(1 − 𝐹𝑖 (𝑡))

Reemplazamos la última expresión en la función de densidad obtenida:

𝑛 𝑛
𝑓𝑇 (𝑡) = 𝜆1 (𝑡)(1 − 𝐹1 (𝑡))(𝑡) ∏ (1 − 𝐹𝑖 (𝑡)) + ... + 𝜆𝑛 (𝑡)(1 − 𝐹𝑛 (𝑡))(𝑡) ∏ (1 − 𝐹𝑖 (𝑡))
𝑖≠1 𝑖≠𝑛

Factorizando se obtiene:

𝑛 𝑛
(∑ 𝜆𝑖 (𝑡)) ∏ (1 − 𝐹𝑖 (𝑡))
𝑖=1 𝑖=1

𝑓𝑖 (𝑡)
Luego, al reemplazar los valores en 𝜆𝑖 (𝑡) = 1−𝐹𝑖 (𝑡) :
𝑛 𝑛
(∑𝑖=1𝜆𝑖 (𝑡)) ∏𝑖=1 (1−𝐹𝑖 (𝑡))
𝜆𝑇 (𝑡) = 𝑛
(∏𝑖=1 (1−𝐹𝑖 (𝑡))

Se simplifica la fracción resultando:

𝑛
𝜆𝑇 (𝑡) = ∑ 𝜆𝑖 (𝑡)
𝑖=1

Por último, por enunciado, sabemos que


𝜆1 (𝑡) = 𝜆2 (𝑡) = ... = 𝜆𝑛 (𝑡)

Consiguiendo la demostración:

𝑛
𝜆𝑇 (𝑡) = ∑ 𝜆(𝑡) = 𝑛𝜆
𝑖=1

6
Pregunta 3
Considere seis individuos de una cohorte para la evaluación de factores de riesgo para
la infección por VIH. El estudio se inició en 01/06/2020, cuando dos de los individuos
entraron en el estudio con resultados negativos para la infección. Uno de ellos, al realizar
el segundo examen, un mes después, presentó un resultado positivo, y el otro, dos meses
después, presentó un resultado positivo. Los otros cuatro individuos entraron en el estudio en
01/07/2020, 01/09/2020, 01/08/2020 y 01/08/2020 y sus respectivas fechas de seroconversión
fueron 2, 3, 2 y 5 meses después de la entrada.

a) [2 pts] Construya la matriz de datos en la forma clásica y de proceso de conteo.


Matriz clásica:

id T Estado
1 1 1
2 2 1
3 2 0
4 3 0
5 2 0
6 5 0

Matriz proceso de conteo:

id Inicio Fin T Estado


1 0 1 1 1
2 0 2 2 1
3 1 3 2 0
4 3 6 3 0
5 2 4 2 0
6 2 7 5 0

b) [2 pts] Represente gráficamente los tiempos observados de esos individuos.

7
Duración de cada individuo en el estudio

3 as.factor(Estado)
Id

0
1
4

0 1 2 3 4 5
Tiempo (Meses)

8
Ingreso y salida de cada individuo en el estudio

3 as.factor(Estado)
Id

0
1
4

0 2 4 6
Tiempo (Meses)

c) [2 pts] ¿Cuáles son los individuos en riesgo el quinto mes de estudio?


Los individuos que estaban en riesgo al quinto mes de estudio, son los que tienen id 4 y 6, tal como se puede
ver en el gráfico “Ingreso y salida de cada individuo en el estudio”, puesto que eran los únicos que no habían
presentado el evento. Además, no se consideran los individuos 3 y 5 porque no se sabe que pasó con ellos
después de su seroconversión.
d) [2 pts] ¿Qué tipo de censura ocurrió en ese estudio?
Censura por la derecha, puesto que la seroconversión remite el virus. Por lo tanto, no nos dice nada respecto
al evento que se quiere observar. Además, no tenemos información sobre lo que ocurrió después de la
seroconversión de cada individuo.
d) [2 pts] ¿En qué situación habría truncamiento?
Si el estudio tuviese una clasificación/restricción por otro factor al que se es estudiado, que en este caso es
infección. Por ejemplo, si se tomara en consideración sólo a quienes han desarrollado SIDA, ya que todos
aquellos que no la han desarrollado estarían excluidos, sin poder aportar información en la investigación.
Otro ejemplo, puede ser la exclusión de ciertas personas en el estudio por no tener cierta edad, por género,
etc.
Pregunta 4
El archivo egyptlives.txt contiene la edad de muerte de 141 momias egipcias del período
romano, 82 hombres y 59 mujeres, que datan del siglo pasado. El conjunto de datos fue
recopilado en 1901 por Spiegelberg y analizado por Karl Pearson (1902) en una importante
publicación de la prestigiosa revista Biometrika. Los tiempos de vida varían de 1 a 96 años, y
Pearson argumentó que estos pueden considerarse una muestra aleatoria de una de las mejores
clases de vida en esa sociedad, en un momento en que existía un gobierno bastante estable y
civil.

9
a) [5 pts] El estimador no-paramétrico natural de la función de sobrevida en ausencia de censura
𝑛
es: 𝑆𝑒𝑚𝑝 (𝑡) = 𝑛1 ∑𝑖=1 𝐼{𝑇𝑖 > 𝑡}. Muestre que 𝐸(𝑆𝑒𝑚𝑝 (𝑡)) = 𝑆(𝑡) y 𝑉 𝑎𝑟(𝑆𝑒𝑚𝑝 (𝑡)) = 𝑛1 𝑆(𝑡)(1 − 𝑆(𝑡))
Se quiere demostrar que: 𝐸(𝑆𝑒𝑚𝑝 (𝑡)) = 𝑆(𝑡)
Para ello, empezamos asumiendo que hay independencia entre las variables, y aplicamos esperanza a la
definición entregada de 𝑆𝑒𝑚𝑝 (𝑡), quedando:

1 𝑛
= 𝐸( ∑ 𝐼{𝑇𝑖 > 𝑡})
𝑛 𝑖=1
Por propiedad de esperanza:

1 𝑛
= ∑ 𝐸(𝐼{𝑇𝑖 > 𝑡})
𝑛 𝑖=1

Donde 𝐼{𝑇𝑖 > 𝑡} distribuye Bernoulli, puesto que la función indicadora puede entregar sólo valores 0 o 1,
por lo tanto, se asume que la 𝐸(𝐼{𝑇𝑖 > 𝑡}) = 𝐸(𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖) = 𝑝, donde p, en este caso, es 𝑃 (𝑇𝑖 > 𝑡) = 𝑆(𝑡)
Por lo tanto, reemplazando tenemos:

1 𝑛
= ∑ 𝑆(𝑡)
𝑛 𝑖=1

Desarrollando la sumatoria se tiene que:

1
= 𝑛𝑆(𝑡)
𝑛
Simplificamos:

𝑆(𝑡)
Esto queda demostrado.
Paralelamente, para la varianza se utiliza la misma lógica anterior. Sólo que, en este caso tomaremos la
varianza de la sumatoria de la función indicadora, pues esta es una binomial, ya que son n ensayos bernoulli.
Es decir,
𝑛
𝑉 𝑎𝑟(∑ 𝐼{𝑇𝑖 > 𝑡}) = 𝑉 𝑎𝑟(𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙) = 𝑛𝑃 (𝑇𝑖 > 𝑡)(1 − 𝑃 (𝑇𝑖 > 𝑡)) = 𝑛𝑆(𝑡)(1 − 𝑆(𝑡))
𝑖=1

Entonces, el desarrollo de la demostración es como sigue:

1 𝑛
= 𝑉 𝑎𝑟( ∑ 𝐼{𝑇𝑖 > 𝑡})
𝑛 𝑖=1

𝑛
1
= ( )2 𝑉 𝑎𝑟(∑ 𝐼{𝑇𝑖 > 𝑡})
𝑛 𝑖=1

1
= ( )2 𝑛𝑃 (𝑇𝑖 > 𝑡)(1 − 𝑃 (𝑇𝑖 > 𝑡))
𝑛
Simplificamos términos

10
1
= 𝑃 (𝑇𝑖 > 𝑡)(1 − 𝑃 (𝑇𝑖 > 𝑡))
𝑛

Considerando 𝑃 (𝑇𝑖 > 𝑡) = 𝑆(𝑡), nos queda:

1
= 𝑆(𝑡)(1 − 𝑆(𝑡))
𝑛

Esto queda demostrado.

11
b) [5 pts] Grafique 𝑆𝑒𝑚𝑝 (𝑡) de ambos sexos en una misma figura. Sugerencia: la función
stat_ecdf puede ser de gran ayuda.

Gráfico Función de sobrevida


1.00

0.75

Genero
Semp(t)

0.50 Femenino
Masculino

0.25

0.00

0 25 50 75 100
Tiempo de vida

12
c) [5 pts] Grafique los tiempos de vida de ambos grupos (sepárelos en dos viñetas preferente-
mente).

Tiempo de Vida según sexo


Femenino
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
Genero
141
Id

Masculino Femenino
1
2
3
4 Masculino
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
0 25 50 75 100
Tiempo (Años)

13
d) [5 pts] Basándose en los gráficos anteriores, ¿Qué conclusiones puede obtener?.
Tanto en los gráficos de la sección b) y c) de la presente pregunta se puede apreciar que a partir de los
25 años (aproximadamente), los hombres viven más tiempo que las mujeres. Esto implica que los hombres
obtengan mayor probabilidad de sobrevivencia que el género femenino. Paralelamente, se observa que hay
mayor sobrevivencia de las mujeres (leve) entre el rango [0,25] años de edad.

14

You might also like