You are on page 1of 6

BITCORA DE PROCEDIMIENTOS

Integrantes: Jos Veloz T.


Ivn Zeren G.
Joaqun Gonzlez V.
Cristin Hernndez B.
Osvaldo Martnez B.

Set de datos: Crypto currency


Tcnica: Regresin lineal multivariable

1. Eleccin del set de datos ms adecuado: Se revisan todos los libros de Excel que contiene el
archivo comprimido cryptocurrencypricehistory.zip. Elegimos para trabajar el archivo
bitcoin_price.csv, pues es el que contiene los datos de las fluctuaciones del valor de esta moneda
durante ms tiempo, desde el 28 de abril de 2013 hasta el 3 de octubre de 2017. Esperamos que
una mayor cantidad de datos nos permita ajustar mejor el modelo a la realidad.

2. Diseo del modelo: el set de datos contiene vectores con las variables:

Open: valor en que el bitcoin abre el da.

High: valor ms alto alcanzado por el bitcoin durante el da.

Low: valor ms bajo alcanzado por el bitcoin durante el da.

Close: valor en que el bitcoin cierra el da.

Volume: cantidad de bitcoins transados durante el da.

Market Cap: cantidad de bitcoins transados durante el da llevado a dlares.

Decidimos que es de nuestro inters determinar el valor de cierre del bitcoin para cada da, por lo
tanto, mediante regresin lineal multivariable intentaremos obtener una funcin Close que
permita predecir el precio de cierre a partir de los predictores Open, High, Low, Volume y Market
Cap.

3. Preparacin del set y primera depuracin: se separan los datos delimitados por comas en
columnas independientes, se borra la columna Date pues no ser de utilidad y se eliminan vectores
que se encuentran incompletos. Despus de esta depuracin contamos con un total de 1377
mediciones listas para comenzar a trabajar. Ver archivo adjunto bitcoin_price_V2.csv.

4. Condicin inicial de los datos:

Para determinar el estado inicial de los datos ya depurados, llevamos el set bitcoin_price_V2.csv
a minitab y ajustamos una regresin lineal multivariable con los datos en bruto, se define la variable
Close como respuesta y todas las dems variables como predictores continuos. Ver archivo
adjunto v2.mpj
Se detectaron los siguientes problemas al modelo:

En el grafico los datos no se ajustan muy bien a recta, el reporte entrega un listado de 114
datos inusuales (outliers).
El VIF (variance inflation factor) de las variables Open y High son muy altos, por lo tanto,
estas variables estn demasiado relacionadas.

5. Segunda depuracin: Para mejorar el ajuste de nuestro modelo eliminamos los 114 datos
entregados por el reporte anterior, el set actualizado queda con 1263 mediciones, Ver archivo
adjunto bitcoin_price_v3.csv. Llevamos ahora este set a minitab y nuevamente ajustamos una
regresin lineal multivariable, esta vez no utilizamos la variable Open como predictor continuo,
pues como indic el VIF (variance inflation factor) estaba estrechamente relacionada con la variable
High, por lo que ahora solo conservaremos una, High. Los predictores continuos se reducen
entonces a: High, Low, Volume y Market Cap. Ver archivo adjunto v3.mpj.

El resultado es un modelo que se ajusta de mejor forma a una recta, sin embargo, an hay muchos
datos inusuales, el reporte de minitab seala un listado de 100 datos atpicos.
6. Tercera depuracin: eliminamos del set los 100 outliers indicados por el reporte anterior. Ver
archivo adjunto bitcoin_price_v4.csv.

Al ajustar, por tercera vez, la versin actualizada del set de datos a una recta mediante regresin
multivariable logramos un modelo mucho ms ajustado que los anteriores, an cuando el reporte
contina sealando una gran cantidad de datos atpicos. Ver archivo adjunto v4.mpj.

Si se desea ajustar ms el modelo se podra continuar con las iteraciones, eliminando los datos
atpicos hasta alcanzar un mejor resultado. Otra opcin es simplemente utilizar el modelo actual
dentro de un intervalo en el que se ajusta mejor a una recta, en este caso observamos en el grafico
que se ajusta mejor para residuos entre -10 y 10.

La ecuacin de regresin entregada es:

Observamos que los coeficientes que acompaan a las variables Volume y Market Cap son cero,
esto puede deberse a que los valores de estn variables son muy grandes, para intentar solucionar
este problema transformaremos las variables a puntuacin z.

7. Variables Volume y Market Cap a puntuacin Z:

Utilizando las funciones de Excel =promedio() y =desvest.m() obtenemos la media y desviacin


estndar para cada variable, luego usamos la expresin:
y definimos nuevas variables Vol-z y Market Cap-z. Ver archivo adjunto bitcoin_price_v5.csv

Ajustamos por ltima vez una regresin lineal multivariable a este set de datos utilizando las
variables llevadas a puntuacin Z. Ver archivo adjunto v5.mpj

Finalmente, la ecuacin de regresin que nos permite predecir (de manera muy aproximada) el valor
de cierre del bitcoin para un da de acuerdo a su precio de apertura, el precio ms alto que alcanza,
el precio ms bajo que alcanza, el volumen transado y la capitalizacin de mercado es la siguiente:

Puede observarse que ahora los coeficientes de las variables Volume y Market Cap son distintas de
cero, para su anlisis es importante considerar que ahora estas variables se encuentran en
puntuacin z.
8. Test de levene:

Con el fin de determinar si una regresin lineal es la tcnica ms adecuada para predecir el
comportamiento de este set de datos, hacemos correr un test de levene o test homogeneidad de
varianzas. Ver archivo adjunto test de levene.mpj

Las hiptesis que este test establece son las siguientes:

Ho: hiptesis de homogeneidad (las varianzas son iguales)


Ha: hiptesis alterna de diferencias (las varianzas son diferentes)
Con = 0,05

Los resultados de la prueba indican lo siguiente:

Se obtiene un valor P muy pequeo, P < , por lo tanto la hiptesis nula se rechaza, es decir, hay
diferencias significativas entre las varianzas.

9. Conclusiones:

Si bien se pudieron ajustar los datos a una recta mediante regresin multivariable el modelo resulta
una aproximacin no muy precisa. El ejercicio sirvi para practicar esta tcnica, sin embargo,
consideramos que el set de datos podra ajustarse de mucho mejor manera a un polinomio.