You are on page 1of 4

PRUEBA DESARROLLADA DE ESTADISTICA APLICADA

Nombres y Apellidos: Mía Aracelly Díaz Márquez


Especialidad: Contabilidad
Fecha : 20 /12/ 22

 1¿Cuáles son las diversas etapas implicadas en un proyecto de análisis estadístico?


- Comprender el problema de investigación
- Explorar los datos.
- Preparar los datos para el modelado mediante la detección de valores atípicos, el
tratamiento de los valores perdidos, la transformación de las variables, etc.
- Ejecutar el modelo y analizar el resultado.
- Validar el modelo utilizando un nuevo conjunto de datos.
- Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el
rendimiento del modelo durante un período de tiempo.

 2. ¿En que consiste la estadística descriptiva?


Tienen por objeto fundamental describir y analizar las características de un conjunto de datos,
obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre
las relaciones existentes con otras poblaciones, a fin de compararlas.

 3. ¿En que consiste la inferencia estadística?


Es una parte de la Estadística que comprende los métodos y procedimientos para deducir
propiedades de una población, a partir de una pequeña parte de la misma.

 4. ¿Por qué la limpieza de datos juega un papel vital en el análisis estadístico?


El proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y
luego substituir, modificar o eliminar estos datos sucios.

 5. ¿Qué es la regresión lineal?


La regresión lineal es una técnica de modelado estadístico que se emplea para describir una
variable de respuesta continua como una función de una o varias variables predictoras.

 6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define

"bueno"?
Una buena información de partida (datos) es sin duda más importante que los buenos
modelos. Bueno se define como buenos datos y buen modelo.

 7. ¿Necesitamos el término de intersección en un modelo de regresión?


- Garantiza que los residuos tienen una media de cero
- Garantiza que las estimaciones mínimos cuadrados sean imparciales

 8. ¿Cuáles son los supuestos requeridos para la regresión lineal?


Los datos utilizados en el ajuste del modelo son representativos de la población
La verdadera relación subyacente entre X e Y es lineal
La varianza de los residuos es constante (homoscedástica, no heterocedástica)
Los residuos son independientes.
Los residuos se distribuyen normalmente.

 9. ¿Qué es una "distribución normal"?


Es cuando los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la
izquierda o hacia la derecha

 10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar multicolinealidad?
Colinealidad: En la regresión múltiple: cuando dos o más variables están altamente
correlacionados.
¿Cómo eliminar multicolinealidad?
- Eliminar algunas de las variables afectadas
- Utilizar regresión con componentes principales: da predictores no correlacionados
- Combinar las variables afectadas
- Utilizar la regresión contraída (ridge)
- Utilizar la regresión parcial por mínimos cuadrados (PLS)

 11. Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta bien a los


datos?
RMSE: Es una medida absoluta de ajuste

 12. ¿Qué es la validación cruzada?


Es una técnica de validación de modelos para evaluar si los resultados de un análisis
estadístico pueden ser generalizados a un conjunto de datos independientes.

 13. ¿Qué es la interpolación y extrapolación?


Estimar un valor de 2 valores desconocidos de una lista de valores es de interpolación.
La extrapolación se aproxima a un valor mediante la ampliación de un conjunto conocido de
valores o hechos.

 14. ¿Qué significa el valor P o p-valor?


El P-valor se utiliza para determinar la significación de los resultados después de una prueba
de hipótesis y siempre está entre 0 y 1.

 15. ¿Cuál es la diferencia entre el aprendizaje supervisado un aprendizaje no


supervisado?
El aprendizaje supervisado cuando un algoritmo aprende algo de los datos de
entrenamiento y este conocimiento se puede aplicar luego a los datos de
prueba, mientras que es aprendizaje no supervisado es todo lo contrario.
 16. ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se detectan los valores
atípicos y cómo se manipulan?
Los valores atípicos: Son observaciones que están lejos de las demás observaciones.
Inlier: Son las observaciones que se encuentran dentro de la distribución general de lo demás
valores observados.
- Mediante boxplots, gráficos QQ.

 17. ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?
Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser
sustituidos por la mediana o media o simplemente pueden ser ignorados.

 18. ¿Qué es un falso positivo y un falso negativo?


Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe
realmente.
Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe.

 19. ¿Qué es la potencia estadística?


Es la sensibilidad de una prueba de hipótesis y probabilidad de que la prueba rechace
correctamente la hipótesis nula cuando la hipótesis alternativa es cierta, así como, la capacidad de
una prueba para detectar un efecto y si el efecto existe realmente.

 20. ¿En qué consiste una muestra?


Es un subconjunto de datos perteneciente a una población de datos.

 21. ¿Qué es el muestreo?


Es la técnica para la selección de una muestra a partir de una población

 22. ¿Qué es un individuo en Estadística?


Cada uno de los elementos de la población que es objeto estudio.

 23. ¿Qué es una población en Estadística?


El conjunto de todos los individuos que son objeto de interés en la estadística.

 24. ¿Que se entiende por probabilidad?


La probabilidad mide la frecuencia con la que se obtiene un resultado al llevar a cabo un
experimento aleatorio.

 25. ¿Que se entiende por una población homogénea?


Es una población que comparte las mismas características.

 26. ¿Que se entiende por un parámetro estadístico?


Un parámetro estadístico es un valor representativo de una población, como la media aritmética,
entre otros.

 27. ¿Que se entiende por un estimador?


Es el conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población
a partir de los datos proporcionados por una muestra.

 28. ¿Que se entiende por error de estimación?


Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
 29. ¿Que se entiende por error de muestreo?
Es la imprecisión que se comete al estimar una característica de la población de estudio mediante el
valor obtenido a partir de una parte o muestra de esa población.

 30. ¿Que se entiende por una estimación robusta?


Es una aproximación alternativa a los métodos estadísticos comúnmente conocidos.

 31. ¿Cuales son las principales debilidades de la media aritmética?


- Es sensible a los valores extremos.
- No es recomendable emplearla en distribuciones muy asimétricas.
- Es la media aritmética que se utiliza cuando a cada valor de la variable se le otorga una
ponderación o peso distinto de la frecuencia o repetición.

 32. ¿Que se entiende por una variable?


Una variable es un elemento que puede adoptar diferentes valores.

 33. ¿En que consiste una variable cualitativa?


La variable cualitativa es la variable estadística que expresa una cualidad, o característica, de un
objeto o individuo.

 34. ¿En que consiste una variable cuantitativa?


Es la variable estadística que puede expresarse a través de cifras numéricas.
 35. ¿Qué son las variables dependiente e independiente?
Una variable dependiente es un elemento estadístico cuyo valor está determinado por el valor de
otras variables.
Una variable independiente es un elemento estadístico cuyo valor no está determinado por ninguna
otra variable.

You might also like