You are on page 1of 22

SERVICIO DE ALBERGUE A HABITANTES DE CALLE MAS VULNERADOS

EXPERIMENTO:

La unidad de servicios sociales especiales, tienen un servicio de albergue para ayudar la


población más vulnerable de la ciudad de Medellín, a dicha población se le estará pidiendo
la siguiente información; su edad, y cuánto tiempo lleva en el albergue.

Población como cosas: habitantes de calle más vulnerados, de los barrios más necesitados,
que no tienen lugar donde dormir ni un plato de comida, se crea un objetivo de ayudarlos y
se toma información de cada persona que entra y sale para llevar a cabo un orden y tener
todo calculado, la información no es para discriminar que unos entran y otros no, solo es en
forma de orden.

Población como variable: cuantitativa continua, ya que la información tomada es medible o


toma el valor de un número y por consiguiente es continua ya que el conjunto de todos los
valores que toma es un intervalo continuo de los reales R.

RESUMEN

En cualquier análisis estadístico el objetivo último es extraer conclusiones sobre un


colectivo de interés denominado población. En ocasiones, el tamaño de la población
(formada por individuos) puede hacer inabordable el estudio individualizado de las
características de cada uno de ellos. Para solucionar este problema, dichas mediciones se
realizarán sobre una muestra. Población: colectivo de individuos sobre los que se quiere
extraer alguna conclusión. Individuo: cada uno de los elementos de la población (unidad
estadística). Muestra: subconjunto (representativo) de la población, que se selecciona con el
objetivo de extraer información.

Las técnicas de estadística descriptiva permiten describir y analizar un grupo dado de datos,
sin extraer conclusiones (inferencias) sobre la población a la que pertenecen. Se tendrá que
recurrir a la inferencia estadística, que es la parte de la Estadística que trata las condiciones
bajo las cuales las inferencias extraídas a partir de una muestra son válidas, para extraer
conclusiones sobre la población de interés. Para aplicar una técnica descriptiva, numérica o
gráfica, será necesario analizar previamente el tipo de variable con la que se está
trabajando. Variable estadística: cada una de las características consideradas con el
propósito de describir a cada individuo de la muestra. Tipos de variables: distinguiremos
dos tipos de variables. Las variables cualitativas o categóricas (aquellas que no se pueden
expresar a través de una cantidad numérica, se califican como nominal y ordinal. y las
variables cuantitativas (se puede expresar a través de un número). A su vez, estas últimas
pueden clasificarse en discretas y continuas, según el tipo de valores que tomen.

Cualitativa: no son medibles (no toma un numero como variable)

 Nominal: categorías que tienen nombre


 Ordinal: tienen nombre y orden

Cuantitativa: son medibles como la estatura

 Discretas: si el conjunto de todos los posibles valores que toma en un conjunto


finito o contablemente infinito
 Continua: el conjunto de todos los posibles valores que toma es un intervalo
continuo de los reales R, EJ: peso de una persona de la universidad

ABSTRACT

In any statistical analysis, the ultimate goal is to draw conclusions about a population group
of interest called. Sometimes, the size of the population (made up of individuals) can make
an individualized study of the characteristics of each of them unapproachable. To solve this
problem, these measurements were made on a sample. Population: group of individuals
about which you want to draw a conclusion. Individual: each one of the elements of the
population (statistical unit). Sample: (representative) subset of the population, which is
selected in order to extract information.

Descriptive statistics techniques allow describing and analyzing a given group of data,
without drawing conclusions (inferences) about the population to which they belong.
Statistical inference, which is the part that deals with the conditions under which inferences
drawn from a sample are statistically valid, will have to be used to draw conclusions about
the population of interest. To apply a descriptive, numerical or graphic technique, it will be
necessary to previously analyze the type of variable with which you are working. Statistical
variable: each of the characteristics considered for the purpose of describing each
individual in the sample. Types of variables: we will distinguish two types of variables.
Qualitative or categorical variables (those that cannot be expressed through a numerical
quantity, can be classified as nominal and ordinal. And quantitative variables (can be
expressed through a number). In turn, the latter can be classified in discrete and continuous,
depending on the type of values they take.

Qualitative: they are not measurable (does not take a number as a variable)

 Nominal: categories that have a name


 Ordinal: they have name and order

Quantitative: they are measurable like height

 Discrete: if the set of all possible values that it takes in a finite or countably infinite
set
 Continuous: the set of all the possible values that it takes is a continuous interval of
the real ones R, EJ: weight of a person from the university

INTRODUCCIÓN

La estadística se ve en nuestra vida cotidiana de manera habitual y la mayoría de estas


ocasiones no nos damos cuenta ni que estamos actuando de esta forma, al conocerla más a
fondo y un poco más centrada se va volviendo tan interesante y nos brinda tanta
información que a veces nos sentimos sofocados. Para estos casos esta la estadística
descriptiva la cual nos brinda un panorama más claro y ordenado para la solución de
problemas que se presenten en este campo; ya que el objetivo final de cualquier
investigación es proporcionar suficiente evidencia objetiva para apoyar o refutar
suposiciones. También evidencia Las traducciones obtenidas a través de encuestas
planificadas y recopiladas cuidadosamente; estos deben ser en datos o cifras. Al integrar y
dar consistencia a el resultado de un trabajo, el investigador debe tener Habilidad para
resumir y presentar datos de forma organizada, simple y clara para que otros
investigadores, críticos y lectores tengan mejor interpretación sobre esta.

Para lograr trabajar con la estadística descriptiva se maneja; población (conjunto de


interés), muestra (subconjunto representativo de la población), y variables (características
de los objetivos de interés), estas son tanto cuantitativas como cualitativas; para estas
existen diversas graficas que manejar. Ya teniendo todo esto se lleva un orden a cabo
realizando inicialmente un experimento aleatorio donde se explica la población y a lo que
se quiere llegar con ella, todos estos temas serán explicados a lo largo de todo este
documento aclarando dudas tanto de los lectores como nosotros que siendo estudiantes de
ingeniería en el curso de estadística que mediante el trabajo en equipo y el aprendizaje
autónomo contemos con tener una mejor relación con este importante tema.

MARCO TEORICO

Población

Se entiende como un conjunto de interés y se denota por una P; ejemplo: (estudiantes de la


universidad san buenaventura)

Característica asociada a los objetos de interés (estatura)

También es un conjunto de elementos a los cuales se le estudian algunas características


comunes; por ejemplo, los docentes de una institución educativa, las empresas de un sector
productivo, los barrios de una ciudad, esta población puede ser finita o infinita. Se estima
que una población es finita cuando el número de los elementos que la integran es conocido
por el investigador; tal es el caso de los barrios de una ciudad, los docentes de una
universidad y una población infinita no se conoce el número de elementos, ya sea porque es
muy grande o porque se sabe que existe, pero no se conoce el tamaño, por ejemplo: los
lanzamientos de un dado, el número de veces que una persona puede pasar por un sitio

Muestra

Subconjunto representativo (probabilidad) de la población, se denota por M (que no se


generalice, que se hable en específico)

se define como un conjunto de elementos seleccionados adecuadamente, que pertenecen a


una población determinada, o sea que es una parte de la población Al seleccionar una
muestra se pretende que el análisis realizado en ella pueda proporcionar conclusiones
similares a las que se lograrían si se hubiese estudiado la totalidad de elementos de la
población; por tal razón, la muestra debe ser representativa. En la mayoría de los estudios
se procura que el número de elementos de la muestra sea cercano al número de la población
para evitar errores generados por el muestreo

Variable

Característica de los objetos de interés (que no sea constante la información si no que varié)

cualquier característica o propiedad general de una población que sea posible medir con
distintos valores o describir con diferentes modalidades, por ejemplo: el coeficiente
intelectual de los estudiantes de un grupo puede tener diferentes valores porque, como el
término lo indica, varían al medirse o caracterizarse de una unidad de análisis a otra. En
algunos casos, las características de las unidades de análisis pueden ser medidas, mientras
que en otros solo es posible describirlas.

Cualitativa: la intención de esta variable es clasificar los objetos de la población en


categorías

Cuantitativa: es una característica que es susceptible de medida, son características de los


objetos de la población que se pueden medir con un numero

Experimento aleatorio

Es cualquier acción o proceso donde:

1. Se puede replicar bajo las mismas condiciones y de manera independiente


2. Desde antes se conoce el conjunto de todos los posibles resultados
3. Desde antes no se puede asegurar si un resultado o conjunto de resultados en
particular ocurre con certeza

Ejemplo:

En la universidad san buenaventura se abrió un curso de estadística y probabilidad. Lo


primero que se pide en este curso es crear un grupo de tres estudiantes para realizar el
proyecto final de este. Se tiene, que en el aula se cuenta con 6 estudiantes sin contar a
Ximena que es la primer seleccionada para elegir a dos de sus compañeros. Ximena para no
elegir respecto a sus sentimientos y/o amistad, se tendrá que poner los 6 nombres de los
estudiantes en distintos papeles cada uno y colocarlos en una bolsa.
1. Se puede replicar las veces que se desee, bajo condiciones análogas y de manera
independiente, ya que puede que saque una respectiva pareja de alumnos, pero si lo
vuelve a intentar puede sacar otra pareja completamente distinta.
2. Se conoce el conjunto de todos los posibles resultados, ya que cae Santiago_yeison,
yeison_mateo, mateo_Alejandro, Alejandro_kathe. Etc
3. No se puede asegurar, ni tener la certeza de que grupo de parejas sacara ximena.

Organización de los datos

Considere una población de interés P y una muestra representativa M de P de tamaño n.


considere además una variable de interés x, sea cualitativa o cuantitativa. Si la variable es
cualitativa entonces se da lugar a K categorías C1,C2,…,Ck y si la variable es cuantitativa,
entonces se da lugar al conjunto de datos x1,x2,…,xn el paso siguiente después de obtener
las categorías en el caso cualitativo o los datos en el caso cuantitativo, es proceder a
organizar los datos en tablas de frecuencias

Tablas de distribución de frecuencias para variables cualitativas

fi: Frecuencia absoluta. Es el número de objetos de la muestra M que pertenecen a la


categoría i.

Fi: Frecuencia absoluta acumulada. Se tiene que Fi = Fi−1 + fi .

hi: Frecuencia relativa. Se tiene que hi = fi n .

Hi: Frecuencia relativa acumulada. Se tiene que Hi = Hi−1 + hi

A partir de la definición se concluye claramente que:


k k
1.0 ≤ fi ≤ n , ∑ fi=n , fk=n ,0 ≤ hi≤ 1 , ∑ , hi=1 y hk=1
i=1 i=1

2.Dado que las frecuencias relativas son números decimales, entonces al hacer
k
truncamientos se pueden perder cifras significativas y así. ∑ ,hi=1 y Hk=1
i=1

3.Las frecuencias Fi y Hi tienen sentido cuando la variable cualitativa es ordinal, y en ese


caso las clases o categorías Ci para i = 1, 2 · · · , k se escriben de arriba hacia abajo en la
tabla de menor a mayor.

Algunos gráficos que se pueden realizar para variables cualitativas

figura 2. Diagrama de circulo


figura 3. Diagrama de barras

Para construir un gráfico de barras, el eje horizontal representa La categoría o moda de la


variable a representar, y una barra de altura proporcional a la frecuencia de cada moda
(absoluta o relativa). También en un gráfico circular representa los diferentes modos y sus
frecuencias para que los círculos estén distribuidos uniformemente. proporcional a la
frecuencia de cada modalidad.

tablas de distribución de frecuencias de variables cuantitativas

Donde los datos x1, x2, · · · , xk son los datos organizados de menor a mayor y sin repetir y
además:

fi: Frecuencia absoluta. Es el número de veces que se repite el dato xi en la muestra M,

Fi: Frecuencia absoluta acumulada. Se tiene que Fi = Fi−1 + fi ,


fi
hi: Frecuencia relativa. Se tiene que hi =
n

Hi: Frecuencia relativa acumulada. Se tiene que Hi = Hi−1 + hi .

A partir de la definición se tiene que:

k k
1 k ≤ n, 0 ≤ fi ≤ n∑ ,fi = n, Fk = n, 0 ≤ hi ≤ 1, ∑ , hi = 1 y Hk = 1.
i=1 i=1

2 Dado que las frecuencias relativas son números decimales, entonces al hacer
k
truncamientos se pueden perder cifras significativas y así ∑ , hi ≈ 1 y Hk ≈ 1.
i=1

3 Este tipo de tabla es usual cuando se tienen aproximadamente 30 datos

1. Dada una muestra M de tamaño n de una población P, el agrupamiento de la muestra se


puede ver como la construcción de nuevos datos a partir de los datos iniciales x2,···, xn.
Esto con el fin de simplificar los cálculos aritméticos y resumir la información de manera
que se pueda extraer información relevante de la base inicial de datos.

2 Se define el rango de la variable cuantitativa continua x como R = xmáx −xmín, donde


xmáx y xmín representan los valor máximo y mínimo de la muestra M, respectivamente. Se
tiene además que la amplitud del intervalo [Li,Li+1) está dada por Ai = Li+1 −Li.

3 La afirmación: los datos [L1,L2), [L2,L3),···, [Lk,Lk+1) son una partición del rango que
toma la variable, es equivalente a:

1 [Li,Li+1)Ո[Lj,Lj+1) = ∅para i =
̸ j.

2 k i=1[Li,Li+1) = R.

Algunos gráficos que se pueden realizar para variables cuantitativas


Además de los gráficos de barras descritos para las variables cualitativas, También se puede
utilizar para variables cuantitativas discretas para representar este tipo variable tenemos
gráfico de frecuencia acumulada. La gráfica de frecuencia acumulada es construir
representación, para cada modo de variable Concatenarlos con segmentos horizontales y
verticales para obtener una función de paso. Sí Usando frecuencias relativas acumulativas,
el valor máximo de la gráfica acumulativa alcanza 1, mientras que, si se construyera con
frecuencias absolutas acumuladas, el máximo sería muestra.

Visualización de los datos

Los datos se pueden presentar de muchas formas, como mostramos anteriormente se


pueden dar a conocer mediante tablas de frecuencias, sin embargo, cuando se muestran de
manera gráfica se pueden comprender mejor al momento de ser observados.

Los elementos mínimos que debe tener un gráfico son:

1. Título principal
2. Titulo secundario o subtitulo
3. Descripción del grafico
4. Región de datos y símbolos
5. Eje horizontal y escala
6. Eje vertical y escala
7. Apuntadores
8. Descriptores de señales y marcas

Un gráfico estadístico debe:

1. Pensar acerca de la sustancia en lugar de la metodología, el diseño gráfico, la


tecnología que produjo el grafico
2. Hacer que grandes conjuntos de datos tengan coherencia
3. Comparar diferentes partes de los datos
4. Se hacen en el software estadístico R

Medidas de tendencia central

Medias o promedios

La media o media aritmética, usualmente llamada promedio, se obtiene sumando todos los
valores de los datos y divide el resultado entre la cantidad de datos. Si los datos proceden
de una muestra la media se representa con una x testada (x) y si provienen de la población
se representan con la letra griega miu (µ).

1 Su valor no varía, aunque los puntos de la muestra tomen un orden diferente.

2 Para todo λ, si m es la media de los valores x1, x2, · · · , xn entonces la media m1 de λx1,
λx2, · · · , λxn es m1 = λm.

Media aritmética

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa que toma los valores x1,x2,··· ,xn. La media aritmética es un punto x tal que la
suma de las diferencias de los valores situados a su izquierda con respecto a x es igual, en
valor absoluto, a la suma de las diferencias de los puntos que están a su derecha con
respecto al mismo x.
donde xi es la marca de clase del intervalo [Li,Li+1) y fi es la frecuencia absoluta para
dicho intervalo. Claramente los resultados para x usando el conjunto de datos sin agrupar y
usando el conjunto de datos agrupados por intervalos, son diferentes.

Media cuadrática

La media cuadrática es usual cuando la variable toma valores positivos y negativos. En esos
casos la media aritmética es un valor muy bajo con efectos negativos en las
interpretaciones. Se sabe que además que la media aritmética es muy sensible a datos
atípicos, mientras que la media cuadrática se usa para resaltar el efecto de los mismos. La
media cuadrática puede aplicarse a variables cuantitativas continúas tomando xi como
marca de clase. Por último, la media cuadrática es importante en estadística pues es la base
del cálculo de la desviación estándar, la cual se trabajará más adelante.

Media armónica

La media armónica es útil cuando los valores de la variable están expresados en términos
de los de otra variable que es inversamente proporcional a la primera, por ejemplo,
velocidad y tiempo.

Media geométrica
La media geométrica es útil cuando los valores de la variable son positivos, su número es
pequeño y las variaciones entre ellos son grandes, más precisamente cuando los datos se
encuentran en progresión geométrica, esto es, cuando están ordenados cada uno de ellos a
partir del segundo, es aproximadamente el anterior multiplicado por una cantidad fija.

Mediana

La segunda medida de tendencia central que analizaremos es la mediana, en ocasiones se le


llama media posicional, porque queda exactamente en la mitad de un grupo de datos, luego
de que los datos se han colocado de forma ordenada. En este caso la mitad (50%) de los
datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella. La
mediana es el valor intermedio cuando los valores de los datos se han ordenado.

Moda

La moda es el dato que más se repite o el dato que ocurre con mayor frecuencia. Un grupo
de datos puede no tener moda, tener una moda (unimodal), dos modas (bimodal) o más de
dos modas (multimodal).

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa continua. Si [Li−1,Li+1) intervalo de amplitud Ai tal que mo ∈
[Li−1,Li),entonces:

mo = Li−1 + fi+1/fi−1 + fi+1 Ai

Medidas de posición, dispersión, asimetría y forma

Cuantiles
1 Los cuartiles particionan la muestra en 4 conjuntos de igual frecuencia, de esta manera,
Ci(4) = Qi para i = 1,2,3, donde Q1 es tal que el 25% de los datos es menor que Q1, además
Q2 = me y Q3 es tal que a su izquierda está el 75% de los datos.

2 Los quintiles particionan la muestra en 5 conjuntos de igual frecuencia.

3 Los decíles particionan la muestra en 10 conjuntos de igual frecuencia, de esta manera,


Ci(10) = di para i = 1,2,3,··· ,9, donde d1 es tal que el 10% de los datos es menor que d1,
además d5 = me, Q7 es tal que a su izquierda está el 70% de los datos. Los otros decíles se
analizan de manera análoga.

4 Los percentiles particionan la muestra en 100 conjuntos de igual frecuencia, de esta


manera, Ci(100) = pi para i = 1,2,3,··· ,99, donde p1 es tal que el 1% de los datos es menor
que p1,además p50 = me y p90 es tal que a su izquierda está el 90% de los datos. Los otros
percentíles se analizan de manera análoga.

Para determinar los cuantiles se tendrán en cuenta los siguientes convenios.

1 Se elige un valor que satisfaga la definición de cuantíl, aunque dicho valor no esté en la
muestra M.

2 Se asume que la distribución de los datos dentro de cada clase es uniforme, de esta
manera, el cálculo de los cuantíles se hace vía interpolación lineal en el caso de una
variable continua.

3 El valor de los cuantíles, para el caso de una variable discreta, se aproxima de la siguiente
manera: dado que se desea particionar la muestra en s conjuntos de igual frecuencia,
entonces se toman C0(s) = x1, Cn(s) = xn y los otros Ci(s) para i = 2,··· ,s − 1 son tales que
entre Cj(s) y Cj+1(s) hay k datos. De esta manera hay ks valores que no son los cuantíles.
Por tanto,

s − 1 + 2 + ks = n, de donde k = n−1 / s − 1. Por otro lado, al cuantíl Ci(s) le corresponde


una posición o rango que se denota por R(Ci(s)) que está dada por R(Ci(s)) = i−1 + 2 + ki,
de esta manera se tiene que R(Ci(s)) = in−1 s + 1 para i = 2, ··· ,s−1. Una vez calculado el
rango del cuantíl Ci(s), se busca este en la tabla de frecuencias absolutas acumuladas
buscando el valor de dichas frecuencias que coincida con R (Ci(s)). Si este valor no está en
la tabla entonces existen dos valores Fa y Fb tales que R(Ci(s)) ∈ (Fa,Fb) y no haya otra
frecuencia Fc ∈ (Fa,Fb), de esta manera, el cuantíl es la media aritmética de los valores de
la variable x que corresponden a Fa y Fb.

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa continua. El cuantíl Ci(s) para i = 1,2··· ,s−1 está dado por:

Fi−1
Ci(s) = Li−1 + ¿ − Ai, i = 1,2,··· ,s−1,
s fi

donde Li−1 es el límite inferior del intervalo [Li−1,Li) que se determina a partir de in s
mediante el uso de la tabla de frecuencias absolutas acumuladas.

Rango

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
que toma valores x1, x2,···, xn. El rango de la variable x, que se denota por R, está dado
por:

R = xmáx −xmín,

donde xmáx yxmin denotan el valor máximo y mínimo de los valores x1,x2,···,xn,
respectivamente.

Desviación cuarlitica

Sea P una población de interés,M una muestra significativa de tamaño n y x una variable
que toma valores x1, x2,···, xn, cuyos cuartiles 1 y 3 son Q1 y Q3, respectivamente. La
desviación cuartílica, que se denota por Q está dada por:

Q 3−Q 1
=Q=
2

La desviación cuartílica definida antes implica que el intervalo (C−Q,C + Q), donde C es el
centro del intervalo, contiene el 50% de los datos. Puede darse el caso donde C = me y
sucede cuando la distribución de los datos es simétrica.

Desviación media
Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa discreta que toma valores x1,x2,···,xn. La desviación media, que se denota por
Dx, está dada por:

k
1
DX = ∑ ¿ xi−x ∨fi❑
n i=1

Desviación mediana

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa discreta que toma valores x1, x2, ···, xn. Considere la distribución de datos y1,
y2, ···, yn con yi = |xi −me|para i = 1,2··· ,n. La desviación mediana de los datos x1, x2,···,
xn es la mediana de los datos y1, y2,···, yn.

Varianza

SeaP una población de interés,Muna muestra significativa de tamaño n y x una variable


cuantitativa discreta que toma valores x1, x2,···, xn. La varianza muestral de la variable x,
que se denota por s2 x, está dada por:

k
1
s ²= ∑ ( xi−x) ² fi❑
n i=1

Desviación estándar

Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa discreta que toma valores x1, x2, ···, xn. La desviación estándar muestral de la
variable x, que se denota por sx, está dada por:

sx= √
s² x

Si la variable x es una variable cuantitativa continua, entonces la desviación estándar sx de


x es la misma que la dada en la definición, donde xi representa marca de clase.

Medidas de asimetría
Sea P una población de interés, M una muestra significativa de tamaño n y x una variable
cuantitativa discreta que toma valores x1, x2,···, xn. A continuación, se definen las medidas
de asimetría más usuales.

1 El coeficiente de asimetría de Pearson, que se denota por As1, está dada por:

x −mo
As 1=
sx

.2 El coeficiente de asimetría sesgado de Pearson, que se denota por As2, está dada por:

3 ( x−me )
As 2=
sx

.3 El coeficiente de asimetría de Fisher, que se denota por g1, está dada por:

m3
g1
s 3x

. 4 El coeficiente de asimetría de Yule, que se denota por B, está dada por:

( Q 3−me ) −(me−Q 1)
B=
Q 3−Q 1

5 El coeficiente de asimetría de sesgo percentílico 10−90, que se denota por As10−90, está
dado por:

( d 9−me ) −(me−d 1)
As 10−90=
d 9−d 1

6 El coeficiente de asimetría de Kelley, que se denota por K, está dado por:

1
K= ( d 1+d 9 )−me
2

¿Qué es R?

R es un lenguaje de programación interpretado, de distribución libre, bajo Licencia GNU, y


se mantiene en un ambiente para el cómputo estadístico y gráfico. Este software corre en
distintas plataformas Linux, Windows, MacOS, e incluso en PlayStation 3. El término
ambiente pretende caracterizarlo como un sistema totalmente planificado y coherente, en
lugar de una acumulación gradual de herramientas muy específicas y poco flexibles, como
suele ser con otro software de análisis de datos. El hecho que R sea un lenguaje y un
sistema, es porque forma parte de la filosofía de creación

R fue creado en 1992 en Nueva Zelanda por Ross Ihaka y Robert Gentleman (Ihaka
[1998]). La intención inicial con R, era hacer un lenguaje didáctico, para ser utilizado en el
curso de Introducción a la Estadística de la Universidad de Nueva Zelanda. Para ello
decidieron adoptar la sintaxis del lenguaje S desarrollado por Bell Laboratories. Como
consecuencia, la sintaxis es similar al lenguaje S, pero la semántica, que aparentemente es
parecida a la de S, en realidad es sensiblemente diferente, sobre todo en los detalles un poco
más profundos de la programación. A modo de broma Ross y Robert, comienzan a llamar
“R” al lenguaje que implementaron, por las iniciales de sus nombres, y desde entonces así
se le conoce en la muy extendida comunidad amante de dicho lenguaje. Debido a que R es
una evolución de S, a continuación, daremos una breve reseña histórica de este lenguaje,
para entender los fundamentos y alcances de R.

R cuenta con una muy buena ayuda en el uso de funciones de manera muy similar al man
de UNIX. para obtener información de cualquier función en específico, por ejemplo, lm, el
comando es:

1 Operador asignar. Un objeto puede ser creado con este operador, el cual se denota como
una flecha con el signo menos y el símbolo “>” o “<-7 genera la variable m con el valor 7,
mientras que 10->n genera la variable n con el valor 10. R diferencia entre minúsculas y
mayúsculas –es decir, n es diferente de N–.

2 Se puede escribir una expresión sin asignar su valor a un objeto, por ejemplo, (1+7)*2
devuelve el valor 16 pero no se guarda.

3 Ayuda en línea. ¿Se usa? Cosa para obtener en R ayuda sobre Cosa. ¿Por ejemplo? lm
despliega ayuda sobre la función lm (). Los comandos help(lm) o help("lm") tienen el
mismo efecto.
4 Objeto. Un objeto en R tiene nombre, contenido y atributos. Todo objeto tiene dos
atributos intrínsecos: tipo y longitud. El tipo se refiere a la clase básica de los elementos del
objeto: número, carácter, complejo y lógico. La longitud es el número de elementos del
objeto. Para ver estos atributos se usan los comandos mode y length, respectivamente.

5 Las variables que necesitan ser especificadas como caracteres se delimitan con comillas ".

6 Cuando un dato no está disponible se representa con NA. Los datos numéricos muy
grandes se pueden expresar en notación exponencial. R representa valores numéricos no
finitos como ±∞ con inf y –inf

Lo más básico para empezar a comprender R

7 Vector. Es una variable compuesta por n elementos del mismo tipo.

8 Factor. Es una variable categórica.

9 arreglo. Es una tabla de dimensión k –por ejemplo, si k = 3, entonces el arreglo es una


especie de “cubo”–.

10 matriz. Es un arreglo con k = 2, es decir, un arreglo con m filas y n columnas.

11 data.frame. Es una tabla compuesta por uno o más vectores y/o uno o más factores de la
misma longitud pero que pueden ser de diferentes tipos.

12 ts. Es una serie de tiempo y como tal tiene atributos adicionales.

13 lista. Puede contener cualquier tipo de objeto.

Generación de datos

1 Secuencias regulares. Una secuencia regular de números enteros se genera con x<-m:n.
Se puede usar por ejemplo x<-m:n-j y x<-m:(n-j).

2 Función seq. Genera funciones de números reales. Se usa x<-seq(m,n,j), donde m es el


inicio de la secuencia, n el final y j el incremento. También puede usarse
seq(length=j,from=m,to=n).

3 Para generar un vector se usa c(n1,n2,n3,...,nj).


4 Función rep. Se usa rep(m,j), donde m es el número que se repite y j la cantidad de veces
que se repite.

5 Función sequence. Se usa sequence(m:n) para generar secuencias que van de 1 a m,


de1am+1,de1am+2,...,de1an.Tambiénseusa,sequence(c(n1,n2,...,nj)) para generar
secuencias que van de 1 a n1, de 1 a n2, ..., de 1 a nj.

6 Función gl. Se usa gl(n,k) para generar series regulares de factores. n es el número de
niveles o clases y k es el número de replicas en cada nivel. También puede usarse
gl(n,k,label=C()) y gl(n,k,length=m).

7 Función expand.grid.Creaunmarcodedatoscontodaslascombinacionesdevectores o factores


proporcionados como argumentos.

Creación de objetos

1 Vectora. Es una concatenación de datos. Los datos deben ser del mismo tipo. Cada dato
recibe un índice según el orden en que se concatenó (para acceder al dato se usa dicho
índice). Para generar un vector se usa la función c().

Suponga que se genera un vector V de 11 números,

1 Si se escribe V se muestra todo el vector.

2 V[5], muestra la componente de la posición 5 del vector.

3 V[-5], muestra todo el vector excepto la componente de la posición 5.

4 V[c(n1,n2,...,nj)],muestra las componentes de las posiciones n1,n2,...,nj delvector V.

5V[c(-n1,-n2,...,-nj)],muestra todo el vector excepto las componentes de las posiciones


n1,n2,...,nj.

6 V(n:m), muestra las componentes de las posiciones n a m.

7 Con la función names() se nombran los elementos del vector.

Algunas funciones importantes con vectores: ==, length(), min(), max(), sum(), median(),
mean(), sort(), unique(), wich(), wich.min(), wich.max(), sqrt()
Creación de objetos

2 Factor. Un factor incluye no solo los valores correspondientes a una variable categórica,
sino que también incluye los diferentes niveles posibles de esta variable (inclusive si están
presentes en los datos). La función factor crea un factor con las siguientes opciones:

factor (x, levels = sort(unique(x), na.last = TRUE), labels = levels, exclude = NA, ordered
= is.ordered(x))

levels especifica los posibles niveles del factor (por defecto los valores únicos de x), labels
define los nombres de los niveles,exclude especifica los valores x que se deben excluir de
los niveles, y ordered es un argumento lógico que especifica si los niveles del factor están
ordenados.

3 Matriz. La función matrix crea una matriz. Para generar una matriz se usa el siguiente
código: matrix(data = NA, nrow = m, ncol = n, byrow = FALSE, dimnames = NULL) La
opción byrow indica si los valores en data deben llenar las columnas sucesivamente (por
defecto) o las filas (TRUE). La opción dimnames permite asignar nombres a las filas y
columnas. Suponga que se tiene una matriz M, 1 Para mostrar una componente de M se usa
M[i,j]. 2 M[i,] muestra la fila i de M. 3 M[,j] muestra la columna j de M

Algunas operaciones básicas

Adición (+), sustracción (−), Multiplicación por un escalar (∗), Multiplicación entre
matrices (% ∗ %), Potencia. Transpuesta t(), Diagonal diag(), Determinante det(), Inversa
solve(). Funciones rbind y cbind.

Conclusiones

La estadística descriptiva nos muestra un mundo extenso y completo sobre la aplicación a


estadística y por ende probabilidad, nos brinda el orden y la concentración que necesitamos
para realizar un ejercicio plateado en este campo, aparte de eso nos enseña a redactar mejor,
a buscar la solución a un problema de la manera más entendible tanto para nosotros mismos
como para el que nos lea.

El análisis exploratorio o los métodos estadísticos descriptivos son útiles para comprender
estructura de datos para detectar patrones de comportamiento. Una forma es usar gráficos.
fácil de ejecutar y explicar. Otra forma de describir los datos es resumir transforme los
datos en uno, dos o más números para caracterizar fielmente el conjunto de datos. la
exploración de datos nos permitirá detectar datos erróneos o inesperados y nos ayudará
Decidir qué métodos estadísticos se pueden utilizar en etapas posteriores del análisis. para
obtener conclusiones válidas. Las estadísticas le permiten hacer inferencias a partir de
datos. Al extraer información de los datos, podremos comprender mejor la situación que
representan. Los métodos estadísticos cubren todas las fases de la investigación, desde el
diseño hasta la encuesta y por último el análisis final de los datos.

Podemos distinguir tres etapas principales:

1. Diseño: Planificación y diseño de la investigación.

2. Descripción: recopilación de datos e investigación

3. Conclusión: predicciones y decisiones sobre la función

You might also like