viernes, 9 de diciembre de 2011

Estadísticas

CONCEPTOS BÁSICOS:

Medidas de tendencia central

Las Medidas de tendencia central son puntos que sirven para realizar la interpretación de datos estadísticos.
En definición sirve para obtener el promedio, centro y dato más común.
Existen tres tipos de Medidas de tendencia central, y son las siguientes:
Media: Esta es la más conocida por todos, y se refiere al promedio de los datos. Su cálculo se obtiene de la suma total de los valores y la división por el número de la cantidad de datos.
Mediana: La mediana es el dato que se ubica justo en el centro de los valores. No se refiere el valor de la mitad de todos los datos, sino que se refiere al valor del dato ubicado justo en el centro si ubicamos todos estos en orden. Es decir, entre cuatro valores “2” y un valor “3” la mediana será 2, ya que se ubica justo al centro de los 5 valores en línea. En caso de encontrarse con cantidad de datos par, la mediana será la mitad del valor siguiente – valor actual.
Moda: La moda es el dato que más se repite entre todos, donde si vemos el caso anterior sería el número “2”.

Medidas de dispersión

Es utilizada para calcular la variabilidad de la Moda, ósea, para saber cuán lejos está el valor de la moda con respecto a la cantidad total de los puntos de los datos. Mientras mayor sea esta medida, más diversidad de datos tenemos y en caso contrario, mientras menos se aleja menor será la heterogeneidad de los datos y nos enfrentaremos a datos más similares entre sí.

Cuartiles

Similar a la mediana, son los 3 datos que se ubican en la ¼ parte, la mitad y la ¾ parte de la población, estos se ven como Q1, Q2 y Q3. Si analizamos veremos que Q2 es equivalente a la mediana de la población. Y si analizamos el caso donde tenemos cuatro valores “2” y un valor 3, veremos que los cuartiles son 2, 2 y 2,5.

Población

Es el universo o colectivo. Es el conjunto de datos o elementos sobre el que se realizarán los análisis y observaciones. Por ejemplo, en una encuesta a personas serían las personas encuestadas.

Muestra

Una muestra es un subconjunto de datos o una parte de la población total. Son usadas para realizar observaciones con un pequeño conjunto de datos, pero que a la vez son representativas del conjunto de datos de la población total.

Parámetros

Es la representación de los datos, un análisis o simplificación que nos da un acercamiento al significado real de la realidad total de la población. Estas se dividen en dos partes, Parámetros de centralización, que es igual a las medidas de tendencia centras definidas en el primer término, donde podemos calcular la media, mediana y moda; y Parámetros de dispersión, que se refiere a datos del tipo total de la población, por ejemplo la suma del peso de todos, la distancia recorrida en total, etc.




Estadísticos

Los estadísticos o parámetros estadísticos son los datos que se obtienen de una población. Se refiere a lo que obtenemos al realizar los análisis en un espectro de datos, las tendencias u otros resultados obtenidos.

Definición formal de estadística descriptiva (autor y año)

Atendiendo a lo que tradicionalmente se ha entendido por descriptiva se estaría hablando de un conjunto de herramientas, formado por coeficientes y técnicas, que tratan de resumir la información contenida en un conjunto de datos. Sin embargo, la estadística descriptiva es mucho más que eso, en realidad es una parte fundamental de cualquier análisis estadístico complejo, en la que se empiezan a tomar decisiones que afectarán al conjunto de la investigación.

Autor: Grupo de Investigación TeLoYDisRen

I. Espejo Miranda                    
F. Fernández Palacín
M. A. López Sánchez
M. Muñoz Márquez
A. M. Rodríguez Chía
A. Sánchez Navas
C. Valero Franco

Año: 2006

Definición formal de estadística Inferencial (autor y año)

Estadística Inferencial: Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población basándose sólo en los resultados de una muestra.
Autor: Berenson y Levine
Año: 2001
Definición formal análisis de correlación de 2 variables (autor y año)

Correlación: medición de la intensidad de la asociación
En el análisis de correlación estamos interesados en medir el grado de asociación entre dos variables. La intensidad de la relación se mide mediante el coeficiente de correlación r , cuyos valores van de –1 a +1. El coeficiente de correlación en casos de regresión lineal simple toma el signo de b1.

 Suposiciones de regresión y correlación. Las cuatro principales suposiciones acerca de la regresión son: 1.Normalidad. 2. Homoscedasticidad. 3. Independencia de error. 4. Linealidad.
La primera suposición, normalidad, requiere que los valores de Y estén distribuidos normalmente en cada valor de X. Siempre y cuando la distribución de los valores de Yi alrededor de cada nivel de X no sea extremadamente diferente de una distribución normal, las inferencias acerca de la línea de regresión y de los coeficientes de regresión no se verán seriamente afectadas. La segunda suposición, homoscedasticidad, requiere que la variación alrededor de la línea de regresión sea constante para todos los valores de X. La tercera suposición, independencia de error, requiere que el error sea independiente de cada valor de X. Por último, la linealidad establece que la relación entre las variables es lineal.
Autor: Berenson y Levine
Año: 2001


















Análisis estadístico descriptivo

Para las variables deporte favorito y estado civil determinar: Moda y gráfico

> .Table  # counts for Deporte.favorito

Basquetball      Futbol    Natación       Tenis
          6          17           6           6

> round(100*.Table/sum(.Table), 2)  # percentages for Deporte.favorito

Basquetball      Futbol    Natación       Tenis
      17.14       48.57       17.14       17.14
La moda de los datos es Futbol.



Para las variables edad, altura y Horas de uso de Internet: Promedio, desviación típica, cuartiles y gráficos:

Edad:

> numSummary(Datos[,"Edad..años."], statistics=c("mean", "sd", "quantiles"),
+   quantiles=c(0,.25,.5,.75,1))

Promedio
Desviación Típica
Cuartiles
Mean
sd
25% 50% 75%
26.42857
8.243663
19    25    34 

Altura:
> numSummary(Datos[,"Altura..cm."], statistics=c("mean", "sd", "quantiles"),
+   quantiles=c(0,.25,.5,.75,1))

Promedio
Desviación Típica
Cuartiles
Mean
sd
25% 50% 75%
158.8571
19.14364
148 161 171.5

Horas de uso de Internet:
> numSummary(Datos[,"Horas.uso.Internet"], statistics=c("mean", "sd",
+   "quantiles"), quantiles=c(0,.25,.5,.75,1))

Promedio
Desviación Típica
Cuartiles
Mean
sd
25%   50%   75%
10.25714
5.996778 
5.5     9     15  



Cuartiles
25% 50% 75%
19    25    34 
Explicación Cuartiles:
Edad: Para la variable edad el 25% de los individuos de la muestra tienen hasta 19 años.
Para la variable edad el 50% de los individuos de la muestra tienen hasta 25 años.
Cuartiles
25% 50% 75%
148 161 171.5
Para la variable edad el 75% de los individuos de la muestra tienen hasta 34 años.

Altura: Para la variable altura el 25% de los individuos de la muestra miden hasta 148 cm.
Para la variable altura el 50% de los individuos de la muestra miden hasta 161 cm.
Para la variable altura el 75% de los individuos de la muestra miden hasta 171.5 cm.
Cuartiles
25%   50%   75%
5.5     9     15  

Horas de uso de Internet: Para la variable horas de uso de internet el 25% de los individuos de la muestra navegan hasta 5.5 horas.
Para la variable horas de uso de internet el 50% de los individuos de la muestra navegan hasta 9 horas.
Para la variable horas de uso de internet el 75% de los individuos de la muestra navegan hasta 15 horas.

Comparación del promedio de edad y desviación típica por Estado civil:

> numSummary(Datos[,"Edad..años."], groups=Datos$Estado.civil,
statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
                     mean       sd 0%   25%  50%   75% 100%  n
Casado           34.50000 4.949747 31 32.75 34.5 36.25   38  2
Compromiso legal 26.55556 9.084480 15 19.00 29.0 33.00   39  9
Sin Compromisos  25.70833 8.029723 14 19.00 25.0 32.00   38 24

Comparación del promedio de horas de uso internet  y desviación típica por Procedencia:

 >numSummary(Datos[,"Horas.uso.Internet"], groups=Datos$Procedencia,
statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
                    mean       sd 0%   25%  50%  75% 100%  n
Ciudad cercana 10.416667 7.525210  1  3.75 10.5 18.0   20 12
Otra Región     5.666667 3.011091  2  3.25  6.0  8.0    9  6
Rural           9.714286 5.023753  1  7.50  9.0 14.0   15  7
Temuco         13.200000 4.565572  7 10.50 12.5 16.5   20 10









Intervalos de confianza

Intervalo de confianza para el promedio de altura de la población con un 1%, 5% y 10% de significancia:



> t.test(Datos$Altura..cm., alternative='two.sided', mu=0.0, conf.level=.99)

                                                             One Sample t-test

data:  Datos$Altura..cm.
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
 [150.0284 ; 167.6859]
sample estimates:
mean of x
 158.8571








Intervalo de confianza con un 5% de significancia para el promedio de la edad:


> t.test(Datos$Altura..cm., alternative='two.sided', mu=0.0, conf.level=.95)

                                                             One Sample t-test

data:  Datos$Altura..cm.
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
[152.2811 ; 165.4332 ]
sample estimates:
mean of x
 158.8571

Intervalo de confianza con un 10%  de significancia para el promedio de la edad:

> t.test(Datos$Altura..cm., alternative='two.sided', mu=0.0, conf.level=.90)

                                                             One Sample t-test

data:  Datos$Altura..cm.
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
[153.3855 ; 164.3287]
sample estimates:
mean of x
 158.8571

Intervalo de confianza para el promedio de edad de la población con un 1%, 5% y 10% de significancia:

Intervalo de confianza con un 1% de significancia para el promedio de la edad:

> t.test(Datos$Edad..años., alternative='two.sided', mu=0.0, conf.level=.99)

                                                             One Sample t-test

data:  Datos$Edad..años.
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
[22.62674 ; 30.23041
]
sample estimates:
mean of x
 26.42857











Intervalo de confianza con un 5% de significancia para el promedio de la edad:

> t.test(Datos$Edad..años., alternative='two.sided', mu=0.0, conf.level=.95)

                                                             One Sample t-test

data:  Datos$Edad..años.
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
[23.59677 ; 29.26037]
sample estimates:
mean of x
 26.42857

Intervalo de confianza con un 10% de significancia para el promedio de la edad:

> t.test(Datos$Altura..cm., alternative='two.sided', mu=0.0, conf.level=.90)

                                                             One Sample t-test

data:  Datos$Altura..cm.
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
[153.3855 ; 164.3287]
sample estimates:
mean of x
 158.8571

Intervalo de confianza para el promedio de Horas de uso de Internet  de la población con un 1%, 5% y 10% de significancia:

Intervalo de confianza con un 1% de significancia para el promedio de la edad:

> t.test(Datos$Horas.uso.Internet, alternative='two.sided', mu=0.0,
+   conf.level=.99)

                                                             One Sample t-test

data:  Datos$Horas.uso.Internet
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
[7.491532 ; 13.022754]
sample estimates:
mean of x
 10.25714











Intervalo de confianza con un 5% de significancia para el promedio de la edad:

> t.test(Datos$Horas.uso.Internet, alternative='two.sided', mu=0.0,
+   conf.level=.95)

                                                             One Sample t-test

data:  Datos$Horas.uso.Internet
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
[8.197178 ; 12.317108]
sample estimates:
mean of x
 10.25714

Intervalo de confianza con un 10% de significancia para el promedio de la edad:

> t.test(Datos$Horas.uso.Internet, alternative='two.sided', mu=0.0,
+   conf.level=.90)

                                                             One Sample t-test

data:  Datos$Horas.uso.Internet
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
[8.543154 ; 11.971132]
sample estimates:
mean of x
 10.25714

Contraste de Hipótesis: suponer varianzas distintas

a)    Realiza un contraste bilateral para la diferencia del promedio de “edad” según sexo. Con un 1%, 5%  de significancia.

Contraste bilateral con un 1% de significancia para la diferencia del promedio de la edad:

> t.test(Edad..años.~Sexo, alternative='two.sided', conf.level=.99, var.equal=FALSE, data=Datos)

           Welch Two Sample t-test

data:  Edad..años. by Sexo
p-value = 0.01568
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
[-14.1735151   ; 0.5068484]
sample estimates:
mean in group F mean in group M
       23.50000        30.33333

Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la acepto porque:
La P es 0.01568 y es mayor que el valor de Alfa que es 0.01 por lo tanto la Ho se acepta.
 Además el valor propuesto en la hipótesis nula que es 0  está dentro del rango [-14.1735151   ; 0.5068484] por lo tanto se acepta la Ho.

Contraste bilateral con un 5% de significancia para la diferencia del promedio de la edad:

           Welch Two Sample t-test

data:  Edad..años. by Sexo
p-value = 0.01568
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
[-12.273032  ; -1.393634]
Dado que el Test F nos arroja el siguiente resultado; acepto con un 95% que las varianzas.

Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la rechazo porque:
La P es 0.01568 y es menor que el valor de Alfa que es 0.05 por lo tanto la Ho se rechaza.
Además el valor propuesto en la hipótesis nula que es 0 no está dentro del rango [-12.273032;       -1.393634] por lo tanto se rechaza la Ho y acepto la hipótesis alternativa u1- u2 distinto de 0|.

b)    Realiza un contraste bilateral para la diferencia en promedio del “peso”  según sexo. Con un 1%, 5%  de significancia.

Contraste bilateral con un 1% de significancia para la diferencia del promedio del peso:

> t.test(Peso..Kg.~Sexo, alternative='two.sided', conf.level=.99, var.equal=FALSE, data=Datos)

           Welch Two Sample t-test

data:  Peso..Kg. by Sexo
p-value = 0.9771
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
 [-15.80116 ;  16.13450]
sample estimates:
mean in group F mean in group M
       56.70000        56.53333

Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la acepto porque:
La P es 0.9771 y es mayor que el valor de Alfa que es 0.01 por lo tanto la Ho se acepta.
Además el valor propuesto en la hipótesis nula que es 0  está dentro del rango [-15.80116 ;  16.13450] por lo tanto se acepta la Ho.
Contraste bilateral con un 5% de significancia para la diferencia del promedio del peso:

> t.test(Peso..Kg.~Sexo, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=Datos)

           Welch Two Sample t-test

data:  Peso..Kg. by Sexo
p-value = 0.9771
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 [-11.65417  ;  11.98750]
sample estimates:
mean in group F mean in group M
       56.70000        56.53333

Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la acepto porque:
La P es 0.9771 y es mayor que el valor de Alfa que es 0.05 por lo tanto la Ho se acepta.
Además el valor propuesto en la hipótesis nula que es 0  está dentro del rango [-11.65417  ;  11.98750] por lo tanto se acepta la Ho.


c)    Realiza un contraste bilateral para la diferencia en promedio del “horas uso de internet”  según sexo. Con un 1%, 5%  de significancia.

Contraste bilateral con un 1% de significancia para la diferencia del promedio de las horas de uso de internet:

> t.test(Horas.uso.Internet~Sexo, alternative='two.sided', conf.level=.99, var.equal=FALSE, data=Datos)

           Welch Two Sample t-test

data:  Horas.uso.Internet by Sexo
p-value = 0.4341
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
[-3.978378  ; 7.211711]
sample estimates:
mean in group F mean in group M
      10.950000        9.333333

Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la acepto porque:
La P es 0.4341 y es mayor que el valor de Alfa que es 0.01 por lo tanto la Ho se acepta.
Además el valor propuesto en la hipótesis nula que es 0  está dentro del rango  [-3.978378  ; 7.211711] por lo tanto se acepta la Ho.



Contraste bilateral con un 5% de significancia para la diferencia del promedio de las horas de uso de internet:


> t.test(Horas.uso.Internet~Sexo, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=Datos)

           Welch Two Sample t-test

data:  Horas.uso.Internet by Sexo
p-value = 0.4341
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
[-2.542855  ; 5.776188]
sample estimates:
mean in group F mean in group M
      10.950000        9.333333


Para esta hipótesis nula u1-u2=0 suponiendo varianzas distintas la acepto porque:
La P es 0.4341 y es mayor que el valor de Alfa que es 0.05 por lo tanto la Ho se acepta.
Además el valor propuesto en la hipótesis nula que es 0  está dentro del rango [-2.542855  ; 5.776188] por lo tanto se acepta la Ho.



Análisis de Correlación Lineal:


Contraste de Hipótesis r de Pearson para las variables edad y altura:

> cor.test(Datos$Altura..cm., Datos$Edad..años., alternative="two.sided", method="pearson")

                                                             Pearson's product-moment correlation

data:  Datos$Altura..cm. and Datos$Edad..años.
t = -1.0276, df = 33, p-value = 0.3116
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
[-0.4811072  ; 0.1669505]
sample estimates:
       cor
-0.1760931

Contraste de Hipótesis r de Pearson para las variables edad y horas de uso de internet:


> cor.test(Datos$Edad..años., Datos$Horas.uso.Internet, alternative="two.sided", method="pearson")

                                                             Pearson's product-moment correlation

data:  Datos$Edad..años. and Datos$Horas.uso.Internet
t = 0.661, df = 33, p-value = 0.5132
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
[-0.2276011 ; 0.4311382]
sample estimates:
      cor
0.1143160



No hay comentarios:

Publicar un comentario