EST_1415_Practica7

878 days ago by sevillad1415

Práctica 7 de Estadística

 

Límite de entrega de esta práctica: ver tarea en Moodle o calendario de la asignatura. Hasta una semana de retraso: vale hasta el 50%. Más de una semana de retraso: no cuenta para la nota.

Instrucciones:

  1. Haz una copia de la hoja pública y renómbrala: si tu correo es usuario@alumnos.unex.es añade al final del título _usuario, por ejemplo EST_1415_Practica2_sevillad.
    • Para cambiar el nombre pulsa en el título de la hoja (arriba del todo, entre el logo de Sage y el menú "File...")
  2. Comparte la hoja de trabajo con el usuario sevillad1415 mediante el botón Share de arriba a la derecha.
  3. Trabaja la práctica: los ejercicios marcados "opcional" son solo para subir nota.
  4. Cuando hayas terminado, haz una copia en un único fichero PDF y ponlo en el campus virtual. Esa será la versión que se evaluará. La hoja no se considera entregada si no se ha compartido (punto 2).
    • Para generar el PDF lo más sencillo es usar el botón Print de arriba e imprimir la nueva página a fichero.
    • Una alternativa es hacer capturas de pantalla (JPG, PNG...) de la hoja a imprimir, y convertirlas a PDF uniendo después los distintos ficheros generados.
  5. Ve al campus virtual, al registro de horas no presenciales, y pon allí las dedicadas a esta práctica (recuerda descontar las presenciales de laboratorio), indicando en "observaciones" la actividad.

 

 

La media y cuasivarianza muestrales se calculan con mean y variance respectivamente (la segunda función se puede usar también para calcular la varianza muestral, pero no nos hará falta).

d = [1,2] mean(d); variance(d) 
       
3/2
1/2
3/2
1/2

Como vimos en la práctica de variables aleatorias continuas, para calcular probabilidades y cuantiles tenemos funciones en el paquete R. En concreto, usaremos r.p... para probabilidades y r.q... para cuantiles; cada distribución tiene sus dos funciones.

Ya conocemos la distribución normal. A continuación calculamos una probabilidad y un cuantil conocidos. En el segundo ejemplo no indicamos la media ni la desviación típica, por lo que Sage asume que es la normal estándar.

r.pnorm(2,mean=2,sd=3).n() 
       
0.500000000000000
0.500000000000000
r.qnorm(0.025).n() 
       
-1.95996398454005
-1.95996398454005

Cuando cambiamos una varianza por una estimación normalmente cambiamos los cuantiles de $N(0,1)$ por los de la distribución t de Student con $n-1$ grados de libertad. Aquí tienes una comparación animada entre $N(0,1)$ y las t de Student para distintos grados de libertad; como ves la t es como la normal pero más ancha y baja. A partir de 30 grados de libertad se suele considerar que se parecen tanto como para usar solo la normal.

%hide pnormal = plot(RealDistribution('gaussian', 1),xmin=-4,xmax=4,color="red",figsize=6,legend_label="$N(0,1)$") frames = [plot(RealDistribution('t', i),xmin=-4,xmax=4,color="blue",legend_label="$t_{"+str(i)+"}$")+pnormal for i in [1..10]+[12,14..30]] animate(frames).show(delay=30) 
       

Para las probabilidades y los cuantiles de la t de Student, las funciones son r.pt y r.qt respectivamente. Además de poner dentro el valor que queramos, el segundo argumento debe ser el número de grados de libertad.

A modo de ilustración calculemos el intervalo al 95% para varios grados de libertad, con un bucle for. Como siempre es útil intentar entender el código.

for gdl in [1,3,10,30]: (r.qt(0.025,gdl).n(),r.qt(0.975,gdl).n()) 
       
(-12.7062047361747, 12.7062047361747)
(-3.18244630528371, 3.18244630528371)
(-2.22813885198627, 2.22813885198627)
(-2.04227245630124, 2.04227245630124)
(-12.7062047361747, 12.7062047361747)
(-3.18244630528371, 3.18244630528371)
(-2.22813885198627, 2.22813885198627)
(-2.04227245630124, 2.04227245630124)

Finalmente, las distribuciones chi cuadrado ($\chi^2$) son distintas de las anteriores, por ejemplo no son simétricas (de hecho solo toman valores positivos).

%hide frames = [plot(RealDistribution('chisquared', i),xmin=0,xmax=20,ymax=1,aspect_ratio=10,color="blue",legend_label="$\chi^2_{"+str(i)+"}$") for i in [1..10]+[12,14..20]] animate(frames).show(delay=30) 
       

Se manipulan con las funciones r.pchisq y r.qchisq indicando también los grados de libertad como segundo argumento de cada función. Calculamos y dibujamos la mediana de $\chi^2_5$, después comprobamos que efectivamente deja la mitad del área a su izquierda.

gdl = 5 c = r.qchisq(0.5,gdl).n() plot(RealDistribution('chisquared',gdl),xmin=0,xmax=20,ymax=0.4,aspect_ratio=20) + line([(c,0),(c,r.dchisq(c,gdl).n())],color="red") + text(str(c.n(digits=5)),(c,-0.035)) 
       
r.pchisq(c,gdl).n() 
       
0.500000000000000
0.500000000000000

Ejercicio 1. El tiempo de ejecución de un programa es una variable aleatoria con desviación típica 0.2 s. Hacemos una serie de 30 repeticiones.

  • ¿Cuál es la probabilidad de que obtengamos una cuasidesviación típica muestral por debajo de 0.15 s?
  • A partir de la serie siguiente calcula, para el tiempo medio de ejecución, el intervalo de confianza al 99%.

[1.365, 1.490, 1.433, 1.502, 1.170, 1.380, 1.208, 1.850, 1.189, 1.152, 1.295, 1.451, 1.662, 1.265, 2.029, 1.087, 1.122, 1.353, 1.533, 1.164, 1.436, 1.291, 1.107, 1.770, 1.233, 1.124, 1.282, 1.491, 1.169, 1.485]

 
       
 
       

Ejercicio 2. Supongamos que la probabilidad de que alguien tenga ojos azules es del 25%. Elegimos a 5000 personas al azar. Calcula, aproximando con una distribución normal:

  • La probabilidad de que entre 150 y 1000 personas tengan los ojos azules.
  • Un intervalo que contenga con un 80% de probabilidad el número de personas con ojos azules.
 
       
 
       

Ejercicio 3. Supongamos que la vida de ciertos componentes electrónicos sigue una distribución desconocida. Hemos medido la vida de varios de esos componentes, obteniendo (en años) los valores que están debajo. Estima la media y la varianza de la distribución con intervalos al 90%.

d = [2.042, 9.224, 0.7861, 0.1689, 1.912, 0.8138, 0.2489, 1.708, 2.180, 0.4099, 1.496, 1.657, 1.848, 0.3505, 2.768, 0.1546, 0.08612, 4.696, 0.8493, 4.260, 1.958, 0.7133, 5.631, 0.7673, 2.641, 0.06902, 1.131, 4.010, 0.1733, 0.3714, 0.1963, 1.668, 1.275, 0.1300, 1.663, 1.142, 0.8009, 0.05159, 7.852, 1.543, 4.010, 1.579, 2.590, 1.195, 1.398, 2.683, 2.205, 1.980, 0.6126, 1.622] 
       
 
       
 
       

Ejercicio 4. Ahora nos informan de que la distribución del ejercicio anterior es una exponencial (tema 5). Estima su parámetro por máxima verosimilitud y relaciona el resultado con el del ejercicio anterior.

 
       

Ejercicio 5 (opcional). Con los datos de la segunda parte del ejercicio 1, calcula un intervalo al 95% pero que no sea el de confianza.

 
       

Ejercicio 6 (opcional). La muestra de datos de la celda siguiente ha sido generada a partir de una distribución normal de parámetros desconocidos. Nos interesa calcular intervalos de confianza de la media. Calcula los valores de confianza necesarios para que el intervalo tenga anchura 0.002 y 2 respectivamente.

d = [246.162284013112, 246.288571250023, 246.210496923627, 246.409773236643, 245.812476893154, 246.402041201249, 246.291167385195, 246.161643627447, 246.170934613250, 246.331839234611]