domingo, 29 de noviembre de 2015

RECTA DE REGRESIÓN

RECTA DE REGRESIÓN LINEAL

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes X

La recta de regresión es la que mejor se ajusta a la nube de puntos.
La recta de regresión pasa por el punto centro de gravedad llamado centro de gravedad.

Recta de regresión de Y sobre X

La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.
Recta de regresión

Recta de regresión de X sobre Y

La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.
Recta de regresión
Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre sí, y sus ecuaciones son:
y = media de y
x = media de x
Ejemplo: 
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
MatemáticasFísica
21
33
42
44
54
64
66
74
76
87
109
1010
Hallar las rectas de regresión y representarlas.
xiyixi ·yixi2yi2
21241
33999
428164
44161616
54202516
64243616
66363636
74284916
76424936
87566449
1099010081
1010100100100
7260431504380

1º Hallamos las medias ariméticas.
medias
2º Calculamos la covarianza.
covarianza
3º Calculamos las varianzas.
varianzas
Recta de regresión de Y sobre X.
recta
Recta de regresión de X sobre Y.
recta
representación

COEFICIENTE DE PEARSON

COEFICIENTE DE CORRELACIÓN 

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

EN ESTA IMAGEN SE DISTINGUEN LAS DISTINTAS REPRESENTACIONES DE LOS VALORES POSIBLES DE R


En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra \rho_{x,y}, siendo la expresión que nos permite calcularlo:
\rho_{X,Y}={\sigma_{XY} \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},
Donde:
  • \sigma_{XY} es la covarianza de (X,Y)
  • \sigma_{X} es la desviación típica de la variable X
  • \sigma_{Y} es la desviación típica de la variable Y
De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como r_{xy} a:

r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.

Interpretación


El valor del índice de correlación varía en el intervalo [-1,1]:
  • Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
  • Si 0 < r < 1, existe una correlación positiva.
  • Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.
  • Si -1 < r < 0, existe una correlación negativa.
  • Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.

miércoles, 11 de noviembre de 2015

MEDIDAS DE DISPERSIÓN

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.
Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.
La desviación típica se representa por σ.
de relación típicadesviación

Desviación típica para datos agrupados

desviación típicadesviación
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
desviación típicadesviación típica

Desviación típica para datos agrupados

desviación típicadesviación típica

Ejercicios de desviación típica

Calcular la desviación típica de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
media
Desviación típica
Calcular la desviación típica de la distribución de la tabla:
 xifixi · fixi2 · fi
[10, 20)15115225
[20, 30)2582005000
[30,40)351035012 250
[40, 50)45940518 225
[50, 60)55844024 200
[60,70)65426016 900
[70, 80)75215011 250
  421 82088 050
media
desvición típica

MEDIDAS DE DISPERSI

MEDIDAS DE DISPERSIÓN

Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
La varianza se representa por signo.
varianzavarianza
Varianza para datos agrupados
varianzavarianza
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
varianzavarianza
Varianza para datos agrupados
varianzavarianza
Ejercicios de varianza
Calcular la varianza de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
media
varianza


Calcular la varianza de la distribución de la tabla:

xi
fi
xi · fi
xi2 · fi
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250


42
1 820
88 050
media
varianza

MEDIDAS DE TENDENCIA CENTRAL

MEDIDAS DE TENDENCIA CENTRAL

La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen los datos.
La medidas de centralización son:
Moda
La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4


Cálculo de la moda para datos agrupados
1º Todos los intervalos tienen la misma amplitud.
fórmula de la moda
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:
moda
Ejemplo
Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:

fi
[60, 63)
5
[63, 66)
18
[66, 69)
42
[69, 72)
27
[72, 75)
8

100
moda
moda


2º Los intervalos tienen amplitudes distintas.
En primer lugar tenemos que hallar las alturas.
alturas
La clase modal es la que tiene mayor altura.
moda


La fórmula de la moda aproximada cuando existen distintas amplitudes es:
moda
Ejemplo
En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.

fi
hi
[0, 5)
15
3
[5, 7)
20
10
[7, 9)
12
6
[9, 10)
3
3

50

moda
moda


Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana
1 Ordenamos los datos de menor a mayor.
2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5
3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dospuntuaciones centrales.
7, 8, 9, 10, 11, 12Me= 9.5
Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentrecociente.
mediana
Li es el límite inferior de la clase donde se encuentra la mediana.
cociente es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.
Ejemplo
Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:

fi
Fi
[60, 63)
5
5
[63, 66)
18
23
[66, 69)
42
65
[69, 72)
27
92
[72, 75)
8
100

100

100 / 2 = 50
Clase modal: [66, 69)
mediana


Media aritmética
La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.
símbolo de la media aritmética es el símbolo de la media aritmética.
fórmula de la media
media
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
media aritmética


Media aritmética para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
media
media
Ejercicio de media aritmética
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media.

xi
fi
xi · fi
[10, 20)
15
1
15
[20, 30)
25
8
200
[30,40)
35
10
350
[40, 50)
45
9
405
[50, 60
55
8
440
[60,70)
65
4
260
[70, 80)
75
2
150


42
1 820
media


Propiedades de la media aritmética
1 La suma de las desviaciones de todas las puntuaciones de una distribución respecto a lamedia de la misma igual a cero.
expresión
Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media aritmética 7.6 es igual a 0:
8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =
= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0
2 La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética.
mínimo
3 Si a todos los valores de la variable se les suma un mismo número, la media aritméticaqueda aumentada en dicho número.
4 Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicada por dicho número.


Observaciones sobre la media aritmética
1 La media se puede hallar sólo para variables cuantitativas.
2 La media es independiente de las amplitudes de los intervalos.
3 La media es muy sensible a las puntuaciones extremas. Si tenemos una distribución con los siguientes pesos:
65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución.
4 La media no se puede calcular si hay un intervalo con una amplitud indeterminada.

xi
fi
[60, 63)
61.5
5
[63, 66)
64.5
18
[66, 69)
67.5
42
[69, 72)
70.5
27
[72, ∞ )

8


100
En este caso no es posible hallar la media porque no podemos calcular la marca de clase de último intervalo.