Estadística Inferencial

Lo que persigue es extrapolar los resultados obtenidos con la estadística descriptiva a la población. La mayoría de lo que vamos a ver se basa en probabilidad ya que el modelo de extrapolación es probabilístico.




Experimento Aleatorio: son los sucesos que podemos observar en un campo científico y en el cuál no es posible determinar con total certeza el suceso o sucesos que pueden ocurrir.



Suceso Elemental: es cada una de las posibilidades que se pueden verificar dentro de un experimento aleatorio.



Suceso Compuesto: es cuando se agrupan de forma arbitraria una serie de experimentos simples. Ej: agrupar sucesos simples en caso de las notas (Sobre, Notable...).



Población: sujetos de estudio. Muestra: sujetos que representan a la población.



La probabilidad oscilará entre 0 (nunca se produce) y 1 (siempre se produce).



Representación en función de probabilidad diagrama de barras. Representación en función de distribución polígono de frecuencias.



Modelos de Probabilidad (existen 3):



Clásico / Laplaciano. Se basa en asignar el mismo grado de probabilidad a cada uno de los sucesos. P = casos favorables / casos posibles.



Frecuentista a posteriori. El modelo se calcula a partir de la frecuencia relativa; f = Fi / N P (S) = f.



Modelo de Probabilidad subjetiva o Bayesiano. Cuando la conducta humana no se ajusta a ninguno de los modelos anteriores; el grado de incertidumbre viene dado por fenómenos subjetivos, como por ejemplo el grado de creencia de un sujeto de que va a llover mañana. La probabilidad viene dada por la creencia del sujeto. La parte esencial es el proceso de muestreo, deformación del subjconjunto. Como regla general, cuántos más sujetos tenga la muestra, mayor probabilidad de que sea representativa. Como regla general un 5% de probabilidad es el subjetivo, aunque dependerá del tamaño de la población.



Lógica Fuzzy: en vez de sumar valores (Ej. 0'3+0'2 = 0'5 bajo esta lógica se toma uno de los valores).



Variable aleatoria: se define así toda función que asigna un número real y sólo uno a cada suceso elemental de un espacio muestral. Al referirnos a ella usaremos X y cada resultado concreto con x minúscula y con un subíndice. Dentro de una variable aleatoria pueden ser discretas (espacio muestral finito o infinito pero numerable) y continuas (espacio muestral infinito no numerable).



Variables discretas: dos conceptos:



Función de probabilidad. Aquélla que nos da la probabilidad de que la variable aleatoria tome un valor concreto. Se representa normalmente con f minúscula f(x) P (x=xi). La probabilidad de un valor que no se puede asumir será 0. La suma de todas las funciones de probabilidad ha de ser 1.



Función de distribución. Aquélla que nos da la probabilidad acumulada para un determinado valor de la variable.



Valor Esperado o Esperanza Matemática. E (X) = x f (x). Todos los valores que puede tomar x y la función de probabilidad. Si el valor sale distinto de 0 un juego de azar es injusto. Algunas normas:



E (a) = a.



E (x+y) = E (x) + E (y).



E (x+a) = a + E (x)



E (ax) = a E (x)



E (ax+b) = a E(x) + b



E (a1x1+a2x2) = a1 E (x1) + a2 E (x2).



Modelos de Probabilidad Q (Bernoulli). Llamaremos prueba de Bernoulli a toda realización de un experimento aleatorio en el que sólo son posibles dos resultados que se llamarán éxito y fracaso y que son mutuamente exclusivos. La probabilidad de éxito será “p” y de fracaso 1-p o “q”. Fórmula: F(X) = P (x < k) = x=0 pxq1-x.



Distribución Binomial. Se refiere a “n” pruebas de Bernoulli independientes tales que la probabilidad de éxito se mantiene constante en todas ellas. El resultado de un experimento no influye en el de los otros. La fórmula no es necesaria puesto que contamos con tablas.



En la práctica puede ocurrir que la variable sea continua, pero en la mayoría de los casos aunque lo sea tendremos que trabajar con ella como si fuera discreta. Al trabajar con variables aleatorias continuas denominamos función de densidad de probabilidad a la función de probabilidad. Cuando estamos en variables continuas la probabilidad de que la variable tome un valor concreto es 0. El concepto de función de distribución se mantiene igual.



Grados de Libertad: número de elementos de una expresión matemática que pueden escogerse libremente. Número de observaciones que pueden elegirse libremente en un modelo o situación matemática concreta. Normalmente vienen dados por n-k, siendo n el tamaño de muestra y k el número de restricciones que ponemos. Ej. dime 5 números = 5 grados de libertad, pero dime 5 números que sumen 100 son 4 grados de libertad.



Modelos de probabilidad para variables continuas:



Distribución Normal. Lo que nos da esta tabla es la probabilidad de que la variable adopte un valor o menos. Propiedades de la normal:



El área bajo la curva es 1.



Es simétrica.



Mediana, moda y media coinciden.



Es asintótica respecto a las absisas (en los extremos se acerca al eje de las x pero no lo toca).



Hay un punto de inflexión para cada parte y siempre está a distancia de una desviación típica respecto a la media.



Cualquier combinación lineal de variables normalmente distribuidas da lugar a otra variable normalmente distribuida.



La curva normal más conocida es la típica y la tabla en éste caso nos da probabilidad.



Distribución 2. Supongamos que tenemos “n” variables aleatorias distribuidas según la curva normal tipificada y a partir de ellas construimos la siguiente expresión: elevamos cada suma al cuadrado y los vamos sumano y su resultado será la variable 2 y cuya función de densidad de probabilidad tiene unas características que conocemos: 2n, siendo “n” los grados de libertad. Ésta distribución se trabaja con tablas dada su dificultad. Las características de las curvas 2 son:



Propiedad aditiva. Si tengo una variable x distribuida según 2 con n1 grados de libertad y una variable distribuida según 2 con n2 grados de libertad y las sumo, la nueva variable también se distribuye de acuerdo a 2, pero con n1+n2 grados de libertad.



2 no puede tomar valores negativos, siempre entre 0 e infinito.



2 es asimétrica; a medida que aumentan los grados de libertad se acerca a la normal. Con 30 o más grados de libertad, 2 se iguala a la normal. Para trabajar con más grados de libertad se aplica: p 2n = ½ (Zp + "(2*n)-1)2.



T de Student (Gosset). Ésta distribución surge de la combinación de N (0,1) con 2 y da lugar a t = z / "x2/n , siendo n los grados de libertad. Se una la distribución normal tipificada. Las características son:



Valores entre + y - infinito, aunque suele tomarse entre + y - 3.



Simétrica en torno a 0, pero más plana y dispersa que la normal, a medida que aumentan los grados de libertad se acerca a la curva normal.



En la tabla, g nos da los grados de libertad, se nos da la información por debajo y la probailidad es lo que viene entre 0'60 y 0'995.



F de Fisher (Snedecor). Surge de la combinación de dos variables distribuidas de acuerdo a 2 y con n1 y n2 grados de libertad. Es importante el orden. Fn1n2 = 2 / n1 / 2/n2. Si un valor no viene en nuestra tabla aplicamos la Propiedad de la Probabilidad Recíproca: si x es una variable con distribución F y m y n grados de libertad, entonces “y” = 1/x también se distribuye según F pero con n y m grados de libertad. Propiedades:



Asimétrica.



Siempre toma valores positivos.



Tiende a hacerse más simétrica y aproximarse a la normal al incrementarse los grados de libertad y converge cuando ambos son infinito.



Distribución de Probabilidad. Es una función de probabilidad o de densidad de probabilidad definida sobre un conjunto de sucesos exhaustivos y mutuamente exclusivos. Las distribuciones suelen ser de corte técnico, lo que nosotros creemos que pasará; en la práctica suponemos que las variables se ajustarán a algunos de los modelos que hemos ido viendo. Esas distribuciones muestrales van a tener importancia en estadística inferencial porque nos van a permitir tomar decisiones. Éstas distribuciones sirven para los sucesos que ocurren por azar, si encontramos diferencias entre teoría y práctica podemos decir que esto no ha ocurrido por azar.



Estadística Inferencial



Suponiendo que queremos hacer una investigación sobre un gran grupo cogemos una muestra y recogemos los datos y luego aplicamos los estadísticos que conocemos, pero todos los valores que obtengamos sólo dan datos sobre la muestra nada más. El paso entre la muestra y la población es de lo que se encarga la estadística inferencial. Cuando uno trabaja en Ciencias Sociales y repite un experimento a diferentes grupos resulta que en cada muestra hay resultados distintos, de forma que difícilmente se da el salto a la Estadística Inferencial. La solución es introducir la probabilidad, sin embargo, al hacer ese salto cabe, obviamente, la posibilidad de error.



Teoría del Muestreo (Normas a seguir para seleccionar los elementos que van a servir para nuestra muestra). No es estrictamente estadística inferencial pero sí necesario para ella. Nos permite elegir muestras de la forma adecuada. Conceptos previos son: elemento (unidad básica de la que buscamos información y que es la que nos va a proporcionar los datos para luego analiazrla. Un elemento puede ser humanos, animales, rocas...), población (conjunto de elementos, finito o infinito definido por un conjunto de características que comparten. Es importante definirlo bien. A veces es posible trabajar con todos los sujetos de la población; cuando hacemos eso estamos haciendo un Censo, de hecho, la estadística surge de los censos. En la realidad se utiliza muy pocas veces por sus altos costes y sus métodos invasivos) y muestra (subconjunto de la población que pretende ser representativo, se usa en lugar de los censos y podemos conseguir casi tanta información como con los censos. Una muestra es representativa si tiene las mimas características que la población -círculo vicioso-). Dentro de la teoría de muestreo hay que hacer referencia a:



Representatividad de la muestra. La estadística inferencial sólo sirve si la muestra es representativa y para averiguar si lo es hay que tener mucho cuidado escogiendo la muestra. Hay algunas técnicas que dan “sesgos de muestreo” que nos pueden llevar a error. Cuando hablamos de “sesgo” no podemos hablar de mala intención, sino que simplemente de forma involuntaria la muestra acaba con un sesgo. Ejemplos de sesgo son el sesgo de selección y el sesgo de la no respuesta.



Aleatoriedad de la muestra. Hay dos tipos de muestreo:



Probabilístico (todos los sujetos tienen la misma prob. de ser elegidos).



Aleatorio Simple. Necesitamos conocer la población y poder numerarlos, vamos sacando por medios mecánicos los números.



Aleatorio Sistemático. Necesitamos conocer el listado de elementos que componen la población, extraemos un solo elemento (i) y el resto de componentes surge de sumar una constante “k”, que se consigue con la fórmula k = N / n , siendo N el tamaño de la población y n el tamaño de la muestra. Tiene problemas tales cómo el que los datos vengan ordenados.



Estratificado. A la hora de hacer la muestra vamos a considerar grupos/categorías que ya existan en la población, como por ejemplo el sexo. Debemos asegurarnos de que todas las categorías estén presentes en la muestra final, y esos estratos tienen que ser tales que sean exclusivos y exhaustivos (no puede haber sujetos en más de un extracto ni sujetos que no tengan ninguno). Dentro de cada extracto se usa un método cualquiera de éstos tres (Afijaciones):



Af. Simple - Dividir tam. de muestra entre nº de estratos.



Af. Proporcional - Se tiene en cuenta el tam. de estratos.



Af. Óptima - Tiene en cuenta tam. y homogenenidad de los estratos, pero su problema es conocer la homoogeneidad de los estratos.



Muestreo por Conglomerados. Es un subconjunto de elementos formado de forma más o menos natural (Ej. departamentos de una facutlad), cuando muestreamos ciudades o similares es muestreo por áreas. Una vez creado el conglomerado se escogen todos los sujetos que forman parte de ese subgrupo. Las ventajas son que no necesitamos conocer todos los individuos de la población, pero sí los conglomerado. Encontrar todos los elementos es complicado y por ello se puede hacer Poretápico, que va de lo general a lo individual. Ej. en vez de buscar profesores buscas institutos y luego se escogen dentro de los institutos elegidos.



No probabilístico (no tienen la misma prob. Dudas sobre su representatividad de la población, más sencillos de hacer):



Muestreo por cuotas. Se basa en que tenemos un buen conocimiento de los estratos que forman una población y además sabe qué sujetos son adecuados para el tipo de investigación que queremos hacer, sólo que la asignación de sujetos no se hace aleatoriamente. Se define una cuota (un tipo de sujetos) y en la investigación se cogen a los primeros sujetos que cumplen los requisitos. Esto elimina la igualdad de probabilidad.



Muestre opinático ó intencional. Se establece un sujeto tipo y se va a por ello. Esto se hace en sondeos electorales.



Muestreo Casual. Coges al que puedes, y un tipo especial son los voluntarios. Lo malo es que el sujeto tiende a hacer lo que cree que el investigador necesita.



Bola de nieve. Uno contacta con unos pocos sujetos que le ponen en contacto con otros sujetos, creciendo la lista como una bola de nieve. Se usa en cosas como los temas de drogas.



Tamaño de la muestra. El “¿Cuantos?” va ligado al nivel de error que vayamos a estar dispuestos a admitir. Cuanta más precisión queramos más sujetos necesitamos. Cosas que influyen son:



Variabilidad de la Población (Varianza poblacional...pero es imposible conocerla, luego hay que basarse en estudios previos).



Tipo de muestreo.



Nivel de confianza en el que queremos trabajar.



¿Qué queremos saber?



Nivel de Confianza + Nivel de Error = 100. El nivel habitual de trabajo en Psicología es del 95% o del 99%.



Estadístico: valor numérico que define una característica de una muestra.



Distribución Muestral: distribución teórica que asigna una probabilidad concreta a cada uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamño que es posible extraer de una determinada población.



“ ” Desviación Típica Poblacional (n), “S” Desviación Típica Muestral (n-1). Z = Xmedia - / ( /"n).



Estimación de parámetros. Primero hacemos una muestra y luego estimamos. Un estimador tiene cuatro características que debe cumplir:



Debe tener carencia de sesgo (ser insesgado), es decir, que su valor esperado coincida con el parámetro que se estima.



Debe tener consistencia (aumenta su eficacia conforme aumenta el tamaño de la muestra).



Eficiencia (un estimador es más eficiente cuánto menor es su varianza).



Que sea eficiente (un estimador es eficiente si la estimación no puede ser mejorada).



E (^S2) = 2 varianza insesgada de la muestra = a la de la población.



E (S2) " 2 varianza sesgada de la muestra " a la de la población.



Estimación Puntual. La estimación puntual consiste en atribuir a un parámetro poblacional (aunque suene redundante) el valor concreto tomado por un estadístico tomado en la nuestra como estimador.



Estimación por Intervalos. Consiste en atribuir al parámetro que se desea estimar un rango de valoes entre los que se espera que se pueda encontrar el verdadero valor del parámetro con una probabilidad alta y conocida. Los límites del intervalo son Xmedia + error típico y Xmedia - error típico.



Nivel de Confianza (1- ) probabiilad de que acertemos nuestro pronóstico.



Nivel de Riesgo ( ) probabilidad de cometer un error.



Li = Xmedia -
z
x / "n



Ls = Xmedia +
z
x / "n



x - / x . Siendo por orden: media muestral, media poblacional y error típico. El erro típico se halla con las fórmulas n-1 / "n ó ^S / "n.



En estadística, seguir un criterio conservador es aceptar poco riesgo, se considera poco riesgo a partir de 0'05, pero es más prestigioso trabaja con 0'01.



Fórmulas para Inferir en proporción.



Li = p - z "p(1-p) / n



Li = p + z "p(1-p) / n



Planteamiento de Hipótesis.



Hipótesis Nula. No cambia nada (Ho)



Hipótesis Alternativa. Sí cambia algo (H1).



El contraste de hipótesis es un proceso de decisión en el que una hipótesis es puesta en relación con los datos empíricos para determinar si es o no compatible con ellos (Teoría de la Decisión Estadística o TDE). Los supuestos de un contraste de hipótesis son afirmaciones que necesitamos establecer para conseguir determinar la distancia de probabilidad sobre la que se basa nuestra decisión de Ho. Tiene tres fases: contraste, comparar datos y determinar si es compatible.



Estadístico de Contraste: es un resultado muestral que cumple una doble condición, por un lado proporcionar información empírica relevante sobre la opción propuesta en la Ho y por otro poseer una distancia muestral conocida. Al intervalo de confianza lo llamamos 1 - , también se le puede llamar “zona de aceptación”. A se le llama “Zona de Riesgo” y supone la aceptación de H1).



Regla de Decisión. Consiste en rechazar la hipótesis nula si el estadístico de contraste toma un valor perteneciente a la zona crítica o de rechazo, y también mantener la hipótesis si el estadístico de contraste toma un valor perteneciente a la zona de aceptación. Aceptar Ho no implica cambios, lo interesante es que caiga en la zona de rechazo. Cuando decidimos mantener una Ho queremos significar con ello que consideramos que esa hipótesis es compatible con los datos, en cambio cuando la rechazamos consideramos probado que esa hipótesis es falsa.



Errores:



Tipo I. Es el que se comete cuando se decide rechazar una hipótesis nula que en realidad es verdadera. La probabilidad de cometer el error tipo I es .



Tipo II. Es el que se comete cuando se decide mantener una hipótesis nula que en realidad es falsa. A la probabilidad de cometer el error tipo II se le llama .



El riesgo se hace pequeño cogiendo un 95% o un 99% y el riesgo se logra haciendo grande el , así que se busca un punto idóneo, que suele ser el 0'05 o 0'01. Para minimizar el riesgo se suele conseguir un N mayor, un tamaño de muestra más grande. Otra forma es que haya mucha desviación típica.



Ho Verdadera



Ho Falsa



Se acepta Ho



Correcto



Error tipo II



Se rechaza Ho



Error tipo I



Correcto



CONTRASTE DE HIPÓTESIS SOBRE UNA MEDIA



Hipótesis.



Ho: = o Ho: " o



Ho: " o Ho: > o



Ho: " o Ho: < o



Supuestos



población de partida normal.



muestra aleatoria de tamaño n.



Estadístico de Contraste.



T = Xmedia - / ^S / "n ó Xmedia - / ^S / "n-1.



Distribución Muestral.



T se distribuye según T -1.



Zona crítica.



Contraste Bilateral. T " 1- /2t n-1 y T " 1- /2t n-1



Contraste unilateral derecho. T " 1- t n-1



Contraste unilateral izquierdo. T " 1- t n-1



CONTRASTE DE HIPÓTESIS SOBRE UNA PROPORCIÓN



II. Supuestos



La variable aleatoria es dicotómica o dicotomizada (p+q = 1) en la población es la verdadera proporción de éxitos.



Muestra aleatoria simple de n observaciones con probabilidad constante de éxito cada ensayo.



III. Estadístico de Contraste.



T = P - / " (Ho (1-Ho) / n).



IV. Distribución Muestral.



Z se distribuye según N (0,1).



V. Zona crítica.



Contraste Bilateral. T " 1-Z/2t n-1 y T " 1-Z/2t n-1



Contraste unilateral derecho. T " 1-Zt n-1



Contraste unilateral izquierdo. T " 1-Zt n-1



Estadística no paramétrica o no normal



Tenemos que trabajar sobre una tabla de contingencias y tener en cuenta Fo (Frecuencias Observadas, es decir, lo que vemos en la muestra) y Fe (Frecuencias Esperadas, lo que debería ocurrir). Existen dos tipos de estadísticos para hallar distintos datos, ambos usan la tabla de 2 y los grados de libertad se calculan por número de columnas -1 multiplicado por número de filas -1.



Contraste de Hipótesis sobre Independencia. "" (fo - fe)2 / fe = 2. Es el valor de 2 el que se contrasta como antes hacíamos con las z.



Prueba de Bondad de Ajuste " (fo - fe)2 / fe = 2.

0 comentarios: