Estadística Descriptiva

La variable en medición. Al conjunto de valores numéricos es lo que denominamos “variable”, son un conjunto de valores numéricos que tratan de mostrar la asiduidad con que se presenta una característica. Los números de una variable no son valorables en sí mismos, dependen de la escala de medida utilizada. Las variables suelen ser denominadas “x”, “y” y “z”. En álgebra matricial son vectores, vector fila y vector columna. También hay que tener en cuenta el uso de subíndices, etc. También es importante el concepto de Sumatorio. Existen diversos tipos de variables según el nivel de medida:




Variable Cualitativa o Categórica (escala nominal).



Variable Cuasicuantitativa (escala ordinal).



Variable Cuantitativa (escala de intervalo y de razón).



V.Cuantitativa Discreta.



V.Cuantitativa Contínua.



Tabulación de datos. Persigue recoger de forma rápida y sencilla el comportamiento variable. Es construir una tabla / matriz que resuma el comportamiento de una variable.



Identificar el número de modalidades (valores posibles dentro de una variable, como por ej. medir la clase social tiene 3 números -baja, media y alta-).



Construir la tabla, teniendo en cuenta el tipo de variable:



Si son variables cualitativas se usa una tabla en la que han de figurar x, F (Frecuencia absoluta), f (frecuencia relativa) y P (porcentaje) y que su representación gráfica es un Diagrama de Barras. Es importante utilizar bien la escala y no cometer “estancamiento estadístico”(“maquillaje de datos”). La “y” debe partir siempre de 0.



Si son variables no cualitativas las partes a figurar en la tabla son: x, F, f, P, Fac (Frecuencias Absolutas Acumuladas), fac (Frecuencias Relativas Acumuladas) y Pac (% acumulados). En cuánto a la representación gráfica, se puede usar el Diagrama de Barras, aunque es más correcto usar el Polígono de Frecuencias. Si son variables continuas se usa un Histograma.



Concepto de Intervalo Compuesto: es un método de tabulación clásico antes de la aparición de los ordenadores. Dentro de un intervalo compuesto distinguimos un límite inferior real y un límite superior real. Cuanto más números agrupamos en un intervalo mayor es el error.



Diagrama de Tallo y Hojas (Stem&Leaf): es la representación más aceptada siempre que tengamos variables cuantitativas y gran cantidad de datos. Sustituye tanto la representación gráfica como la tabulación de datos.



Gráfico Box-Plot: extensión del Stem&Leaf, su finalidad es intentar determinar en que medida se distribuyen los datos en un comportamiento “normal”, en qué medida hay puntaciones “Outlier” (extrañas). Necesitamos la tabla que informa de los % acumulados (o alguna que nos permita llegar a este dato). Existen también “Puntuaciones Extremas” (tienen un comportamiento mucho más alejado del normal de la variable). Si da un valor negativo y es una escala de razón el valor se sustituye por cero. El valor sugerido será válido sólo si el Rango Normal de la variable (12 en una escala 1-10 sería válido, luego se cogería el 10). En un Box-Plot hay varias partes bien diferenciadas: un rectángulo que se inicia en el 25% de datos y acaba en el 75%, una línea dentro de este en el 50% y otros dos segmentos fuera de él, uno en el valor mínimo y otro máximo. Cada uno de los segmentos colocados en el 25 y 75 son las “Bisagras de Tukey”, y la distancias entre ellos es la “Amplitud Intercuartilar”. Para determinar la región de rechazo realizamos esta fórmula matemática: Amplitud Intercuartila por 1.5 + Bisagras de Tukey. Las Puntuaciones Extremas se hallan sustituyendo 1.5 por 3.



Medidas de tendencia central



Se suele distinguir entre población y muestra:



Población: conjunto de n elementos que cumplen es una propiedad, es decir, aquéllos sujetos que le interesan al investigador. Investigar una población suele ser algo largo, tedioso y costoso, por eso se usan muestras.



Muestra: subconjunto de la población, que debe cumplir los mismos requisitos que la población. Al procedimiento se le conoce como Procedimiento de Muestra. Al conjunto se le conoce como Estadísticos y los resultados sólo son para generalizar los resultados sobre la propia muestra, los resultados se pueden inducir a la población gracias a los Estadísticos Inferenciales.



Estadísticos de tendencia central (Promedios). Solo tienen el problema de que se pierde la información individual:



Moda (Mo). Estadístico de tendencia central, único que se puede utilizar en variables cualitativas. Se calcula a partir de una tabla de frecuencias absolutas. La moda es igual a la variable que ocurre con mayor frecuencia. Puede haber una moda (Distribución Unimodal), dos (Dist. Bimodal), tres o incluso más modas (Dist. Multimodal). Cuando todas las variables tienen frecuencia máximo se dice que la variable tiene una Distribución Uniforme.



Mediana (Md). Aquél valor que divide los datos al 50%. La forma más fácil de hallarla es con los porcentajes acumulados. Siempre da un único valor. Se prefiere la Md a la Mo.



Media Aritmética (x). Ponderación general de una serie de puntuaciones a nivel cuantitativo. En principio se aplica a variables cuantitativas, se prefiere a la Md. En los valores numéricos funciona la ley de distancia, también hay que tener en cuenta que los datos han de ser congruentes; en caso de incongruencia podemos o redondear o utilizar un Estadístico de tendencia central más débil (Md o Mo), esto último es lo que más se hace.



Media Ponderada (Xw). Igual que la media pero los valores numéricos tienen distinta importancia a nivel teórico. Esto modifica los valores empíricos. La M. Ponderada es un medio de ponderar la información donde el componente subjetivo modifica de forma grave el resultado final. Se utilizan especialmente en Psicología Industrial y del Aprendizaje.



Media Geométrica (Xg). Xg es igual a la raíz n de xi, teniendo en cuenta que la Media Geométrica deja de ser operativa cuando la expresión da 0, funciona bien siempre que no existan valores nulos. Una forma de evitarlo es transformar los valores al tipo x+1.



Media Armónica (Xh). N partido del sumatorio de 1/xi.



Media Cuadrática (Xc2). Es igual al sumatorio de X2 partido de N. Sirve para puntuaciones negativas, y una vez se obtiene el resultado hay que hacer la raíz cuadrada puesto que es un resultado elevado al cuadrado.



Calcular los promedios de Intervalos Compuestos.



Moda. Se cogen los valores extremos, se divide entre 2 y se hace la moda.



Mediana. Aplicamos la fórmula Md = L + (n+1/2 - F), todo el paréntesis partido de f y multiplicado por A. Siendo L el límite inferior real del intervalo, A la amplitud real del intervalo, F todos las cosas en los valores inferiores a donde está el intervalo y f todos las cosas en el intervalo.



Media. Se realiza de la manera habitual pero teniendo en cuenta que Xi es el punto medio de un intervalo compuesto.



El grado de error cometido va en relación con la amplitud del intervalo, a mayor tamaño, mayor error. Sólo funciona en intervalos cerrados (intervalos abiertos serían, p.ej. <5 o >10). Los intervalos abiertos no pueden resolverse.



Transformaciones Lineales. La Media es susceptible de operar con transformaciones lineales básica, sí y sólo sí está a nivel cualitativo. Ej. de transformaciones lineales básicas es sumar o multiplicar un valor constante por la variable.



Reglas para seleccionar que estadístico utilizar:



En cuantitativas, se una la Moda.



En cuasicuantitativas, se una la Mediana siempre que sea posible.



En cuantitativas, se usa la Moda siempre que sea posible (no se usaría, por ejemplo, si las puntuaciones Outlier son muy significativas).



Índices de Posición



Son estadísticos donde posicionamos al individuo y no al grupo. Todos son métodos inexactos.



Posicionamiento Empírico. Va a estar en relación con lo observado en el medio y no con lo teórico.



Escala Percentil. Construcción de una escala donde los individuos se posicionan de acuerdo a cien partes proporcionales; en estas escalas no existe en centil 100, sólo el 99. No admite valores decimales. Para hallarlo se cogen los porcentajes acumulados y se hace correspondencia, teniendo en cuenta que el 100 es 99. Sirve para calcular los perfiles de comportamiento.



Escala Decilar. Similar a la centil pero se constituye en 10 partes. Un centil 10 es igual a un decil 1 y así sucesivamente. El máximo valor es el 9.



Cuartiles.Divide la distribución en cuatro partes (cada cuartil es más o menos 25%)



Medidas de dispersión



Nos indican en que medida los sujetos se diferencian unos que otros, existen dos situaciones:



Homoscedasticidad. Variaciones pequeñamente diferenciados.



Heteroscedasticidad. Variaciones más amplias.



Algoritmos de dispersión en Escala Nominal:



D de Scott. Se aplica el algoritmo Ds = 1 / fi 2. El resultado siempre es entre 1 y k, siendo k el número de elemntos de la variable, cuanto más se acerca a 1 más homoscedasticidad existe. No sirve para comparar variables con distinta modalidad (k).



Índice de Entropía (utilizado por defecto): Necesitamos la misma información que en la Ds, debemos aplicar la fórmula H = - fi log2(fi). La ventaja de este método es que permite comparar variables de distinta modalidad (k).



Algoritmos de Dispersión en Escala Ordinal (aparte de poder usar los anteriores).



Rango. También conocido como Recorrido o Amplitud total, se calcula así AT = M - m, siendo M el valor más alto de la variable y m el más pequeño.



Amplitud Semiintercuartílica (ASI). Se calcula dividiendo entre dos la Amplitud Intercuartílica; se puede usar en las ordinales pero solo ocasional y puntualmente.



Algoritmos de Dispersión en Escala de Intervalo (aparte de los anteriores).



Varianza. S 2 = (x - media) 2, todo partido de n. Esto es igual a SC / n (Suma de Cuadrados). La varianza es un estimador sesgado, son valores erróneos de lo que sucede en realidad.



Cuasivarianza (Se utiliza por defecto). Es idéntica, tan sólo que se divide entre n-1 y se simboliza como S y encima un ^.



El resultado de ambos algoritmos está en un valores cuadrácticos, por eso debemos aplicar la raíz cuadrada al resultado. A esto se lo conoce como Desviación Típica.



Representación de variables cuantitativas continuas. Similar al Box-Plot, sólo que éste se basa en las medidas de tendencia central y de dispersión. El centro del diagrama es la media y los extremos la desviación típica. Se pretende visualizar el grado de homoscedasticidad de los sujetos y ver si la media es representativa (lo que sucede cuando los sujetos se diferencian poco entre sí).



Transformaciones Lineales. En el proceso de adición el estadístico de adición no varía, pero en el de multiplicación sí (queda multiplicado por el número).



Comparación de la Dispersión. Cuando comparamos variables del mismo rango es eficaz la mera comparación, pero cuando no se da ese caso hay que usar el estadístico “cociente variación” (CV). El CV tiene tres soluciones: sesgado, insesgado y robusto, siendo el más eficiente el robusto. Los tres se expresan en %.



CVs = Sx / media , todo ello por 100.



Cvi = nSx / media, todo ello por 100.



CVr = AI / Q3+Q1, todo ello por 100.



Modelo Integral de Gauss



Tiene las siguientes propiedades:



Propiedad de Simetría. Una integral es simétrica si Mo, Md y media tienen el mismo valor. Si la información se encuentra concentrada en los valores pequeños estamos ante un Modelo Asimétrico Positivo, mientras que si se concentra en los negativos estamos ante un Modelo Asimétrico Negativo.



Grado de Concentración de la Información (Apuntamiento ó Kurtosis). Nos dice en qué medida vienen representados todos los valores. Existen tres modelos: Meskúrtico (todos los valores tienen información), Leptokúrtico (sólo los valores centrales tienen información), Platokúrtico (modelo de tipo uniforme).



El modelo de Gauss es simétrico y mesokúrtico.



¿Cómo comprobar si el modelo es simétrico? Se aplica el siguiente estadístico, si da entre -1 y +1es una distribución simétrica, si da entre +1 y +2 será una AS+, mientras que si da entre -1 y -1 será una AS-. El estadístico es As = media - Mo / Sx (siendo Sx la desviación típica). El problema del estadístico es que cuando existe más de una Mo el estadístico no funciona y ha de utilizarse otro, el Índice de Dispersión 3, que es [ (x - media)3 / n ] / Sx3.



¿Cómo calcular la Kurtosis? Se aplica el índice de dispersión de orden 4, al cuál se le resta 3 para que el caso ideal de como valor 0. [ (x - media)4 / n ] / Sx4 , todo ello - 3. Si da entre -1 y 1 será Mesokúrtico, si da entre 1 y 2 será Leptokúrtico y si da entre -1 y -2 Platokúrtico.



Operaciones con el modelo integral de Gauss. Se precisan las tablas de la distribución normal y conocer la siguiente fórmula Z = x - media / Sx (desviación típica). Las preguntas posibles son: averiguar el área de un punto dado, averiguar el punto para un área dada, dando N averiguar Z o dado unos valores averiguar la media o la desviación típica.



Típicas Derivadas



Son estadísticos en los que lo que se persigue es caracterizar a los sujetos y ni al grupo, en última instancia nos permite saber si el sujeto está dentro o fuera del grupo. Se basa en el modelo de Gauss y no en una distribución de frecuencias.



Las puntuaciones directas (x,y) denotan la información que recoge el investigador, es decir, las magnitudes medias en el estudio.



Puntuaciones diferenciales (x - media).



Puntuaciones Z (x / Sx = x-media / Sx = Z), que equivalen a la z de Gauss siempre que se ajuste a un modelo normal.



Una escala típica de derivadas no es más que una puntuación derivada de las puntuaciones Z, sólo puede hacerse si se ajusta al modelo de Gauss. En este curso vamos a ver su ejemplo sobre tres formas de valorar el CI.



El CI es un constructo hipotético y se puede medir de tres formas:



Por el método del CI (z * 15) +100



Por los Estaninos (z * 2) +5



Por la escala D (z*20) +50



Si quisiera construir una variable similar a las anteriores pero no poseo una distribución normal hay que ejecutar un “maquillaje de datos”; lo que se hace es normalizar las Z, se obtienen los porcentajes acumulados y se busca en la integral de Gauss.



Estadística Bivariada



En este curso solo vamos a ver la ceñida al modelo lineal y dentro de ese, los casos más clásicos. Vamos a suponer que las variables siguen el modelo de Gauss y se ajustan al modelo de línea recta, ya que en otro caso estos algoritmos no servirían.



y = f(x) y = A + Bxi, siendo A la constante de intercepción y B la pendiente (B = Ay / Ax).



Covarianza: la fórmula es (x-media) (y -ymedia) / n, siendo n “pares de observaciones”. Los resultados pueden ser: 0 (ausencia de relación lineal, lo cuál no excluye otro tipo de relación), + o - (no se puede saber con exactitud). Este estadístico es sesgado, se puede conseguir el insesgado sustituyendo n por n-1. La solución de la covarianza por el método matricial es E (L'*L).



Pearson propuso después una solución matemática a los problemas de la fórmula anterior, el algoritmo conocido como “R de Perarson”, se diferencia del anterior fundamentalmente por la información de partida, porque en lugar de partir de las puntuaciones diferenciales lo hace de las z. La fórmula es: ^Rxy = (z-x) (z-y) / n-1 = (x-media / Sx) (y -ymedia / Sx) / n-1. El estadístico de Pearson tiene límites claros: 0 (relación al azar), +1 (modelo +) y -1 (modelo -). La resolución matricial es idéntica [ (z'*z) * K = R ] pero con puntuaciones z en vez de diferenciales. El determinante de R nos permite saber si puede dar 1 (matriz identidad), cuando el determinante de R sea un valor próximo a 0 es que hay variables muy relacionadas en el modelo lineal.



Técnicas Q. En vez de buscar relaciones entre variables, busca relaciones entre individuos, por ello se traspone la matriz z, ahora la media es la media de cada individuo dentro de la variable que estamos estudiando. Salvo en casos particulares se usan las técnicas R más que las Q.



Volviendo sobre la Correlación de Pearson, debemos pensar en la interpretación. Para empezar hay que tener claro el índice máximo y mínimo de la correlación (+/-1). El número dice la cuantía de la relación y el signo indica la dirección de esa relación. Si es positiva es relación directa, si es negativa es relación inversa. Para interpretar el grado de relación se usa el Coeficiente de Determinación (V2xy) que nos da la proporción de varianza que “x” e “y” comparten. Hay que tener en cuenta que la correlación nunca implica causalidad. Hay que recordar que la relación que buscamos y que puede existir o no es de tipo lineal.



Factores que influyen en la correlación:



Los outliers (tanto por hacer creer que no hay una correlación como que sí la hay cuando esto no es cierto).



La muestra puede no ser representativa de la población (podemos haber cogido una muestra muy restringida, y a más homogeneidad, menos correlación).



Hay también que tener en cuenta que entre dos variables puede haber alguna relación de una tercera variable que influya. Para evitar esto la solución está en pesar si hay alguna variable de este tipo y realizar sobre ella un control empírico. Si este control no es posible se pueden usar métodos estadísticos. También puede ser que una tercera variable haga creer que no hay relación entre dos variables que si la tienen).



Correlación de Spearman. Se usa cuando las dos variables están en una escala ordinal (variable cuasicuantitativa). Se usará cuando ambas sean cuasicuantitativas o una cuasicuantitativa y la otra ordinal. A veces también se usará con dos cuantitativas por intención del evaluador (aunque no conviene hacerlo). Cuando hay dos variables que son de distinta escala, hay que reducir una de grado, esto se logra dando orden, siendo 1 el valor más bajo. Por último, si varios sujetos tienen la misma puntuación, entonces se les da ambos valores el puesto intermedio. La fórmula es rs = 1 - [ 6 * "d2 / n (n2-1)], siendo “d” la diferencia de rango para cada sujeto entre ambas variables, “n” el número de sujetos que componen la muestra.



Correlación Biserial Puntual. Cuando una variable es cuantitativa y la otra dicotómica (sólo puede tomar dos valores, como por ejemplo el sexo) se usa otro algoritmo. Hay que distinguir entre variable dicotómica y dicotomizada (una cuantitativa dividida a dos categorías). Las dos fórmulas que se pueden utilizar son Vbp = mediap - media / ^Sx, todo ello por la raíz cuadrada de p/q. La otra fórmula es Vb = mediap - mediaq / ^Sx, todo ello por la raíz cuadrada de p*q. Estos algoritmos son equivalentes y sus símbolos significan: p (proporción de sujetos de la categoría primera), q (proporción de sujetos de la categoría segunda), mediap (media en la variable cuantitativa de los sujetos con proporción p), mediaq (media en la variable cuantitativa de los sujetos con proporción q), media (media aritmética en toda la muestra, sin distinguir) y ^Sx (desviación típica para todos los sujetos.

0 comentarios: