LA FIABILIDAD

1. Introducción


La fiabilidad se denomina de diferentes formas: confiabilidad, concordancia, precisión, consistencia, entre otros. Nos indica hasta que punto un test nos da puntuaciones estables, es un test es confiable en la medida que nos da una medida más o menos exacta.

La fiabilidad se analiza viendo si hay cambios, si fluctúa o no, esta basada en varias observaciones hechas en el mismo test, ver si hay cambios (si son radicales no es fiable), no es estable y no le damos representatividad. Es necesario hacer comparaciones en diferentes situaciones, si existe un acuerdo entre las medidas (acuerdo = fiabilidad, la medida y el instrumento nos dan puntuaciones precisas). La inconfiabilidad de una medida puede ser debida al test (puede estar mal construido o los ítems no están bien construidos) o de elementos externos al test (respuestas al azar, evaluador subjetivo, situaciones externas que alteran la medida, circunstancias personales de cambio).

Hay variables externas que pueden alterar la medida, solo podemos saber si un test es confiable por cómo mide, por la medida que arroja (aplicar y analizar la medida que obtengo a través de él, es la única forma de saber si es confiable o no), por lo tanto hay que aplicarlo de forma uniforme (normas de aplicación del test).

Es necesario saber investigar empíricamente la fiabilidad del test para unos sujetos determinados en situaciones específicas, si cambiamos de sujetos o situaciones habrá que cambiar el test. Para cada instrumento y situación hay que demostrar la fiabilidad, que sirve. El test es relativamente confiable, no existe una fiabilidad absoluta, también es relativo al tiempo (puede caducar). Para saber si una medida es estable hay que ver el grado de variación en el mismo sujeto, hay que aplicar el test varias veces para ver si existe una cuerdo en la medida o no, es necesario comparar una puntuación con otra, así sabremos la consistencia de la medida.

Es necesario comparar las condiciones del sujeto con respecto al grupo, si no varia decimos que es confiable (hay que utilizar baremos, si el percentil que obtenemos es siempre el mismo, la medida es estable):

a. Variación comparado el sujeto consigo mismo (estadísticos de dispersión).

b. Variación con respecto al grupo.

Hay que demostrar estadísticamente la estabilidad de las puntuaciones (grado de acuerdo entre las medidas), de puntuaciones obtenidas en diferentes situaciones en un mismo sujeto o grupo de sujetos (se computa a través de los estadísticos de correlación).



2. Postulados básicos

La confiabilidad está basada desde el punto de vista de la teoría clásica en el modelo lineal de Spearman: una puntuación que podemos obtener a través de de la medición está compuesta por dos elementos básicos:

a. Puntuación verdadera, la medida real de la característica del sujeto (Pv).

b. El error que cometo en la medición (e).

Puntuación total = Puntuación verdadera + error

A través de esa teoría se puso de manifiesto que cada vez que medimos cometemos errores (p.e. cuando medimos la altura con un metro, el cuerpo se dilata según la hora, así que podemos obtener alturas con milímetros de diferencia).

Lo que queremos con los test es que se acerquen mucho a la puntuación verdadera y cometamos menos errores. La puntuación verdadera no se puede obtener directamente, por lo que se toma la media de en que tú has medido esa característica bajo las misma circunstancias (p.e. te mides 100 veces con el mismo instrumento, se saca la media de las medidas obtenidas y entonces desprecias las diferencias), así la media de las puntuaciones en la puntuación verdadera. Siempre que medimos cometemos errores, estos errores son diferentes e independientes entre si. Buscamos la fiabilidad que cometa el mínimo de errores posibles y que la medida sea lo más estable posible.

La fiabilidad tiene que ser evaluada estadística y empíricamente, es la proporción de la varianza verdadera que explica la varianza total. La confiabilidad es una correlación, cómo varían juntas dos o más variables, ver si varían o no juntas.

Coeficiente de confiabilidad = varianza verdadera al cuadrado / varianza total al cuadrado

rxx = Sv2 / St2

Esto es un coeficiente de correlación que analiza la confiabilidad y se denomina coeficiente de confiabilidad (rxx), nos dice la relación de las puntuaciones. Es confiable en la media que la varianza verdadera (Sv) varía con la varianza total (St). Si tenemos que Sv = St, estamos diciendo que la confiabilidad es total porque la correlación es igual a 1.

La confiabilidad es la exactitud con que un test mide medidas verdaderas y se expresa empíricamente a través del coeficiente de confiabilidad (que es un coeficiente de correlacón) y que toma valores de 0 a 1, no toma valores negativos pues el test mide una variable que a priori se ha visto que instrumento y variables están correlacionados. Si los dos valores son cercanos (Sv y St), la división va a dar cercana a 1 (p.e. rxx = 2.8 / 2.8 = 1, es la correlación máxima, es total por lo que el test mide con exactitud, da una medida verdadera).

Toda medida conlleva error, ¿cómo sabemos que el error de medida es normal o no?, se encuentra el error típico de medida (ETM), que se puede calcular a partir de:

a. A partir de la correlación.

b. Hacer una distribución de errores, la hacemos comparando cada puntuación con la media (puntuación verdadera) y sacamos la diferencia (puntuación – media) y así tenemos una distribución de errores. En esa distribución hallamos las medias de los errores que hemos encontrado, y de ahí sacamos la desviación típica de errores (ETM = desviación típica de errores). Son todos los errores que podemos cometer dentro de la normalidad del grupo.













Para saber si la persona se desvía mucho o no:





Desviación típica del error = desviación típica total x raíz cuadrada de (1- rxx)

Se = St (1- rxx)

El error típico de medida de un test está relacionado con la desviación típica del test y con su fiabilidad. En el caso de tener una fiabilidad máxima de 1, el error típico de medida es 0. Cuando la confiabilidad es 0, el error es tan grande que es igual a la desviación típica de la medida, la medida cambia por influencia del error, Se = St

El coeficiente de confiabilidad y error típico de medida son dos elementos fundamentales para saber si el test tiene una medida precisa. Hasta que punto el test mide medidas verdaderas (índice de confiabilidad, correlación entre las medidas verdaderas y las medidas totales).

Índice de confiabilidad = raíz cuadrada del coeficiente de confiabilidad

Ese índice es útil porque es el tope teórico de la validez de un test, cuando más grande es el índice de confiabilidad más probabilidad tiene el test de ser válido. Nunca un índice de fiabilidad será más pequeño que el coeficiente de validez. La validez del test no puede ser mayor que el índice de confiabilidad. Todo instrumento para ser válido tiene que demostrar primero la estabilidad del test (índice de confiabilidad).



3. Métodos para encontrar la fiabilidad

Existen cuatro métodos de encontrar la fiabilidad:

a. Test retest:

Consiste en repetir el test al menos dos veces, en dos momentos diferentes en situaciones similares y con un intervalo de tiempo bastante amplio (correlación de las dos aplicaciones del test, coeficiente de confiabilidad).

Este método es práctico, útil y relativamente económico y nos va a dar consistencia interna, si la medida varia o no. cada método nos va a dar una cualidad de la confiabilidad. Hay influencias internas y externas que conllevan errores que no son controlados, dichos errores influyen negativamente en la medida.

El dato de confiabilidad es mayor que en otros. Son muy conscientes de que existen errores (p.e. con la misma balanza, en la mañana o la tarde un mismo objeto puede pesar diferente). Influyen en la medición factores como la maduración, circunstancias personales, contexto, edad, etc. y nos los podemos controlar.

b. Test paralelos o equivalentes:

Lo importante es elegir un test que sea equivalente al primero, que mida la misma característica y se construido desde el mismo marco teórico. Que se haya demostrado que es válido y fiable (p.e. se aplica el 16PF, punto de referencia, y se compara con la escala de Pinillos). Puede tener intervalo tiempo o no.

Se correlacionan esas dos medidas, esa correlación es el coeficiente de confiabilidad del primer test (el segundo es el punto de comparación). Tenemos un dato de consistencia externa, porque comparamos la tarea del test con otra tarea, aunque midan lo mismo, no se compara consigo mismo (p.e. se utiliza una balanza para pesar en la mañana y otra para la tarde). Tiene la ventaja de mostrar mucha estabilidad en la medida (independientemente de la tarea yo sigo sacando la misma medida). Por ejemplo, con el test retest el sujeto puede aprender o memorizar el test, pues se utiliza el mismo test como punto de comparación.

Controla una serie de errores y otros no, controlará más errores con un mayor intervalo de tiempo para dejar que se den los errores. (Cada uno de estos métodos de datos cuantitativos difieren porque el dato se haya de manera diferente pues hemos correlacionado diferentes cosas).

c. Método de las dos mitades o subdividido:

Económicamente es más barato en tiempo, esfuerzo y costo, este método solo necesita una aplicación del test (no se aplica dos veces, ni con o sin intervalo de tiempo). Una vez aplicado el test se subdivide para hallar los resultados (p.e. se divide en ítems pares e impares, equilibrio en dificultad o según qué evalúan). Si la dificultad y la tarea son las mismas en el test, se toman por ejemplo los primeros 30 ítems para una parte y los restante 30 para la otra. Se hayan las correlaciones entre ambas partes (r ½ ½ no es igual a rxx) pero si podemos hallar de forma indirecta la confiabilidad del test:

r tt = 2 r ½ ½ / 1 + r ½ ½

Es muy utilizado pero no controla una serie de errores, no tiene puntos de referencia externos, da datos poco precisos. Influyen muchos errores que no controlamos, solo nos da una consistencia del test porque compara una mitad con otra, consistencia interna pobre (no compara todos los ítems, solo la mitad).

d. Estadística de ítems:

Una única aplicación del test pero en este caso cada uno de los ítems es comparado y correlacionado con el test global (p.e. si hay 100 ítems se correlacionan los 100). Se utilizan dos fórmulas para hacerlo de Kuder-Richardson 20 y 21:

a. Basado en la media de aciertos y errores del grupo.

b. Basándose en la probabilidad (probabilidad del sujeto de acertar o no)



4. Comparación de métodos





Variaciones Retest Paralelos*

Subdividido Estadística

de ítems

c/ s/ c/ s/

Medida X X X X X X

Todos intentan controlar esas pequeñas variaciones a través del error típico de medida y van a interpretar el dato de confiabilidad con esa posibilidad de cambio.

Cambios en el sujeto X X Tienen en cuenta + errores, se utilizan otros porque son más económicos. Es más caro

Cambio en la tarea X X

Velocidad de trabajo X X X X No se pueden dar comparaciones aunque el evaluador fije un tiempo para acabar el test.

Equivalencia de ítems para q duren más o menos lo mismo. Tiene dos aplicaciones y dos velocidades.

Cambios en el sujeto por circunstancias personales, motivación. (* Probabilidad de encontrar un test que realmente sea equivalente al mío).

Cambios en la tarea: me gusta más, mejor definida.

Velocidad de trabajo, la medida en sí tiene variaciones. Todas las variaciones son fuente de error, al menos teóricamente.

También cada uno de los métodos nos dará diferentes características de fiabilidad:

Test retest Paralelos

Subdividido

Estadísticos

c/ s/ c/ s/

Precisión

en la

medición 3º Sí maduración No tarea 4º No maduración no tarea. 1º Controla fuentes de error 2º No controla cambios del sujeto 6º No se controla la consistencia interna, muy pobre 5º No se controla la consistencia interna.

Consistencia interna

X

X Muy precaria X

Consistencia externa X X

Estabilidad puntuación verdadera X X Cronbach

Kuder-Richardson

Más de una aplicación del mismo test

Si nuestro test correlaciona bien con las puntuaciones verdaderas tiene que haber más de una aplicación del test. Precisión de la medición, el método que controla más las Fuentes de error es más preciso.



5. Fiabilidad y longitud del test

Si modificamos la longitud del test (aumento o disminución del número de ítems) se modifica la fiabilidad. Generalmente, es más probable que el test sea fiable un test si tiene más ítems (más muestras de conducta). Al aumentar el número de ítems, teóricamente podemos aumentar la confiabilidad del test, sin embargo en las pruebas excesivamente extensas encontramos variables que influyen disminuyendo la confiabilidad (p.e. dificultad, cansancio, desmotivación, atención).

Para aumentar la confiabilidad de un test se modifica el número de ítems:

r tt = nueva confiabilidad que quiero.

r tt = confiabilidad que tengo.

N = número de veces que quiero alargar o acortar una prueba.

Por ejemplo, en el MMPI:



Si disminuye la confiabilidad muy poco, dentro de un margen, nos puede ser útil:

















Aparentemente los test con más ítems tienen más probabilidad de ser confiables. Si un test corto es fiable, los ítems son muy representativos.



6. Fiabilidad y homogeneidad de la muestra

En muestras heterogéneas (tienen mucha dispersión, variedad de sujetos, muy diferentes entre ellos), la confiabilidad es mayor que en muestras muy homogéneas. Si el grupo es muy homogéneo (p.e. muy preocupado por su salud habrán menos fumadores), será más difícil de acertar en una predicción y más difícil en hacer diferenciaciones, se cometen más errores. En cambio en los grupos heterogéneos pasan más desapercibidos los errores.

Los grupos homogéneos tienen baja fiabilidad y los grupos heterogéneos alta fiabilidad. Un test que demuestre ser muy preciso en la medición de un grupo homogéneo lo será más en un grupo heterogéneo, más preciso y más fiable.









Cuando más grande es la dispersión, eso favorece que el dato cuantitativo de la confiabilidad sea mayor.



7. Fiabilidad de la diferencia de puntuaciones

En base a la diferencia entre dos puntuaciones se encuentra la confiabilidad (p.e. capacidad verbal menos notas de lenguaje), hay que tener en cuenta la relación que existe (lo que tienen en común desaparece). Distribución de diferencias en un grupo, al tener todas las diferencias entre las dos áreas de todos los alumnos de clase.

Confiabilidad más baja que puntuaciones por separado, de pares de los errores de las dos medidas que influyan en la diferencia. Para saber si los datos son significativos o no:













8. Interpretación de datos de fiabilidad

El coeficiente de confiabilidad tiene valores entre 1 y 0 (1 sería la confiabilidad total). Condiciones para analizar los datos de confiabilidad:

1. Tiene que darnos el error que cometemos (ETM), para interpretar hay que conocer siempre el ETM (el error que yo permito en mi medición): más bajo el error y más el dato de confiabilidad. Puede influir el tipo de tarea, situación tipo de persona a medir, cambios ambientales y del sujeto.

2. Es necesario ver cómo es la dispersión del grupo (homogéneo o heterogéneo), longitud del test (largo o corto), cantidad de ítems, capacidad del grupo (bajo, medio, alto).

3. Dependiendo del método que el autor escoja para encontrar la fiabilidad, la fiabilidad es más baja si el test es paralelo o retest, y será más alta en los test subdivididos.

4. Analizar respecto a una muestra de sujetos y un test determinado, bien construido, que tenga bajo ETM y un coeficiente de confiabilidad alto.

Debe existir un equilibrio entre el nivel práctico y el nivel de confiabilidad (el mejor test cuantificable, mucha confiabilidad, y el mejor test para el sujeto, que se adecue para él). Todos los test no sirven para todas las personas, si la confiabilidad está por debajo de 0.5 no es fiable.



Problema: Hemos desarrollado una prueba para medir la capacidad para las matemáticas que tiene un coeficiente de confiabilidad de test subdividido de 0.84. En la prueba de retest sin intervalo de tiempo se obtiene un coeficiente de 0.85.

Buscamos un test paralelo y lo aplicamos una semana más tarde y obtenemos una confiabilidad de 0.65. ¿Qué ha ocurrido?

En el test retest, el coeficiente tendría que haber dado un dato más bajo, pero hay un dato más alto porque el sujeto pudo aprender las respuestas que hemos dado en la primera aplicación. El sujeto responde por aprendizaje, ese aprendizaje puede que haga que los días haya respondido igual (elevada correlación). Si lo que está en juego no es el rendimiento puede que haya algún cambio (respuesta de memoria). En el test paralelo obtuvo 0.65, la tarea es diferente y por lo tanto no ha habido aprendizaje, controlan más la fuente de error, pueden haberse dado cambios en el sujeto.

0 comentarios: