LA VALIDEZ

1. Introducción:


Normalmente buscamos que el test tenga un valor inferencial (adelantarnos, actuar de forma adecuada, hacer pronósticos y tomar decisiones). Ese valor inferencial cuantitativamente es la validez de un instrumento, hasta que punto nos permite predecir o no. Un instrumento no es válido si no es fiable, primero tiene que demostrar que es fiable, es una condición sin la cual no hay validez, pero tiene que haber más condiciones para ser válido.

Con la validez demostramos la utilidad del instrumento, se haya en un proceso permanente, en continua revisión, se ve el uso que se le da. Es válido para una persona, sistema y tiempo determinado. Si le vamos a dar un uso diferente al test tiene que ser adaptado. La validación tiene una caducidad (10-15 años), no hay garantías de que el test sea igualmente útil, hay que revisar si aun los datos de validez son aceptables.

Al aplicar un test buscamos tres propósitos:

1. Establecer una relación funcional con una variable.

2. Medimos para analizar rasgos psicológicos.

3. Analizar comportamientos manifiestos.

Todas esas medidas con diferentes propósitos, tienen diferentes tipos de validez:

a. Validez predictiva, predecir un comportamiento.

b. Validez de contenido (ítems)

c. Validez de constructo (rasgo)

Un mismo test si tiene diferentes usos necesita diferentes tipos de validez. La validez nos tiene que dar la utilidad de un instrumento, hasta que punto es útil y es más útil que otros instrumentos que están en el mercado.



2. Definición de validez:

Un test es válido cuando mide aquello que pretendemos medir, lo mide bien y mide solo lo que quiere medir (solo esa característica). La validez de un test es la exactitud con la que puede hacer mediciones significativas y adecuadas. En el sentido que solo mide lo que pretende medir, para lo que está construido. Primero hay que analizar que variables o características desea medir el test y que uso le vamos a dar y en quién lo vamos a medir. Si vamos a medir más de un uso habrá que hallar más de un tipo de validez.

La validez es estimada a través de un coeficiente de validez (coeficiente de correlación), correlaciona los datos obtenidos (medidas del test) con los criterios (datos externos). El test no tiene un coeficiente de validez fijo, depende del contexto, sujeto y propósitos (pueden haber diferentes coeficientes en un mismo test). Es necesario saber elegir el criterio adecuadamente para que la validez sirva.

























3. Problemas de criterio de validez:

El criterio no debe estar incluido en el test, debe ser mensurable de forma directa o indirecta que nos permita cuantificar. Un criterio raramente es exacto, puede estar contaminado porque lo mide alguien, nos encontramos criterios parciales pues no son verdaderos.

Es importante definir lógica y operativamente el criterio, que guarde relación con lo que pretendo medir. Aunque el criterio sea adecuado sigue siendo un criterio parcial: el dato de validez es relativo y también es relativo a ese criterio. Condiciones de un buen criterio:

1. Adecuado, consideración lógica, grado en que se acerca a la característica que quiero evaluar y a su contexto.

2. Excepto de prejuicios, ofrece las mismas oportunidades a todas las personas que puedan responder, que no esté sesgado.

3. Que haya demostrado confiabilidad, que sea estable en el tiempo mínimamente. Los criterios también evolucionan, varían, por lo que hay que revisarlos después de un tiempo (p.e.10 años).

4. Deber ser válido.

5. Disponible, hay que buscar un equilibrio entre un buen criterio y que sea práctico y económico (no caro en tiempo, esfuerzo, dinero).

Todas estas condiciones para elegir un criterio y quien elige el criterio es el autor del test. El criterio debe ser totalmente independiente al test, debe estar valorado por un juez externo al test, nunca puede ser el autor. El criterio puede medir la misma variable del test pero debe ser de forma independiente, no debe interferir el test con el criterio.

Para que no este contaminado el criterio, tendrá un cierto nivel de subjetividad y error, y eso influirá luego en cómo hallemos la validez del test. Aún así el criterio del test lo elige el autor, no hay criterios absolutamente verdaderos y es responsabilidad del autor y editor que estén bien elegidos.

El criterio de validez debe ser independiente al test y muchos autores escogen otro test como criterio de validez, valorado por otros jueces diferentes al autor. En los test paralelos, el propio autor los escoge y los utiliza como criterio de validez, la aplicación y validez externa no lo hace el autor y hay un intervalo de tiempo entre una aplicación y otra.



4. Tipos de validez:

Hay diferentes tipos, parte de que la validez no es empírica (coeficiente de validez) sino lógica (que se analiza a través de jueces).



Validez lógica, no hay un coeficiente de correlación, variable cualitativa:

- Validez de apariencia.

- Validez de contenido (intrínseca, relevancia, circular, representatividad).

- Validez de constructo, una parte.



Validez empírica o estadística:

- Validez concurrente.

- Validez predictiva.

- Validez de constructo.

- Validez discriminante y convergente.



Validez lógica:

a. Validez de apariencia. El instrumento parece que mide lo que pretende medir, lo dicen los usuarios potenciales (que representa bien lo que quiere medir). Un test puede tener buena apariencia y no ser bueno, y no siempre los usuarios no valoran bien un test, concierne al juicio de que si el test esta bien o mal construido, implica una tendencia de parte del usuario.

No nos da ningún dato acerca de su poder predictivo, no da la imagen del producto para luego hacer orientaciones claras con el. Sirve para saber si es vendible, llama la atención, se valora positivamente (p.e. comprarme una lavadora azul por su apariencia pero sesga nuestro juicio acerca de su calidad). Es el primer tipo de validez, más superficial, más sencillo y más subjetivo

b. Validez de contenido. Más profunda y lógica. Es un validez importante porque nos interroga hasta que punto el test o ítem, tienen que ver con los objetivos marcados, representa todo lo que queremos evaluar (p.e. analizar que estos ítems representan todas las características de personalidad, MMPI, se analiza cada uno de los ítems de cara a lo que pretenda medir el test, detallar al atributo que quiere medir el test). Describir el constructo de forma calara y precisa según lo que vamos a medir. Analizar al ítem respecto a esa definición.

Análisis cualitativo: orden, presentación de los ítems, no negaciones, nivel de lectura y vocabulario del sujeto, no tecnicismos. Lo analizan expertos independientes al test, pueden ser profesionales de la propia especialidad u otros, dependiendo del campo y para qué sirva el test. Normalmente son varios jueces los que lo analizan.

A veces “solo” se hace ese tipo de validez, en aquellos en los instrumentos en los que voy a describir al sujeto de forma cualitativa, sin hacer comparaciones (incluso cuantitativamente pero sin hacer comparaciones). Por ejemplo, la escala de miedo, algunos test de rendimiento. Es necesario que los jueces al valorar el contenido y la representatividad tengan en cuenta a quien va dirigido el test y su uso.



Validez empírica o estadística:

a. Validez predictiva. Relacionada con el criterio. Es una variable empírica o estadística, que se halla de forma cuantitativa y por lo tanto, tenemos que definir y elegir un criterio de validez. Tenemos que definir y elegir un criterio de validez. Tenemos que encontrar la validez predictiva cuando nuestro objetivo con un instrumento es predecir, pronosticar o hacer inferencias. Esta validez se halla siempre a través de un coeficiente de validez, que es una correlación (se correlacionan los datos del test y los datos del criterio de validación). Ese criterio lo ha elegido el autor del test, pero no está presente en el test, y lo evalúa un juez no el autor del test.

Los valores de la validez se dan entre 0 y 1, solo se toman los datos positivos. También tiene un error típico de medida. Los datos del test no se dan a la vez que los datos del criterio (p.e. un sujeto puede puntuar alto en un test de aptitudes para vendedores, luego habrá que ver si es un buen vendedor; si tiene una puntuación alta y también es un buen vendedor hay una gran correlación y una gran capacidad predictiva).

En la validez predictiva hay que esperar al futuro para que se de el criterio, debe pasar un intervalo de tiempo. Todos los test con los que voy a realizar un pronóstico tienen que tener una validez predictiva (p.e. en la selección de personal, orientación vocacional).

b. Validez concurrente. Es una validez empírica y lógica, hay un criterio de validez que tenemos que elegir, sus valores van de 0 a 1 (se correlacionan los datos del test y los criterios que hemos elegido de antemano). Pero a diferencia de la validez predicativa, en la validez concurrente el criterio está presente en el test, en el momento que recogemos los datos (los datos del test y los criterios se dan a la vez). Por ejemplo, para ver la depresión de una persona, tenemos que saber si hoy está deprimido no si se va a deprimir en el futuro. Para hacerlo lo más rápido posible en situaciones clínicas o de psicodiagnóstico, utilizamos instrumentos que tengan ese poder diagnóstico (tiene que demostrar su validez concurrente).

Un instrumento para diagnosticar, clasificar y predecir tendría que hallar la validez predictiva (caso particular en que se usa) y concurrente. Por cada uso que le demos al instrumento debemos encontrar su validez y por cada tipo de población (si cambio de sujeto o circunstancias cambia la validez). Por ejemplo, si queremos saber si un examen de estadística es un buen test de rendimiento debemos demostrar su validez de contenido, si queremos saber si es un buen predictor de éxito en psicometría (validez predictiva) y si lo queremos utilizar para clasificar a los alumnos de clase (variable concurrente).

Cualquier validez empírica también se analiza con un error típico de medida (el mismo que el de la confiabilidad, ETM errores a la hora de hacer una medida, cuando mido). El coeficiente de validez está relacionado con el ETM, más pequeño el ETM mayor validez.

c. Validez de constructo. Se denomina también validez de concepto, conceptual o de construcción. Es lógica y empírica, es una validez relativamente nueva, la desarrolló Cronbach para poder validar mediad psicológicas, especialmente aquellas que tienen que ver con constructor teóricos que se infieren (para saber hasta que punto la teoría se corresponde con la realidad). Es una validez más compleja de hallar y existen diferentes formas de hacerlo:



1. Matriz multivariable o multivalores (Campbell y Fiske).

2. Método de Cronbach y Meehl.

3. Modelos causales para la validez de constructo.



La validez de constructo se utiliza para saber el grado de coincidencia entre los planteamientos o hipótesis de una teoría y los resultados de una prueba. También para medir los rasgos para los que se construyo el instrumento y ver su eficacia (al validar el instrumento también se valida la teoría).

A través de las respuestas del sujeto en el instrumento se analiza que la respuesta es correcta y la teoría también, se hace de forma empírica y lógica, los pasos a seguir son:

1. Especificar el atributo y sus manifestaciones. Definir el atributo que pretende medir el test de forma operativa y lógica. Cuanto más grande es el atributo más difícil es saber que variables le pertenecen o no. También es necesario de limitar una parte de la realidad, determinar al constructo dentro de unos límites, especificar para poder medir. Al mismo hay que definir que tipo de variables le pertenecen, una o más (si hay más, cómo se relacionan entre sí) y que pesos tienen esas variables para analizar ese atributo.

2. Determinar el grado en que las observaciones se correlacionan entre sí.

3. Peso de las variables sobre el atributo.

No hay un criterio externo único que pueda tomarse de base para la validez empírica (si no hay un criterio externo no podemos hacer una validez empírica, correlacionar los datos del test y del criterio), otras formas de hallarla, cada autor la desarrolla de una manera determinada:



Método de Cronbach-Meehl. Para hallar la validez empírica, esta basado en que el atributo se puede manifestar de diferentes maneras:

1. Lógico: comparar cada uno de los ítems de la prueba con la definición del atributo que hemos definido (si lo representa o no). Empírico: comprando cada uno de los ítems con el test total (puntuación).

2. El test tiene que mostrar una correlación más alta con otros instrumentos que están diseñados para medir la misma característica, que con instrumentos que están diseñados para características diferentes.

3. Trabajar con diferentes grupos (p.e. que en un grupo se da más la socialización que en otro), esperamos a priori que haya una diferenciación de grupos, si está bien construido el test tiene que detectar esa diferencia (ver si tiene poder diferenciador ese test).

4. Si yo intervengo experimentalmente, deliberadamente para cambiar las manifestaciones del atributo, el test debe detectar los cambios en el grupo que he tratado (detectar un tratamiento experimental).

5. A través de hipótesis contrarias (p.e. test de socialización y test de habilidades intelectuales), si el test mide otras cosas, no las para las que esta construido, está mal construido, si correlaciona con otras variables para las que no ha sido construido.

Todas estas fases se basan en la correlación (inferencias algo que pronosticas, medir algo que tienes hoy). Pueden ser varias variables en el mismo atributo y se pueden evaluar varias (p.e. cuatro variables de un atributo) pero no se pueden evaluar dos atributos. Lo ideal es hacer todas estas fases para ser exactos o sino no queremos hacer todas: tenemos que coger siempre la primera y una más (algunos autores toman solamente alguna).



Método de Campbell y Fiske. Aunque define lógicamente los atributos es un método bastante cuantitativo-empírico. Utiliza varios métodos para evaluar varias variables (tres métodos por cada uno de los atributos, más sencillo 3 métodos-3 variables). Matriz de correlaciones: son correlaciones múltiples, coger tres test para medir tres cosas diferentes, se van a correlacionar todos los test con todas las variables.













Coeficiente de confiabilidad (r tt). El índice de confiabilidad (raíz cuadrada de r tt) nos dice hasta que punto las puntuaciones obtenidas de un test correlacionan con las puntuaciones verdaderas de un sujeto. Capacidad de detectar puntuaciones verdaderas, más allá de ese índice no puede ir la validez (es el tope teórico de la validez, p.e. si el índice de confiabilidad es de 0.85, la validez no puede ser mayor). Cuanto más alto es el índice de confiabilidad existe más oportunidad de que el test sea válido, luego hay que comprobar de que realmente es válido el test

Ejemplo:

Variables: socialización, depresión y personalidad.

Métodos: Test de socialización para adolescentes (TSA, es el que quiero validar), Test de depresión de Beck y 16PF. Hago una matriz de correlación con ellos:



Socialización (1) Personalidad (2) Depresión (3)

A – TSA r A1 r A2 r A3

B – 16PF r B1 r B2 r B3

C - Beck r C1 r C2 r C3



Cuando medimos con el A, detectamos algo de las otras características (B, C).



La correlación tiene que ser mayor a 0 y es necesario contrastar la relación de A, B y C con 1 ( para que demuestre que sirve para lo que fue construido y mide mejor que otros), la correlación de A con 2 y 3 tiene que ser menor.

La mayor correlación de la matriz tiene que ser A-1 y 1-A porque para eso ha sido construido. Si otros test correlacionan con mi característica (socialización) significa que otros test en el mercado miden mejor que mi instrumento o que mi instrumento mide otras cosas.















Análisis cualitativo: especifica el contenido del constructo que quiere evaluar, el grado en que todas o algunas de las áreas del contenido que correlacionan entre sí y el peso de cada una de las áreas (delimitación de contenido).



d. Validez discriminante. Si tuviéramos varios métodos que evalúan la misma variables (p.e. sociabilidad: TSA, Bell y BAS), tratar de valorar que test correlaciona más con la variable. Si un test tiene capacidad discriminativa es el test que mide mejor esa variable (el mejor que correlaciona con esa variable), los otros test medirán la variable con menos eficacia.



e. Validez convergente. Conseguir que la correlación de rA1 es mayor que rB1 y rC1. Mi instrumento correlaciona más con la variable. En rAB y rAC tiene que existir una correlación significativa para comprobar de que estamos tratando con la misma variables (si miden la misma variable tienen que correlacionar entre sí). rBC no nos interesa esa correlación porque se supone que ya esta validada y lo que nos interesa es comprobar que nuestro test correlaciona con los otros (B-C) que ya están validados. (Los test deben ser validados en la misma población: A, B y C en España no en diferentes países).

Dependiendo del uso que le quiera dar al test tendré que escoger un tipo de validez (p.e. si quiero diagnosticar y clasificar utilizaré la validez discriminativa y convergente).

Antes de empezar a analizar el coeficiente de validez es necesario saber:

1. ¿Cómo se ha definido la variable o característica que interesa medir?, ¿qué pretende medir el test?

2. ¿En quién lo mide: tipo de población, en que muestra se ha validado el test?

3. ¿Cuál ha sido el criterio de validez?



5. Interpretación del coeficiente de validez:

Teniendo en cuenta esto, no hay un dato de validez exacto, es muy relativo y no podemos comparar la validez de un instrumento con la de otro, debe cumplir unas condiciones: que midan la misma variable, construidos en base a la misma población, que tengan un mismo uso y utilicen el mismo tipo de validez.

Además tenemos que analizar:

1. El error típico de medida (ETM), cuanto más pequeño es, más probabilidad de que el instrumento sea válido.

2. El coeficiente de confiabilidad del test y su índice de fiabilidad: a mayor coeficiente e índice de confiabilidad, mayor probabilidad de que el test sea válido.

3. Cuanto mayor es la confiabilidad y validez demuestre el criterio, es mayor la probabilidad de que el test sea válido.

4. En más fácil encontrar un coeficiente de validez en grupos heterogéneos (a priori sabemos que los datos cuantitativos van a ser mayor que en grupos homogéneos porque el error típico de medida influirá menos en el grupo heterogéneo).

5. Tipo de grupo que es, es disperso o no (por la varianza y desviación típica del grupo).

6. Finalidad y usos del test, así tendremos diferentes tipos del coeficiente de validez.

El criterio no es confiable porque puede estar contaminado: no elegir bien el criterio, que no plasme bien el criterio verdadero, que este valorado por jueces muy subjetivos y que no haya un acuerdo, validez de forma poco representativa (no son medidas adecuadas, superficiales, no significativas) o porque está sesgado el propio criterio (más oportunidad de salgan mejor unos sujetos que otros). Todo esto puede reducir la validez porque no está bien diseñado.

El criterio debe ajustarse a las circunstancias y a la población, no siempre sirve el mismo criterio. Un instrumento es válido según para quién y para qué, por lo tanto, los datos de validez siempre son relativos y tienen que validarse continuamente (cada 10 o 15 años) pues cambian los grupos, las condiciones, hay que validar el uso del test no el test en sí. También hay que valorar la practicidad del test, que existe un equilibrio entre la validez del test empírica y práctica).

0 comentarios: