Fiabilidad

La fiabilidad es una de las dos cualidades básicas que debe poseer un examen o, en general, todo instrumento de medida. La otra es la validez. El concepto designa la estabilidad que proporciona ese instrumento en la obtención de resultados. Así, por ejemplo, una prueba cuyos resultados dependen de factores no controlados —como el ruido existente en el aula de examen, el criterio del evaluador o el orden seguido en la corrección— no es una prueba fiable; por el contrario, se considera que un instrumento de medición es tanto más fiable cuanto más capaz es de reducir los errores de medición.

Existen distintos métodos para determinar el grado de fiabilidad de un examen, pero todos ellos tienen en común el hecho de comparar los resultados de la prueba, bien con otra, bien consigo misma, y expresar numéricamente, mediante el llamado coeficiente de fiabilidad, el grado en que esos dos conjuntos de resultados son coincidentes. Cuanto más alto es dicho coeficiente, es decir, cuanto mayor es el grado de coincidencia entre los dos grupos de resultados, más fiable resulta la prueba. Así, puede considerarse que, si bien los valores máximos oscilan entre -1 y +1, cuando el coeficiente es inferior a +0.30, la fiabilidad de la prueba es muy baja (los valores negativos no suelen darse); cuando alcanza +0.60, se estima aceptable; y a partir de +0.70, la fiabilidad de la prueba es alta.

Los métodos más habituales para medir el grado de fiabilidad de las pruebas de corrección objetiva (por ejemplo, los tests de verdadero/falso o los de opción múltiple) son los siguientes:

Método de las formas paralelas: consiste en comparar las notas de dos pruebas muy similares (paralelas), de modo que la correlación entre ambas revela el coeficiente de fiabilidad. No obstante, la dificultad de este método estriba, precisamente, en redactar dos pruebas que sean efectivamente paralelas.
Método test-retest: supone administrar la misma prueba dos veces a los mismos sujetos, de forma que, si ésta es fiable, los aprendientes obtienen los mismos resultados en ambas ocasiones. Se trata de un método poco usado, dado que los alumnos pueden haber adquirido nuevos conocimientos durante el intervalo, haberse acostumbrado al método o, simplemente, hallarse fatigados durante la realización de una de las dos pruebas, de forma que es posible obtener resultados distintos entre ambas, debido a factores aleatorios.
Método de las dos mitades: consiste en dividir la prueba, una vez administrada, en dos mitades (ítems pares e impares, o bien mitad y mitad) y calcular la correlación entre los resultados de ambas partes. El problema que plantea este método de consistencia interna es que el coeficiente de fiabilidad depende de los ítems escogidos para cada mitad.
Otros métodos de consistencia interna: calculan el coeficiente de fiabilidad a partir de las correlaciones que se obtendrían en el caso de realizar todas las divisiones posibles de la prueba. Las fórmulas matemáticas más habituales para ello son las de Kuder-Richardson (conocidas como KR-20 y KR-21), así como el Alfa de Cronbach.

En las pruebas de corrección subjetiva (entrevistas orales, pruebas de expresión escrita), lo que resulta relevante es comprobar el grado de fiabilidad de la corrección, y en concreto:

la fiabilidad intraevaluadora o interna, esto es, si un mismo examinador otorga las mismas puntuaciones a un mismo grupo de pruebas, orales o escritas, en dos ocasiones diferentes, o si, por el contrario, les otorga puntuaciones diferentes. Ello supone que un mismo corrector puntúa dos veces las mismas pruebas (grabadas, si son orales; con la puntuación no anotada en el propio ejercicio, en el caso de las escritas). La fiabilidad interna se establece entonces mediante la correlación entre la primera y la segunda puntuación.
la fiabilidad interevaluadora, externa o entre correctores, es decir, el grado de consenso que existe entre las puntuaciones que otorgan dos examinadores a una misma prueba, que se mide mediante un coeficiente de correlación u otros medios estadísticos. Hay varios modos de asegurar la fiabilidad de los correctores; entre ellos, el método de la «doble corrección» y el de «muestreo de la corrección por un jefe de equipo». El primero consiste en que dos examinadores puntúan la misma prueba de forma independiente; si el coeficiente de correlación entre las dos puntuaciones es alto, la nota final es la media entre ambas notas, y si no lo es, la puntuación se decide por otros medios, por ejemplo, por un tercer examinador. Por su parte, en el método de «muestreo de la corrección por un jefe de equipo», éste puntúa algunas de las pruebas corregidas por los distintos miembros de su equipo, comprueba la homogeneidad de criterios entre ellos y establece el criterio de referencia en caso de divergencia.

En todo caso, la fiabilidad de una prueba depende de varios factores, como la homogeneidad de los ítems (si todos los ítems evalúan la misma destreza, es probable que la correlación entre ellos sea más alta que si evalúan destrezas diferentes) o la propia longitud del test.

Por último, una prueba puede ser fiable sin ser válida (esto es, puede arrojar resultados consistentes aunque mida algo distinto de aquello que pretende medir), pero no puede ser válida si no es fiable (puesto que no puede medir lo que pretende si no puede hacerlo de forma precisa).

Otros términos relacionados

Evaluación; DELE.

Bibliografía básica

Alderson, J. C., Clapham, C. y Wall, D. (1995). Exámenes de idiomas. Elaboración y evaluación. Madrid: Cambridge Universtiy Press, 1998.

Bibliografía especializada

Bachman, L. (1990). Language Testing Construction and Evaluation. Oxford: Oxford University Press. Trad. al español del cap. 4. En M. Llobera et al. (1995). Competencia comunicativa. Madrid: Edelsa.
Davies, A. et al. (1999). Dictionary in Language Testing. Cambridge: Cambridge University Press.
McNamara, T. (2000). Language Testing. Oxford: Oxford University Press.