Cuando se aplica una prueba estadística de contraste de hipótesis, se calcula la probabilidad de obtener una diferencia igual o mayor que la observada, entre lo que indica la hipótesis nula (H0) y los datos de las muestras en caso de que H fuese verdadera, o sea, se considera cierta la hipótesis nula, y en estas condiciones se evalúa la probabilidad de que el resultado de la muestra difiera de la hipótesis nula tanto o más que lo detectado en la muestra.

Si esta probabilidad es pequeña, es decir, menor o igual que alfa (α ), se afirma que la hipótesis nula es falsa, porque, si realmente se cumpliera la hipótesis nula, sería muy improbable (menos que  α) obtener una diferencia como la detectada, por lo que debe ser falsa. Es cierto que siempre existe la posibilidad de equivocarse al hacer esta afirmación, pero esta posibilidad será siempre menor del 5% (α = 0.05) o del 1% (α = 0.01) (Error Tipo I).

Si la probabilidad de que haya una diferencia tan amplia o mayor que la observada es mayor que α, se concluye que no existe evidencia suficiente para rechazar la hipótesis nula, por lo que se dice que la diferencia no es significativa. Esta decisión supone pues que conocemos la probabilidad de error α, pero si no se rechaza, existe también alguna probabilidad de cometer un error tipo II o beta (β), por lo que en principio no se debe afirmar que la hipótesis H0 es cierta, ya que afirmar ello dependerá de la calidad de la muestra, si esta tiene un número suficiente de observaciones, si estas han sido seleccionadas adecuadamente, etc. Solo entonces, en el caso de no rechazar la hipótesis nula se aseguraría que en caso de existir realmente una diferencia entre H0 y el comportamiento real de la población de referencia, esta diferencia es probable que sea mínima y de escaso interés práctico. De hecho, podrían desarrollarse procedimientos de prueba para que ningún error fuera posible, pero ello solamente podría conseguirse si la decisión se basase en el examen de toda la población, lo cual, habitualmente es impracticable. El problema, siempre que esto no puede hacerse, es que por azar, podría ocurrir que por la variabilidad del muestreo podría obtenerse una muestra no representativa.

Siempre hay que tener en cuenta que, con una muestra de tamaño prefijado, disminuir la probabilidad de cometer un error tipo I, aumenta la de cometer un error tipo II. El único recurso para aumentar la potencia del contraste de hipótesis, o sea, disminuir la probabilidad tomar como cierta la hipótesis realmente falsa (β), es aumentar el tamaño muestral, lo cual tiene en general el inconveniente de aumentar los costos del experimento, y el trabajo de campo.

Así pues, para desarrollar una prueba estadística de contraste de hipótesis:

  1. Se establece la hipótesis nula
  2. Se establece la hipótesis alternativa
  3. Se elige un nivel crítico para el error tipo I (nivel de significación)
  4. Se elige el estadístico o prueba a aplicar cuya distribución muestral se conozca en H0 y esté relacionado con el parámetro a medir.
  5. Con arreglo a ello, se establecerá la región crítica, en la que, si H0 fuera cierta, la probabilidad sería menor que α, por lo que, si el estadístico cayera en la misma se rechazaría H0

En resumen, se evalúa la probabilidad de que los datos y la hipótesis nula difieran tanto o más que lo detectado en la muestra. Si esta probabilidad es lo suficientemente baja, se rechaza H0 y se opta por Ha, con un error conocido α. Al contrario, si la probabilidad es mayor que el valor decidido para α, se concluye que no hay evidencia para rechazar H0, pero en principio no se afirma que sea verdadera.

Las pruebas más conocidas y empleadas para el contraste de hipótesis de variables cualitativas son Chi cuadrado (Χ2), la Prueba exacta de Fisher, la Prueba de Mac Nemar, la de Gart, y la prueba de concordancia Kappa de Cohen, que ya fué tratada en un artículo anterior.