Una gran parte del trabajo estadístico en el ámbito médico es la diferenciación entre una y otra población, o entre sujetos de una misma población sometidos a tratamientos o situaciones diferentes. A menudo el problema fundamental es decidir si una diferencia observada entre ellos, ya que casi nunca son exactamente iguales, significa que ambas poblaciones se comportan de forma diferente, o que estas diferencias observadas pequeñas y son debidas meramente al azar. No es raro que se haya dedicado mucho esfuerzo para crear instrumentos que permitan aclarar, con una probabilidad determinada, si se trata de diferencias verdaderas o aleatorias. Así pues, el contraste de hipótesis es una parte de la inferencia estadística que se dedica a los procedimientos para decidir si una propiedad que se supone que cumple una población es compatible con lo observado en una muestra obtenida de es amisma población. La aplicación de cálculos probabiliísticos, permite determinar a aprtir de qué valor debemos rechazar una hipótesis, garantizando que la probabilidad de cometer un error es un valor conocido a priori.

En muchos casos, la prueba estadística se basa en un juego de hipótesis: Se acostumbra a denominar H0 a la hipótesis nula, que expresa la igualdad de los parámetros que se están comparando, a pesar de que existan unas determinadas variaciones,  mientras se denomina H1 o Ha a la hipótesis alternativa, que supone que las diferencias estimadas son suficientes para declarar una diferencia real entre ambas situaciones o poblaciones.Es decir, H0 debe identificarse como la hipótesis de no cambio de la opinión actual (no diferencia, no mejora, no empeoramiento, etc.), y será la que mantengamos mientras que los datos obtenidos de la muestra no nos sugieran su falsedad con un mínima probabilidad de error, que nosotros habremos definido de antemano. H0 nunca se considera probada, pero sí podrá ser rechazada por los resultados de los datos.

El contraste de hipótesis es comparable a una prueba que se efectúa a un enfermo, en la que se cree que ayudará a distinguir si realmente es un enfermo o está sano. El sujeto puede estar sano o enfermo, y la prueba para efectuar el diagnóstico dar como resultado sano o enfermo. No necesariamente hay coincidencia entre los resultados de la prueba y el estado real del sujeto. En alguna ocasión la prueba dirá que el sujeto está enfermo, pero este no lo está (falso positivo), en otros la prueba dice que está sano, pero el sujeto está enfermo (falso negativo), en ocasiones la prueba indicará que el sujeto está sano, y realmente lo está, lo que es expresado como especificidad, y en otros casos, la prueba dirá que el sujeto está enfermo, y realmente lo está, lo que en conjunto dará idea de la sensibilidad de la prueba.

En las pruebas de hipótesis, estos problemas pueden surgir también: en ocasiones, no hay diferencia real entre los parámetros estudiados, pero el estudio de las muestras con el procedimiento que sea, decide que sí la hay, lo que constituye un error llamado de tipo I (lo que equivale al falso positivo), en otras ocasiones hay una diferencia real , pero el estudio lleva a una decisión de no diferencia, lo que se denomina error tipo II (que equivale al falso negativo).

Relación real entre los parámetros

Iguales (H0 verdadera) Diferentes (H0 falsa)
Resultado de Iguales (H0) Correcto (eficiencia) Error (Tipo II)
la prueba Diferentes (H1) Error (Tipo I) Correcto (potencia)
Total p (H0 cierta) p (H0 falsa)

El principio de funcionamiento de todas las pruebas de contraste de hipótesis es el mismo: se supone que ambas poblaciones o grupos de tratamiento o situaciones son iguales, a menos que haya suficiente evidencia en contra. Por ello, son pruebas que dan gran confianza cuando se deciden por que hay una diferencia entre los parámetros o poblaciones, pero sin embargo, como indicábamos más arriba, el asegurar que sean iguales es más complicado, ya que depende de la calidad de la muestra, el número de sujetos implicados, y de otra diversa información.

La prueba estadística permite controlar la probabilidad de cometer un error de tipo I (conocida como alfa- α-), ya que esta probabilidad es decisión del investigador. Lo más habitual es utilizar pruebas donde se pueda cometer un error máximo de 1 cada 20 veces (5%), o 1 cada 100 (1%), por lo que se habla de  α = 0.05, o de α = 0.01, respectivamente. A la probabilidad de no cometer un error tipo I, (1-alfa), se le conoce como eficiencia de la prueba, (equivalente a la especificidad).

Es muy diferente cuando se consideran los errores tipo beta (β), ya que la magnitud de este no es elegible, aunque puede modularse, al depender del número de observaciones de la muestra, y del nivel utilizado para alfa. Al complemento de β, es decir, 1-β, o probabilidad de no cometer un error tipo II, se le conoce como potencia de la prueba (equivalente a la sensibilidad).

Una tercera medida indicativa de la calidad , es la exactitud.  El grado de exactitud de una prueba se define como el porcentaje de casos en que el resultado es correcto, es decir, exactitud = número de aciertos / número total de casos.

Aunque es un concepto muy interesante, su medición es compleja, ya que se requiere conocer, en el caso de pruebas de laboratorio, el porcentaje de sanos en la población, y en el caso de contraste de hipótesis, la probabilidad de casos con H0 verdadera. En el caso de las pruebas de contraste de hipótesis, la ecuación para su obtención sería:

Exactitud = (1-alfa)/ p(H0 cierta)  + (1-beta) / p(H0 falsa)

mientras que en una prueba de laboratorio, sería similar:

Exactitud = Especificidad / p(sano) + sensibilidad / p(enfermo), siendo p la probabilidad correspondiente.