Antecedentes Históricos de la
Distribución Chi Cuadrado:
El matemático
Karl Pearson
(1857−1936),
advirtió que cuando un científico realiza un experimento
de resultados aleatorios, generalmente tiene en mente como referente un «modelo teórico ideal»
que de antemano establece cómo debería ser el comportamiento y cuáles deberían
ser los resultados estadísticos esperados del experimento. Sin embargo, en el
mundo real es muy normal que los resultados empíricos obtenidos dentro de Muestras
Estadísticas sobre la realización de un experimento aleatorio no coincidan
plenamente con los resultados teóricos esperados. En muchos casos es normal que
ocurran grandísimas fluctuaciones en los resultados observados en el
experimento aleatorio, y aún así es posible seguir afirmando que esos
resultados fluctuantes todavía están ocurriendo dentro de los límites previstos
por el modelo teórico ideal. Justamente, una gran dificultad a la que se
enfrentaron los primeros científicos de la Modernidad fue cómo hallar una
fórmula matemática para determinar con exactitud que las fluctuaciones o
variaciones observadas en los resultados de un experimento eran suficientemente
«significativas» como para permitir concluir que esos resultados ya no
respondían a las expectativas del modelo teórico.
Por ese
motivo Karl Pearson hacia 1900 propuso uno de los primeros Tests Estadísticos que
desde la óptica de las distribuciones de la probabilidad sirve para calcular si
los resultados estadísticos de un experimento se alejan significativamente o no
de los resultados esperados del modelo teórico, test que actualmente es
conocido como el «Test Chi Cuadrado». Luego otros importantes matemáticos han
propuesto la axiomatización de diversas funciones matemáticas o estadísticas
que permiten definir y calcular los límites ideales a partir de los cuales se
puede afirmar con gran certeza que los resultados observados en un experimento
aleatorio definitivamente ya no responden a las expectativas teóricas del
modelo ideal, es decir, permiten concluir que realmente son muy significativas
las disparidades existentes entre los resultados observados y los resultados esperados.
Algunas de las más importantes funciones estadísticas empleadas para ese
propósito son la prueba Fisher, la prueba T-Student, la prueba Z, el test
Wishart, la prueba McNemar, la prueba Q de Cochran, los tests de Bondad de
Ajuste, etc.
A continuación
tratare sobre la Distribución Chi-Cuadrado de la probabilidad y su relación con
el Test Chi-Cuadrado, recalcando su aplicación en los denominados «Contrastes
de Significación» que se pueden realizar entre los resultados teóricos
esperados y los resultados empíricos observados de un experimento.
Comprendiendo el modelo ideal
de la Distribución Chi Cuadrado:
La
denominada «Distribución Chi Cuadrado» (que usualmente se escribe y se
lee como: Ji Cuadrado), es una distribución cuadrática de la probabilidad que
utiliza básicamente variables aleatorias continuas. La Distribución Chi
Cuadrado de la probabilidad se denota mediante la letra griega minúscula ji elevada al cuadrado (χ2), y consiste en establecer un espacio
continuo delimitado por la suma de los cuadrados de n variables aleatorias que son independientes entre sí, espacio
dentro del cual la variable X puede
asumir cualquiera de los infinitos valores que lo conforman, y por tanto para
establecer el valor aproximado de una variable X dentro de ese espacio se procede a incluir una estimación de sus
posibles límites que están dados por los distintos «Grados de Libertad» que
pueden existir entre las variables aleatorias analizadas que dan origen al
referido espacio. En otras palabras, la Distribución Chi Cuadrado en un
delimitado espacio conjuga un determinado número de variables aleatorias
independientes entre sí, con unos valores de probabilidad ubicados entre 1 y 0
que son atribuibles a esas variables, y con unos límites de la probabilidad
para el verdadero valor de X
delimitados por los Grados de Libertad atribuibles a las variables aleatorias
analizadas.
La
Distribución Chi Cuadrado permite calcular la probabilidad existente para que
una variable X, que tiene un
determinado Grado de Libertad frente a otras variables del mismo conjunto,
permanezca dentro de unos «límites ideales» previstos para X cuando tiene ese específico Grado de Libertad o independencia. En otras
palabras, la Distribución Chi Cuadrado suministra un modelo ideal sobre los límites
probables que deberían regir las fluctuaciones en la aparición de un
determinado valor aleatorio X dependiendo del
Grado de Libertad que tiene ese valor frente a otras variables similares dentro
de un conjunto de datos
analizados. La
fórmula matemática para calcular la probabilidad de que una variable X permanezca dentro del límite ideal correspondiente al respectivo
Grado de Libertad es la siguiente:
|
χ2k
(X) = |
Xk / 2 – 1 e
–X / 2
|
|
2k /2 Γ(k
/ 2)
|
En esta
ecuación la letra k que aparece como
un subíndice de la expresión χ2 indica el Grado de Libertad que
se toma como límite para calcular la probabilidad de la variable aleatoria X. Esta ecuación para ser despejada
requiere el uso de la compleja Función Gamma (representada por la letra
griega mayúscula gamma: Γ), y por tanto generalmente para solucionar
esta ecuación se emplean métodos basados en la consulta de tablas o en el uso
de algoritmos para ordenador que permiten obtener los valores de probabilidad
respectivos.
Explicación de los Grados de
Libertad usados en la
Distribución Chi Cuadrado:
Dentro de
la Distribución Ji Cuadrado los denominados «Grados de
Libertad» atribuibles a un conjunto de variables equivalen al número de datos
independientes entre sí existentes dentro de ese conjunto que es necesario
conocer previamente para poder estimar el valor de cualquier otro dato
independiente del mismo grupo. Por ejemplo, si se afirma que en un cesto hay un
conjunto de 10 manzanas, conformado por 2 clases independientes de manzanas,
pues algunas de esas 10 manzanas son de color rojo y otras son de color verde,
entonces en tal caso basta con saber que en el cesto hay 4 manzanas rojas para
poder calcular inmediatamente que las restantes son 6 manzanas de color verde,
es decir, en este caso hay 2 clases de datos independientes entre sí (rojas y
verdes), pero para poder conocer el valor de una clase de esos dos datos es
siempre necesario conocer previamente el valor de la otra clase de datos,
motivo por el cual se concluye que el Grado de Libertad o el grado de
independencia existente entre las dos clases de datos tiene un valor de uno
(1).
En otro ejemplo, si se afirma que en una sala hay un conjunto de 30
personas, conformado por 3 clases de razas independientes entre sí, pues
algunas de esas personas son caucásicas, otras son negras y otras son
asiáticas, entonces basta con saber que en la sala hay 12 personas caucásicas y
9 negras para poder calcular exactamente que las restantes 9 personas son
asiáticas, es decir, en este caso hay 3 clases de datos independientes entre
sí, pero para poder conocer cuál es el valor de una clase particular de esos
datos es siempre necesario conocer previamente el valor de las otras 2 clases
de datos; en otras palabras, si sólo se sabe que en la sala hay 12 personas
caucásicas, ese dato resulta insuficiente para poder saber con exactitud
cuántas son negras y cuántas son asiáticas dentro de las restantes 18 personas
de la sala, y si sólo se sabe que en la sala 9 personas son asiáticas, ese dato
por sí sólo también resulta insuficiente para poder saber cuántas son negras y
cuántas son caucásicas dentro de las restantes 21 personas de la sala, motivo
por el cual se concluye que el Grado de Libertad o grado de independencia
existente entre las tres clases de datos tiene un valor de 2, pues únicamente
conociendo el valor de 2 clases de datos se puede saber con exactitud cómo están
distribuidas las tres clases de razas dentro de la población total del
conjunto analizado.
En otro ejemplo, si se afirma que existe un conjunto formado por 5
números diferentes que al ser sumados dan como resultado 24, en tal caso no es
indispensable conocer previamente todos los cinco números que conforman el
conjunto, pero para poder calcular el valor exacto de cualquiera de los 5
números que conforman ese conjunto sí es necesario conocer al menos 4 de esos 5
números, como podría ocurrir con la combinación conformada por los siguientes
cinco números: 4+3+10+2+X = 24,
combinación en la cual necesariamente se requiere conocer al menos 4 números
para poder calcular directamente que el quinto número desconocido (representado
por la X) es un 5, es decir, el Grado
de Libertad existente entre los cinco datos diferentes tiene un valor de 4.
En
síntesis, el Grado de Libertad, que usualmente se representa por las letras G.L.,
equivale a restarle 1 a un conjunto conformado por k variables consideradas independientes entre sí, lo cual se resume
en la fórmula: G.L. = k − 1.
Así, si el conjunto contiene 5 variables consideradas independientes entre sí,
entonces el Grado de Libertad que le corresponde a cualquier variable de ese
conjunto es de: G.L. = 5−1 = 4, lo que equivale a que en ese conjunto
sólo 4 variables una vez conocidas pueden operar de manera independiente sin
necesidad de que deba ser conocido el valor exacto de la quinta variable del
conjunto. Y si el conjunto contiene 2 variables independientes, como en el
ejemplo de las manzanas verdes y las manzanas rojas, entonces el Grado de
Libertad es 1, ya que: G.L. = 2−1 = 1, lo que equivale a que en ese
conjunto sólo una variable ya conocida puede operar de manera independiente sin
necesidad de que deba ser conocido el valor exacto de la otra.
Representación Gráfica del
Modelo Ideal de la Distribución
Chi Cuadrado:
Un concepto matemático es mucho
más fácil de comprender si se
puede visualizar la forma que
generalmente asume en el
abstracto mundo de los números.
La anterior gráfica muestra
los valores de la probabilidad de ocurrencia de X dentro de una Distribución Chi Cuadrado. En el eje
horizontal de las coordenadas se observa que de derecha a izquierda se incluyen
todos los valores posibles que puede asumir la variable aleatoria X. Estos valores siempre corresponden a
números positivos (no admite números negativos o menores a cero), y tales
valores pueden ir desde cero (0) hasta el infinito (∞), aunque en
esta gráfica para efectos ilustrativos sólo se han incluido algunos valores relevantes
ubicados entre 0 y 50. En el eje vertical se han incluido algunos valores
representativos de la probabilidad, y por eso ese eje sólo admite valores
ubicados entre cero (que equivale a Muy Improbable) y 1 (que equivale a Muy
Probable). Las líneas curvas numeradas de color verde, que desde la parte
superior derecha
hasta la parte inferior izquierda surcan toda la gráfica, representan algunos Grados de
Libertad aplicables a todos los valores que puede asumir X dentro de este espacio perfectamente delimitado.
Para calcular la
probabilidad que tiene la variable X
de aparecer dentro de un determinado intervalo delimitado por cierto Grado de
Libertad, es necesario obtener el punto de la respectiva línea roja (Grado de
Libertad) en que se
produce la intersección con la línea recta prolongada desde el valor X ubicado en el eje horizontal, y a
continuación desde ese punto de intersección es necesario prolongar una línea
recta hasta el eje vertical que nos da el valor de la respectiva probabilidad
de ocurrencia para la variable X.
Por
ejemplo, si sobre el eje horizontal se quiere calcular la probabilidad que le
corresponde a la variable X cuando
asume el valor 1 dentro de un Grado de Libertad, es decir, se quiere calcular
χ21(1), entonces en el eje horizontal vemos que
sobre el número 1 se extiende una línea recta de color verde que en determinado
punto intercepta con la línea roja No.1 que representa un solo Grado de
Libertad, y luego a partir de ese punto de intersección se puede extender la
línea recta de color verde hasta el eje vertical, donde termina conectando
sobre el valor 0,3173108 de probabilidad, es decir, dentro de una Distribución
Ji Cuadrado es realmente muy baja la probabilidad de ocurrencia del
valor 1 cuando tiene un solo Grado de Libertad respecto de otra variable. Y si
ahora se calcula la probabilidad de X
cuando asume el valor 1 dentro de 2 Grados de Libertad, es decir, cuando se
calcula χ22(1), entonces vemos que sobre el número 1
la línea recta de color verde intercepta en un determinado punto con la línea roja
No. 2 que representa 2 Grados de Libertad, y a partir de ese punto de
intersección se puede extender una línea recta hasta el eje vertical, donde
termina conectando sobre el valor 0,6065306 de probabilidad, es decir, ahora
aumentó la probabilidad de ocurrencia del valor 1 cuando éste tiene 2 Grados de
Libertad respecto de otras variables.
Y si se desea calcular la probabilidad
que le corresponde a la variable X
cuando asume el valor 2 dentro de un Grado de Libertad, es decir, se quiere
calcular χ21(2), entonces en el eje horizontal vemos
que sobre el número 2 se extiende una línea recta de color lila que en
determinado punto intercepta con la línea roja No.1 que representa un solo Grado de Libertad, y luego a partir de
ese punto de intersección se puede extender la línea recta de color lila hasta
el eje vertical, donde termina conectando sobre el valor 0,1572992 de
probabilidad, es decir, dentro de una Distribución Chi Cuadrado es muy
baja la probabilidad de ocurrencia del valor 2 cuando tiene un solo Grado de
Libertad respecto de otra variable. Pero si ahora se calcula la probabilidad de X cuando asume el valor 2 dentro de 6 Grados de Libertad, es decir,
se calcula χ26(2), entonces vemos que sobre el
número 2 la línea recta de color lila intercepta en un determinado punto con la
línea roja No. 6 que representa 6 Grados de Libertad, y a partir de ese punto
de intersección se puede extender una línea recta hasta el eje vertical, donde
termina conectando sobre el valor 0,9196986 de probabilidad, es decir, ahora
aumentó mucho más la probabilidad de ocurrencia del valor 2 cuando éste tiene 6
Grados de Libertad respecto de otras variables de un mismo conjunto.
Uso de Excel para calcular la
Probabilidad dentro de la
Distribución Chi Cuadrado:
Actualmente
para obtener el valor de la probabilidad que le corresponde a una variable X dentro de una Distribución Chi
Cuadrado el lector puede utilizar ciertas tablas que fácilmente se consiguen en la
Web y que contienen esos valores de probabilidad, o puede utilizar la útil función «DISTR.CHI» de la hoja de cálculo Excel
de Microsoft que facilita enormemente esa labor como se señala a continuación:
En primer
lugar, como se observa en la anterior imagen, basta abrir un libro en blanco y situar el curso en cualquier celda
vacía. A continuación se activa la pestaña «Insertar» de la barra de
herramientas y se selecciona insertar «Función». En el cuadro de diálogo que se
abre se escoge la categoría de las funciones «Estadísticas», y dentro de esta
categoría luego se selecciona la función «DISTR.CHI» y se oprime Aceptar.
En el
nuevo cuadro de diálogo que automáticamente se abre para incluir los argumentos
de la función aparecen dos casillas vacías. La primera casilla es para incluir
cualquier posible valor ubicado entre cero y el infinito que pueda asumir la
variable X, y la segunda casilla es
para incluir los Grados de Libertad que le corresponden a ese valor dentro de
un conjunto de variables similares. Por ejemplo, podemos asumir que X tiene un valor de 2 y que tiene un (1)
solo Grado de Libertad frente a otra variable similar, y al introducir estos
datos en las casillas respectivas se observa que la hoja de cálculo
inmediatamente arroja el valor de probabilidad equivalente a 0,157299265.
Variación de
la Probabilidad en la
Distribución Chi Cuadrado según
los Grados de Libertad:
Las
siguientes gráficas, basadas en el uso de la hoja de cálculo Excel, muestran
que cuando X tiene un valor de 2, su
probabilidad de ocurrencia según
una Distribución Chi−Cuadrado se
incrementa bastante a medida que
aumentan los Grados de Libertad
que son atribuibles a ese valor
respecto de otras variables
similares de un mismo conjunto:
Estas gráficas
muestran que con 2 Grados de Libertad la probabilidad de ocurrencia del valor 2
asignado a X es tan sólo de 0,367879.
Con 3 Grados de Libertad la probabilidad de ocurrencia del valor 2 se
incrementa hasta 0,572406. Con 20 Grados de Libertad la probabilidad de
ocurrencia del valor 2 asignado a X
se incrementa enormemente hasta 0,999999, lo que indica que su ocurrencia se
vuelve altamente probablemente. Y finalmente, con 25 Grados de Libertad la
probabilidad de ocurrencia del valor 2 es prácticamente segura, porque adquiere
un valor de probabilidad equivalente a 1.
Lo
anterior es algo que no sólo le ocurre al valor 2 asignado a X, sino que también le ocurre a
cualquier otro valor entre 0 y el infinito (∞) ubicado sobre el eje horizontal
que pueda ser asumido por la variable aleatoria X. Es decir, en una Distribución Chi Cuadrado todo valor que
pueda asumir la variable X con un
solo Grado de Libertad tiene un determinado valor de probabilidad dentro de la
escala que va de 0 (Improbable) hasta 1 (Muy Probable), pero a partir de ese
valor de probabilidad se observa que entre más se incrementen los respectivos
Grados de Libertad, entonces el valor de la probabilidad tiende a aumentar
paulatinamente hasta llegar a 1 (Muy Probable).
La siguiente tabla, acompañada
por el gráfico que representa del valor de la probabilidad, incluye algunos valores
del eje horizontal que pueden ser asumidos por la variable X, y se muestra que dentro de la Distribución Chi Cuadrado
todos esos valores tienen una probabilidad de ocurrencia muy baja cuando sólo
les corresponde un Grado de Libertad, pero entre más se incrementan los Grados
de Libertad aplicables al valor de X,
entonces se observa que aumenta considerablemente el valor de su probabilidad
hasta que en cierto punto llega hasta 1:
|
Algunos
valores de X
|
Probabilidad de ocurrencia de
X según los Grados de Libertad
aplicados: |
|
1
|
1 grado =
0,31731081
|
2 grados =
0,60653066
|
3 grados =
0,80125196
|
20 grados =
1
|
|
2
|
1 grado =
0,15729926
|
2 grados =
0,36787944
|
4 grados =
0,73575888
|
25 grados =
1
|
|
5
|
1 grado =
0,02534732
|
5 grados =
0,41588023
|
8 grados =
0,75757614
|
36 grados =
1
|
|
10
|
1 grado =
0,0015654
|
10 grados =
0,44049329
|
13 grados =
0,69393438
|
49 grados =
1
|
|
20
|
1 grado =
0,0000077442
|
20 grados =
0,45792971
|
25 grados =
0,74682532
|
71 grados =
1
|
|
50
|
1 grado =
0,000000000001
|
50 grados =
0,47339846
|
57 grados =
0,73283137
|
124 grados =
1
|
 |
Claramente
se observa que hay cierto punto en el que los Grados de Libertad asignados a un
valor X permiten que su probabilidad
de ocurrencia sea de 1. Sobre esta dinámica matemática establecida entre la
probabilidad y los Grados de Libertad se basa el modelo ideal de la
Distribución Chi Cuadrado.
En las siguientes secciones de
esta obra se analiza la manera
de usar la Distribución Chi
Cuadrado para realizar
contrastes entre los valores del
modelo teórico ideal y los
valores empíricos observados
dentro de una Muestra
Estadística, y la manera de
calcular si las desviaciones
existentes entre esos dos
valores son o no significativas.