En las siguientes tablas se muestran los valores de absorción de varias muestras en un espectro NIR.
Se eligieron seis longitudes de onda de las mas de mil posibles, debajo de la tabla de absorciones, esta una fila con la desviación estándar de cada columna y la varianza (marcada en amarillo). Se calculó la matriz de covarianzas, en la que podemos observar que se trata de una matriz cuadrada, y además simétrica (ver la sección de matrices), siendo los valores de su diagonal los valores de la varianza.
Las matrices de covarianzas en el caso de la espectroscopia NIR, pueden llegar a ser de 1050 x 1050, lo que indica ya de por sí lo complejo de realizar la matriz de covarianzas, pero la matriz inversa es practicamente imposible, dado que las variables están muy correlacionadas unas con otras y que la variabilidad cae en un espacio de menores dimensiones, pudiendo darse el caso de que fuese imposible de realizar o que fuese muy inestable [1].
La solución es reducir el espacio a uno nuevo determinado por los
componentes principales. Hay softwares que normalizan los scores de cada componente principal, haciendo que el valor de la varianza sea la misma para todos los componentes principales, esto hace que la idea del elipsoide
(que seria en el caso de no estar normalizada), la debamos cambiar por una esfera. Esto no implica que en el caso de comparar el punto A y B en el gráfico comparativo entre la distancia Euclidiana y de Mahalanobis de la
entrada anterior, "A" quede dentro, pues en la nueva escala, al aplicar la normalización, quedará aun más alejado, quedando fuera de los límites de la esfera.
La distancia de un punto al centroide se mide por unidades de Mahalanobis
("D" en la fórmula) , y diremos que el punto está a 1, 2,.., unidades de distancia de Mahalanobis.
Win ISI hace una normalización al calcular la distancia de Mahalanobis (H), para ello divide cada una de las distancias individuales de cada muestra por el valor medio de las H de todas, lo que remueve las singularidades de cada fichero, pudiendo usar la misma escala independientemente del fichero utilizado. Si la muestra es mayor de 3 unidades H estandarizadas (GH), la muestra se considera anómala, pudiendo tener falta de exactitud en las predicciones [2].
Hay diferentes variantes de la Distancia de Mahalanobis que trataremos en futuras entradas o en la actualización de las existentes.
En un espacio multidimensional existirán tantos elipdoides como productos representemos en la base de datos, esos productos pueden estar lo suficientemente aislados, tener solapamientos (si los productos son similares),etc. Estas elipsoides tendran un umbral de corte que especificaremos (normalmente 3). Una nueva muestra (problema) se representará en ese nuevo espacio como un punto y podrá caer o nó dentro de uno de los elipsoides. Hay que partir de que los espacios elipsoidales dependerán de lo bien que hayamos representado el producto en la base de datos con la que hayamos calculado el valor de "D", eligiendo las posibles fuentes de varianza que pueden aparecer en muestras futuras como rango, origen, proveedores,..... Es importante por tanto que para hacer el cálculo de "D", elijamos suficientes muestras, omitiendo en lo posible muestras redundantes (prodedentes de un mismo lote, finca,....), lo que haría que el centroide no fuese representativo.
En el cálculo de discriminantes con distancia de Mahalanobis, conviene usar un tratamiento matemático espectral que separe lo mejor posible los elipsoides, pero que a su vez sea robusto e insensible a variaciones que puedan ocurrir normalmente. De no ser así, podemos tener muchos resultados de "Fallo" a muestras que si pertenecen al grupo, o de "Pasa", a muestras que no son del grupo. Una validación adecuada, con muestras que sabemos que deben de pasar y otras que deben de fallar, es conveniente antes de poner un modelo discriminante por Mahalanobis en rutina.
[1] Tom Fearn (Chemometric Space - NIR News Vol.21 No 1
[2] ISI: ++NIRS 3++ Version 3.00