1 ene. 2011

Distancia de Mahalanobis

Como hemos comentado en la distancia euclidiana tenemos el problema de que las variables pueden estar correlacionadas entre sí. Por otra parte el problema de la intercorrelacion entre las variables originales se resuelve por medio del cálculo de componentes principales, a la vez que reducimos el número de variables a solo las más relevantes.
La distancia de Mahalanobis, calcula la distancia entre dos puntos en el espacio de longitud de onda y se representa por d^2.
Esta distancia se puede usar en NIR de diferentes formas: Para cálcular la distancia al centro de la población (el punto donde todos los componentes principales confluyen). Para encontrar la distancia de vecindad respecto a cada una de las muestras.
Se aplica un umbral de corte, que hace que para cada componente principal la distancia sea en función de su varianza explicada, por lo que muestras que por la distancia euclidiana podía ser dadas como  "no anómalas", en la distancia de Mahalanobis podían serlo y viceversa.
La distancia de Mahalanobis es una herramienta frecuentemente usada en la detección de anómalos, o para análisis discriminantes indicandonos la probabilidad de una determinada muestra, de pertenecer a un determinado colectivo.
Existen varias modificaciones de la distancia de Mahalanobis (sin normalizar, normalizada,....), pudiendo encontrar diferencias en este aspecto en los diferentes softwares quimiométricos que las utilizan.
En próximas actualizaciones de este Blog iremos profundizando en la medida de lo posible en esta interesante herramienta.
As discussed in the Euclidean distance we have the problem that the variables may be correlated. Moreover, the problem of  inter-correlation between the original variables is solved by calculating the principal components analysis , while also reducing the number of variables to only the most relevant.Mahalanobis distance , calculates the distance between two points in space wavelength and is denoted by d ^ 2 .
This distance can be used in NIR in different ways: (1): to calculate the distance to the center of the population (the point where al the principal components converge . (2): To find the neighbor distance for one sample to its nearest neighbor.We apply a cutoff  threshold , that for each principal component, is a distance in terms of its variance explained , so some samples can be outliers for the Euclidean distance and correct for the Mahalanobis distance or vice versa.
The Mahalanobis distance is a frequently used tool for detecting outliers , or to discriminate sample groups, indicating the probability of an unknown sample to belong to a particular group .
 There are several modifications of the Mahalanobis distance (not standardized, normalized , .... ) and we can find this differences in the chemometric software use by different manufactures.
 




No hay comentarios:

Publicar un comentario