22 sept. 2011

Mahalanobis distance "Review: 003"

Ver primero / See first:

Hemos hablado ya en entrada anteriores de los Componentes Principales, pues bien la distancia de Mahalanobis se puede aplicar sobre dicho espacio reduciendo en gran medida el número de variable y evitando el sobreajuste.
Una vez calculados los vectores propios o eigenvectors, decidiremos por los valores propios o  eigenvalues el número de componentes principales (cuando hayamos explicado la mayor parte de la varianza sin incluir el ruido).
Esta nueva matriz de términos o componentes principales  “P” tendrá una dimensión: p.k, siendo p el nº de términos o PC´s y k el nº de longitudes de onda.
Por otra parte tenemos la matriz de “scores” o puntuaciones “T”, con una dimensión n.p siendo “n” el numero de muestras.
La matriz de correlaciones de “T”, es la matriz identidad “ I”.

We have talked in previous inputs about Principal Components Analysis; well Mahalanobis can be used in this space without risk of overfitting.
Once the eigenvectors (PCs) are calculated, we´ll decide the number of them by the eigenvalues, because with a few of them we will explain the most of the variance, living out the noise.
We will have a new matrix called “P” with a dimension p.k, being p the number of terms or PCs and k the number of wavelengths.
We project the samples to the new PC axis and we´ll get the scores, having also a new matrix “T” with a dimension n.p, being n the number of samples.
Matrix correlation of  “T” is I the identity matrix.

We will continue soon in “Mahalanobis distance_review:004”

No hay comentarios:

Publicar un comentario