Normalmente se expresan los components principales porla varianza que explican, para ello tomamos el valor del mayor “eigenvalue” (en el caso del ejercicio Iris que hemos ido desarrollando es de 3,64) y lo dividimos por el sumatorio de todos los eigenvalues (en nuestro caso3,78), multiplicando posteriormente el resultado por 100, siendo el resultado en nuestro caso 96,30.
Vamos haciendo esto mismo con el resto de componentes.
Podemos expresar en una columnala varianza explicada por cada componente principal y en otra la varianza acumulada:
Varianza
explicada
Varianza
acumulada
96.30
96.30
3.70
100.00
Normally we show the variance explained by every principal component as a percentage, for that we divide the value of every eigenvalue by the sum of all the eigenvalues, and multiply the result by 100. We proceed like this for every principal component.
In our “Iris” exercise we can write two columns, one for the explained variance and the other for the cumulative variance:
We´ve been talking about how to use the PCs, and how to reconstruct the original spectrum from its PC scores and the eigenvectors. After this we compared the reconstructed spectrum to the original one to get a residual value:
Residual (R) = Spectrum original – Spectrum reconstructed
If the PCs space represent the 100% of the variance of the training set, then the residual would be zero for the training set samples, but this is not the case.
The variance for the residual spectrum is:
Vr = RT.R
This variance can be used as an indicator if a sample belongs to a spectra population. This is the method known as “Residual Variance”.
Los estadísticos para comparar poblaciones (comolos test “t” y “F”) son de gran utilidad a la hora de comprobar si existen diferencias significativas entre ellas. Existen varias aplicacionesdonde utilizarlas en espectroscopia, y pondré como ejemplo dos de ellas. (1) Comparación de los resultados predichos por un espectrofotómetro respecto al método de referencia. (2) Comparación de los resultados de los valores predichos por un NIR estandarizado respecto al NIR Master de la RED, para ver si presenta algún problema o necesita ser de nuevo estandarizado.
El test “t” compara la media aritmética entre dos poblaciones por medio de una fórmula que cambia en función de si el test lo hacemos para una o dos colas, y de si las varianzas de las poblaciones sonestadísticamente iguales o diferentes (lo que se determina con el test “F”), o de si los datos son emparejados o no (en los ejemplos que yo os he puesto serían emparejados). Con la fórmula obtenemos un valor de “t” experimental, que se compara con el de unas tablas en función del nivel de confianza y de los grados de libertad.
Como hipótesis nula H0 se toma la de que no existen diferencias significativas entre las dos medias para el nivel de confianza seleccionado, esto será verdad siempre que:
texp < ttab..
De no ser así, existen diferencias significativas que nos indican de que tenemos que tomar alguna decisión.
Excel tiene fórmulas para desarrollar estos trabajos, pero mi idea es desarrollar algún tipo de calculadora en Excel para este tipo de tareas. Os iré informando. Para realizarlo en Excel existen buenos videos en YouTube, os adjunto uno de ellos en Ingés, pero es facil de seguir.
Seguro que encuentras una que te sea fácil de recordar. Sure you will find a favourite one.
Cálculo de la Matriz Inversa:
Calculation of the inverse matrix.
Primero debemos hacernos la pregunta:¿Existe la matriz inversa de esa matriz? First the question should de. It does exists the inverse of this matrix?
La respuesta puede ser: Answer can be:
NO: Podemos encontrar un vector diferente de cero que multiplicado por la matriz nos da como resultado cero. We can find a vector diferent from cero, that multiplied by the matrix give a cero result.
SI: Podemos encontrar la matriz (A-1) que multiplicada por A nos da como resultado la matriz identidad. We can find a matrix (A-1) that multiplied by A, give the identity matrix as result.
Formas de encontrar la matriz inversa. Ways to find the inverse matrix.
Reconocimiento a esta Academia, por su gran labor divulgativa.
Congratulations to this Academy for their great educational labor.
NIR-Quimiometría aprovecha todo lo que Internet pueda ofrecer para fomentar la base que nos ayude a entender el complejo mundo de la Quimiometría, es decir, del Algebra, Trigonometría,…..Así que cuando pueda ser necesario haremos vínculos e esta Academia. He puesto el primero en la entrada: “ Distancia euclidiana_002” para que se respondan a ciertas prácticas.
Fijemonos en la matriz P ( de eigenvectors) de la entrada anterior. Presenta ciertas peculiaridades:
Es simétrica, porque es igual a su transpuesta.
Es ortogonal, porque al multiplicarla por su transpuesta es igual a la matriz identidad. Si os dais cuenta es la misma condición que el de una matriz multiplicada por su inversa (ver video Matriz inversa en Excel), por tanto en estos casos como ya se comentó en la entrada anterior la matriz transpuesta y la inversa coinciden.
Look at the eigenvectors matrix of the previous input. It presents some peculiarities:
It is symmetric, because it is equal to their transpose.
It is orthogonal, because this matrix multiplied by their transpose is equal to the identity matrix. You can realize that it is the same condition that for a matrix multiplied by their inverse, so in this cases the inverse and the transpose are the same as I explaine in the input before this one.
Fijemonos en los eigenvalues, cual es el mayor: el 2 que representa una varianza de 3,64. Por tanto el "Eigenvector 2" representa al componente principal 1 (CP1). El otro componente principal (el CP2), esta representado por el "Eigenvector 1" que tiene un "Eigenvalue 1" de 0,14. Entre los dos componentes principales representan el 100% de la varianza que se representa en un plano. La varianza total no ha cambiado respecto a los datos originales, únicamente la varianza explicada por cada nueva variable ha cambiado, pero en total suman lo mismo (3,78).
The eigenvalue that justify the higher percentage of variability in the data is "Eigenvalue 2" with a variance of 3,64. So the first principal component (PC1) is represented by the "Eigenvalue 2". The other principal component (PC2) is represented by "Eigenvector 1" with an "Eigenvalue 1" of 0,14. Both eigenvalues added are the 100% of the variance (a plane).The total variance did not change respect to the original data, simply the variance explained by every of the new axis has changed, but added they give the same (3,78).