4 jul 2011

Ejercicios: "IRIS" (2ª parte)

Fijemonos en los eigenvalues, cual es el mayor:  el 2 que representa una varianza de 3,64. Por tanto el "Eigenvector 2" representa al componente principal 1 (CP1). El otro componente principal (el CP2), esta representado por el "Eigenvector 1" que tiene un "Eigenvalue 1"  de 0,14. Entre los dos componentes principales representan el 100% de la varianza que se representa en un plano. La varianza total no ha cambiado respecto a los datos originales, únicamente la varianza explicada por cada nueva variable ha cambiado, pero en total suman lo mismo (3,78).
The eigenvalue that justify the higher percentage of variability in the data is "Eigenvalue 2" with a variance of 3,64. So the first principal component (PC1) is represented by the "Eigenvalue 2". The other principal component (PC2) is represented by "Eigenvector 1" with an "Eigenvalue 1" of  0,14. Both eigenvalues added are the 100% of the variance (a plane).The total variance did not change respect to the original data, simply the variance explained by every of the new axis has changed, but added they give the same (3,78).
 
Para hacer el cálculo de las nuevas coordenadas de los puntos respecto a los nuevos ejes (Componentes Principales), procedemos del siguiente modo.
We can proceed to do the calculations of the data respect to the new axes PC1, PC2, this way:
Disponemos de la Matriz con los "Eigenvectors" representados por filas, la llamaremos “P” :
We know the Matrix of  "Eigenvalues" ( in rows). Let´s call to this Matrix “P” :
-0.39
-0.92
-0.92
0.39

Multiplicamos esta matriz por la matriz centrada transpuesta de los datos originales (no se añaden todos los datos por espacio):
We multiply the "Eigenvalues matrix in rows"  by the transpose of the "mean centered original matrix" (X centered), (not all the table is represented  because it is too long).
-0.74
-0.94
-1.14
-1.24
-0.84
-0.44
-1.24
-0.84
-1.44
-0.94
-0.44
-1.04
-2.36
-2.36
-2.46
-2.26
-2.36
-2.06
-2.36
-2.26
-2.36
-2.26
-2.26
-2.16

El resultado son las nuevas coordenadas de las muestras vistas en la parte primera y la llamaremos Matriz “T” o de “puntuaciones”.
The results are the new coordinates of the samples shown in the first part.We will call this matrix: “T” or “score matrix”.
2.46
2.54
2.71
2.56
2.50
2.07
2.65
2.41
2.73
2.45
2.25
2.39
-0.24
-0.06
0.09
0.26
-0.15
-0.40
0.22
-0.11
0.40
-0.02
-0.48
0.11

 Si calculamos las varianzas de la tabla, veremos que coinciden con los valores de los "Eigenvalues".
If we calculate the variances of the table we can see that are the same that the "eigenvalues"
No hemos hecho otra cosa que girar los ejes de coordenadas de X, Y a PC1, PC2.
We have turn the axes from X,Y to PC1, PC2.
Podemos ver en Excel el diagrama de dispersión de la nueva tabla de valores.
We can see in Excel the scatter plot of the new data.


Que hemos hecho hasta ahora:
Disponemos de una tabla de datos original (Matriz X).
Centramos esta matriz, teniendo la Matriz X centrada (los datos en filas).
Disponemos de la matriz de “eigenvectors” dispuestos en filas a la que llamamos P.
Hemos calculado  T =  P. X centrada

What have we done until now:
We have an original data table (X Matrix).
We centered X having the Matrix X centrada (data in rows)
We have the matrix with the “eigenvectors” in rows, we call this matrix P.
We have calculated:   T =  P. X centrada


Partiendo de la última fórmula (T =  P. X centrada), siempre podemos (conociendo P y T), volver a calcular la Xcentrada , de modo que:
Xcentrada = T : P = P-1 . T

Curiosamente en el caso de la matriz de eigenvectors (P), la inversa coincide con la transpuesta (en el caso de cojerlos todos) , por lo que:
Xcentrada = PT . T

Si quisieramos obtener la Matriz original X, en vez de la centrada, le tendríamos que sumar la media:
X = PT . T + Media

En el caso de no tomar todos los eigenvalues, dejando los menos relevantes, introducimos una matriz de error (E) , pero se considera la misma fórmula.

From the last formula (T =  P. X centrada), we always can  (knowing P and T) calculate Xcentrada , this way:
Xcentrada = T : P = P-1 . T

In the case of the P matrix (if we select all the eigenvectors), the inverse and the transpose of this matrix are the same, so:
Xcentrada = PT . T

If we want to get the original matrix X, we have to add the mean, so:
X = PT . T + Mean

In the case, we select only the relevant  eigenvectors, we can apply the same formula, but being more exacts we add an error matrix (E).


¿Deseas la hoja Excel de datos para practicar?. Insertar comentarios para información.
Do you need the data to practice?. Insert comments how to get it.

No hay comentarios:

Publicar un comentario