5 dic 2010

PCA (1ª Parte)

v  Se generará una base de datos con dos matrices: "Y" datos de Lab y "X" datos espectrales. (Una columna por parámetro y por longitud de onda).
v  Que correlacionen los datos espectrales con el dato de referencia es esencial para obtener un buen modelo predictivo.
v  La matriz espectral "X",la podemos representar en un espacio multidimensional (tantas dimensiones como long. de onda), como un punto.Se trata de una matriz NxM, donde N es el número de muestras y M el número de longitudes de onda.
v  Al representar los espectros de un mismo producto en este espacio, aparecerá una nube de puntos. En espectroscopía NIR tiene forma elipsoidal.
v  Cada espectro se representa como un vector que parte del centro del espacio multidimensional hasta el punto que lo representa en la nube.
v  CENTRADO: Es como representar multidimensionalmente los espectros restándole a cada uno el espectro medio.
v  Los espectros contienen información a muchas long. de onda, lo que complica la interpretación de estas nubes espectrales. Se debe comprimir.
v  Ademas, las columnas de la matriz X están correlacionadas, debido a que contienen información de sobretonos de las bandas fundamentales (sobretonos 1, 2),y a que la información de las longitudes de onda contiguas es similar. Todo esto hace mas necesaria la compresión de la matriz X. Hay que buscar nuevas variables no correlacionadas.
v  Desarrollaremos en los próximos puntos la manera de comprimir esta información por "Análisis de Componentes Principales", a los que denominaremos PCA.
v  Imaginemos una nube de puntos en 3D. Del centro de la nube parten los 3 ejes X1,X2,X3 correspondientes a 3 longitudes de onda (centrado).
v  Trazaremos una nueva variable PC1 combinación lineal de X1,X2,X3, que pase por el centroide en la dirección de la máxima varianza.
v  Este PC1 es un vector que explicará una determinada varianza (autovalor de PC1), lo que queda por explicar es la varianza residual.
v  La varianza explicada por PC1 (autovalor) se calcula sobre la proyección de los puntos de la nube sobre  PC1 y respecto al centroide.(Como sabemos, la varianza es la desviación estándar al cuadrado). Se puede expresar en %.(Ej.: 62%). No habrá ningún otro vector que explique más varianza que él. La varianza residual será el resto hasta el 100%, es decir el 38%.
v  El valor de esta variable para cualquier muestra en particular, se calcula proyectando el punto que la representa sobre este eje (perpendicularmente), siendo esta la distancia mas corta posible entre el punto y el nuevo eje. Al valor de este punto proyectado se le denomina "puntuación" o "score".
v  Se trazará un segundo componente principal PC2, ortogonal con el primero, que pase a su vez por el centroide y en la dirección que explique la máxima variabilidad residual que dejo el primer componente .Este componente PC2 formará un plano con PC1.Hay que tener en cuenta que podrémos trazar como máximo tantos componentes principales como variables originales. Se proyectarán de igual modo los puntos sobre este nuevo eje, calculando los “scores” y el autovalor.
v  Otro nuevo componente PC3, ortogonal con los otros dos, explicara el resto de la varianza que dejaron los otros dos, llegando entre los tres a explicar el 100%, ya que disponíamos de 3 variables originales. Otro nuevo componente PC3, ortogonal con los otros dos, explicara el resto de la varianza que dejaron los otros dos, llegando entre los tres a explicar el 100%, ya que disponíamos de 3 variables originales. Este nuevo componente formará junto a PC1 y PC2 dos nuevos planos.
v  La situación queda de modo que disponemos de un nuevo espacio dimensional, cuyo centroide coincide con el del espacio original una vez centrado. Se trata por tanto de una rotación de los ejes en nuevas direcciones, que van explicando de una manera ordenada (de mayor a menor) la varianza. Conocemos los ángulos que forman con los componentes originales pudiendo expresarlos como combinaciones lineales de ellos.
v  MAPAS DE “SCORES”: La representación de estos planos, en forma gráfica es lo que se conoce como “Mapas de Scores”, y nos ayudan a interpretar de una manera muy útil los datos. Hablaremos de ellos más adelante.
v  Los scores se representan en una nueva Matriz a la que llamaremos T, y en ella estarán representadas las muestras con sus valores de scores en las filas y las nuevas variables (componentes principales) en las columnas. Como se ha comentado anteriormente estas nuevas variables son ortogonales entre sí.
v  VECTOR DE “SCORES”: Se conoce como vector de scores a cada una de las columnas de la matriz de scores, que representan las proyecciones de las muestras sobre cada uno de  los componentes principales. Estos valores son en los que se fundamentan los cálculos de varianza para calcular los autovalores.
      
     Hacemos un paréntesis para aplicar lo hasta ahora visto a la espectroscopía NIR. 

No hay comentarios:

Publicar un comentario