21 nov 2011

Repasando Unscrambler - 004 (Residual X - Leverage)

Este gráfico es de gran importancia, a la hora de determinar si descartamos muestras como anómalas o las mantenemos. Algunas muestras tienen un alto residual y separan del resto de muestras, pero pueden hacerlo de distinta forma. Pongamos un simple ejemplo.
Una serie de muestras se describen perfectamente con dos componentes principales, que como sabemos describen un plano. Sus proyecciones sobre dicho plano serán mas o menos pequeñas en función de su residual X, pudiendo caer sobre el mismo plano, en cuyo caso su residual sería cero. En el caso de que alguna muestra, tenga un alto residual y su proyección sobre el plano sea muy grande, dicha muestra es un anómalo por alto residual y es muy probable que tengamos que descartar dicha muestra.
Por otra parte puede haber muestras con un residual, pequeño, pero que se aparta del resto de muestras considerablemente, esta muestra se considera de gran influencia en el modelo y tiene un gran peso al describir los componentes principales. En este caso debemos de considerar el mantenerla previo estudio de la muestra (¿pertenece a la misma población?, ¿es una muestra con una concentración de analito alta?,....).
Puede ocurrir el caso en que la muestra tenga un alto residual, así como una alta influencia.
Para el ejemplo que estamos viendo en la serie "repasando unscrambler", el gráfico "Residual X vs Leverage" es:

El gráfico de barras nos muestra los residuales de validación en rojo para cada una de las muestras. Claramente destacan los de las muestras M52 (penúltimo) y H59 (último).Vemos que la muestra H59, tiene un menor residual en el modelo final (azul), pero un alto residual en el de validación, pero esto tiene su lógica, porque hemos utilizado la validación cruzada (leave one out), y cuando esta muestra esta en el grupo de validación, no hay ninguna como ella en el de calibración y el residual de validación es muy alto.


No hay comentarios:

Publicar un comentario