R & Chemometrics: noviembre 2011

30 nov 2011

Distancia de Mahalanobis_review 005

En una de las primeros posts sobre "Distancia de Mahalanobis", vimos la formula del cálculo de la distancia entre dos puntos en el espacio de componentes principales. Podemos considerar esto aplicado a algunos softwares como la manera de calcular la distancia de una muestra respecto a las otras del grupo. En el caso de la muestra más cercana, se tratará de su vecino mas próximo. Win ISI expresa este valor como NH.

Sin embargo si queremos conocer la distancia entre una muestra y el centro de la población, una de las muestras (el espectro medio) tiene como valor cero y la fórmula vista en el gráfico de la entrada anteriormente comentada cambia.

Estos días surgió una pregunta sobre este tema en el NIR Forum y Pierre Dardenne, adjunto una hoja Excel, donde se muestra que este cálculo lo aplica Win ISI para el cálculo de la GH.

Volveremos sobre este tema, pues me interesa bastante y mi idea es tratar de representarlo en un próximo vídeo.

Unscrambler: PLS Regression (Part 3)

En Unscrambler podemos marcar las muestras anómalas y recalcular sin ellas. Hacemos esto sin las muestras que comentamos anteriormente.
Las cosas cambian, ahora solo dos términos son necesarios para explicar la mayoría de la varianza. se observan también agrupaciones en función del valor de número de octano.

Se observan también agrupaciones en función del valor de número de octano.

Los estadísticos de validación "leverage" para la regresión son:

1º Cumpleaños de NIR-Quimiometría

Este 1 de Diciembre de 2011, se puede considerar como el primer cumpleaños de este Blog. Los resultados son bastante satisfactorios y por supuesto me animan a continuar este próximo 2012.
Aprovecho este comentario para saludar a todos los visitantes asiduos, de todos los países (España, U.S.A, toda América Latina, Europa, Rusia,.....).
Gracias a los "followers" (Blog, twitter, canal de youtube,....).
Estas son las visitas recibidas mas numerosas, que junto a otras completan las casi 10200 a día de hoy.

29 nov 2011

Unscrambler: PLS Regression (part 2)

Después de desarrollar la regresión PLS, debemos fijarnos en el gráfico de Varianza Explicada o Varianza residual (depende del que más nos guste). En el caso de la varianza explicada, lo normal es que aumente en función de los términos que vayamos añadiendo. No olvidemos que este cálculo lo realiza con el método de validación que hayamos elegido (leverage o cross validation). En este caso estamos usando leverage.

Continuar leyendo / Continue reading

27 nov 2011

NASA: Lanzamiento de Curiosity

Increible y espectacular Misión de la NASA en Marte, esperemos que todo salga según los planes previstos que son realmente espectaculares.

Parece el trailer de una película de ciencia ficción, pero son los planes que tiene la NASA para el aterrizaje de Curiosity en Marte.

Otros videos interesantes:

Laboratorio donde se construyó Curiosity

26 nov 2011

Unscrambler: PLS Regression (Part 1)

Ya os he comentado la imprescindible ayuda que proporciona el libro "Multivariate Data Analysis - in practice" del Kim H. Esbensen para iniciarte en la práctica de Unscrambler. Lo hemos estado haciendo en la serie "Repasando Unscrambler" con datos espectroscópicos de espectros de gasolina.

Esta serie de espectros los estudia también A.M.C. Davies en la Tony Davies Column en tres artículos:

The value of pictures 10/4 (1998).

More pictures from PLS regression analysis 10/6 (1998).

Uncertainty testing in PLS regression 13/2 (2001).

Podéis encontrarlos y descargarlos en Spectroscopy Europe.

En ellos comenta la importancia de mirar a los gráficos que se generan y no simplemente a los ya conocidos X-Y plot, así como a estadísticos como el RSQ y SEP.

También comenta en estos artículos, un comentario de Ian Cowe, que realmente debemos de tener en cuenta "What we (chemometricians) do is mainly to look at the pictures".

Es importante por tanto, para nosotros que tratamos de introducirnos y profundizar en lo posible en este complejo mundo de la quimiometría de interpretar y entender los gráficos que se generan con el proceso de calibración y no solo quedarnos con el resultado final.

Hemos estado trabajando con los espectros con los análisis PCA, y ahora lo haremos con la regresión PLS1.

En la regresión se recomiendan usar 3 factores, por lo que podemos ver mapas de dos dimensiones:

Term 1 vs Term 2

Term 1 vs Term 3

Term 2 vs Term 3

Observemos el 1 vs 2:

Volvemos a encontrar las muestras M52 y H59, que son las dos muestras aditivadas.

Estas muestras en el gráfico de influencia (usando los tres términos) y en el eje de varianza residual Y, muestran un valor practicamente de cero:

Teniendo la H59 una gran influencia sobre el modelo.

Sin quitar ninguna muestra y con los tres factores PLS, el gráfico X-Y es:

25 nov 2011

Repasando Unscrambler - 006 (Sample Residuals)

En Unscrambler podemos ver los residuales espectrales para cada muestra a medida que se añaden PCs. No olvidemos que partimos de las muestra centrada.

Observemos (de izquierda a derecha y de arriba a abajo) los residuales espectrales a medida que se añaden PCs. El primer gráfico es de la muestra centrada, el 2º el residual con 1 PC, el 3º con 2 PCs, el 4º con 3 PCs (el recomendado por el modelo) y el 5º con 4 PCs (uno más del recomendado con lo que podiamos entrar en problemas de overfitting).

Continuar leyendo / Continue reading

24 nov 2011

Win ISI 4.4 (New update available)

You can download a new version of Win ISI 4 (4.4) that fix the bugs reported in Win ISI 4.3

Os podéis descargar la nueva actualización de Win ISI 4 (la 4.4) que soluciona los problemas reportados en la versión 4.3.

http://www.winisi.com/

WinISI version 4.4.0.13316 Update

November 11, 2011

WinISI 4.4 update includes a new discriminate technique. The algorithm is maximum X-residual and it is fully supported in ISIscan version 4.4.

The maximum X-residual models are saved in files with the extension .DC5. This discriminate techique joins the original 2-block PLS, maximim distance, correlation, Mahalanobis distance, and X-residual methods for maximum flexibility in designing your discriminate analytical system.

WinISI 4.4 update also includes some bug fixes and minor enhancements.

WinISI 4.4 is available as a free upgrade to all licensed users of WinISI 4.

If you want to use the new discriminant method DC5, you need to download the ISI Scan 4.4 also in the Win ISI web page.

Dont forget to make a copy of the DATA folder or a Backup before to update, just in case there are any problems to come back to the previous version.

23 nov 2011

Repasando Unscrambler - 005 (X- Loadings)

Hemos visto en 001, los espectros y en que zonas había una mayor varianza, con los márgenes de desviación estándar y los cuartiles. Como sabemos al calcular los componentes principales,, calculamos los "loadings" (la ya varias veces comentada Matriz "P"). Estos Loadings son espectros que nos servirán para reconstruir otros espectros. Disponemos de tantos loadings como PCs, y en el ejemplo que estamos desarrollando en este repaso, la recomendación es de 3 PCs.

El primer PC, esta relacionado con la mayor fuente de varianza espectral, una vez extraida esta varianza, se calculan los demás extrayendo las demas fuentes de varianza,...
Observar estos Loadings requiere un cierto conocimiento de espectroscopía (donde están las bandas de los diferentes analitos, interferencias,.....).

Continuar leyendo / Continue reading

21 nov 2011

Repasando Unscrambler - 004 (Residual X - Leverage)

Este gráfico es de gran importancia, a la hora de determinar si descartamos muestras como anómalas o las mantenemos. Algunas muestras tienen un alto residual y separan del resto de muestras, pero pueden hacerlo de distinta forma. Pongamos un simple ejemplo.

Una serie de muestras se describen perfectamente con dos componentes principales, que como sabemos describen un plano. Sus proyecciones sobre dicho plano serán mas o menos pequeñas en función de su residual X, pudiendo caer sobre el mismo plano, en cuyo caso su residual sería cero. En el caso de que alguna muestra, tenga un alto residual y su proyección sobre el plano sea muy grande, dicha muestra es un anómalo por alto residual y es muy probable que tengamos que descartar dicha muestra.

Por otra parte puede haber muestras con un residual, pequeño, pero que se aparta del resto de muestras considerablemente, esta muestra se considera de gran influencia en el modelo y tiene un gran peso al describir los componentes principales. En este caso debemos de considerar el mantenerla previo estudio de la muestra (¿pertenece a la misma población?, ¿es una muestra con una concentración de analito alta?,....).

Puede ocurrir el caso en que la muestra tenga un alto residual, así como una alta influencia.

Para el ejemplo que estamos viendo en la serie "repasando unscrambler", el gráfico "Residual X vs Leverage" es:

El gráfico de barras nos muestra los residuales de validación en rojo para cada una de las muestras. Claramente destacan los de las muestras M52 (penúltimo) y H59 (último).Vemos que la muestra H59, tiene un menor residual en el modelo final (azul), pero un alto residual en el de validación, pero esto tiene su lógica, porque hemos utilizado la validación cruzada (leave one out), y cuando esta muestra esta en el grupo de validación, no hay ninguna como ella en el de calibración y el residual de validación es muy alto.

19 nov 2011

Repasando Unscrambler - 003

Realizamos el análisis de Componentes Principales para una mejor comprensión de nuestra base de datos. Los gráficos de "varianza explicada" , nos indican que tres PCs son suficiente para explicar la variabilidad de nuestros espectros.

Continuar leyendo / Continue reading

Repasando Unscrambler - 002

Una vez observados los datos de la matriz X (espectros), observaremos los de la matriz Y (valores de referencia), y para ello como ya hemos hecho en otras ocasiones la mejor opción es el histograma.

Continuar leyendo / Continue reading

18 nov 2011

Repasando Unscrambler - 001

A lo largo de una serie de entradas, iré repasando conceptos de Unscrambler para datos espectroscópicos. Existe un maravilloso libro "Multivariate Data Analysis - in practice" del profesor Kim H. Esbensen que es una guía perfecta para repasar algunos conceptos y meterse posteriormente en mas profundidad con otra serie de datos.

Continuar leyendo / Continue reading

14 nov 2011

Histogramas (Skewness - Kurtosis)

We have seen some of the statistics linked to the histograms, but these two (in this case given by Unscrambler) can be very usefull for a better understanding of our constituent database.

Skewness & Kurtosis

Wikipedia:
Skewness.....Asimetría
Kurtosis......Curtosis

11 nov 2011

Shoot-out 2008_parte 006

Al igual que en las entradas previas, desarrollo la calibración con el software VISION, los tratamientos usados anteriormente no dan tan buenos estadísticos y en esta ocasión funciona mejor el tratamiento de 2ª derivada, para los mismos segmentos espectrales.

Same as previous posts, I have developed the calibration with another software (VISION), here the same math treatment an wavelengths regions as in the others, does not give the same statistics (a little bit worse), but the the 2º derivative gives a SEP similar.

Estadísticos de calibración / Calibration Statistics:

Para no tener overfitting VISION utiliza el estadístico PRESS, del que hablaremos proximamente:

To avoid overfitting VISION use the PRESS Statistic (We will talk about it soon)

Validamos con el conjunto de validación de la Campaña del 99, obteniendo:

Validation with the validation set.

El error de predicción SEP es de 0,1799.

The Standard Error of Prediction is: SEP = 0,1799

Visión nos dá los de Bias Pendiente e Intercepto y nos dice que en caso de ajuste el SEP bajaría a 0,1626. No obstante esto se debe ignorar.

Proximamente probaremos con Matlab y Unscrambrer para dar una evaluación general de los estadísticos de este parámetro.

5 nov 2011

Shoot-out 2008_parte 005

En Shoot-out 2008_parte 004 usamos una ecuación PLS, vamos a probar que pasa con las LOCAL. ¿Mejorará la predicción?.
In Shoot-out 2008_parte 004 we used PLS to develop the equation, now we are to deveop the equation with LOCAL. Will it improve the predictions?.
Minimun number of samples: We can use 75.
Maximun number of samples: We will use Batch Mode (100, 150, 200, 250, 300 and 350).

SEP values are quite similar with 200, 250, 300 and 350.
We can select 200 for our LOCAL model.
Now we have to find the best configuration for "minimun & Máximun numder of factors". Wé will check all along the allowed values (minimun 1, maximun 50):

The best combination found was: Min = 5, Max = 27

We used SNV-Detrend 1-4-4-1 as Math treatment which it seems to work quite well for this product.

For some reasons (can be explained in a near future if comment are added) when put it into routine statistics change a little bit, and this are the values that we will compare with the other models.

4 nov 2011

Shoot-out 2008_parte 004

Desarrollando la ecuación (para proteína).
Developing the equation (for protein).

Modified PLS Regression Statistics

Input File…………………………………… FRED2008.CAL

Validation File……………………………. fred99a.cal

Math Treatment ………………………. 1, 4, 4, 1

Number of variables………………….. 768

Scatter Corr. ……………………………. SNV and Detrend

Downweight outliers…………………. No

Constituent …………………………….... WHTPRO

Number of samples……………………. 774

Mean ………………………………………..13.670

Range………………………………………….10.00 - 17.00

Std Dev……………………………………….. 1.367

CALIBRACIÓN					VALIDACIÓN
Terms	SEC	RSQ	SECV	1-VR	SEV	BIAS	SEV(C)
15	0.160	0.986	0.180	0.983	0.179	0.038	0.176

El RPD para la validación es:

RPD = 1,536 : 0,179 = 8.58