R & Chemometrics: Shoot-out

Mostrando entradas con la etiqueta Shoot-out. Mostrar todas las entradas

11 nov 2011

Shoot-out 2008_parte 006

Al igual que en las entradas previas, desarrollo la calibración con el software VISION, los tratamientos usados anteriormente no dan tan buenos estadísticos y en esta ocasión funciona mejor el tratamiento de 2ª derivada, para los mismos segmentos espectrales.

Same as previous posts, I have developed the calibration with another software (VISION), here the same math treatment an wavelengths regions as in the others, does not give the same statistics (a little bit worse), but the the 2º derivative gives a SEP similar.

Estadísticos de calibración / Calibration Statistics:

Para no tener overfitting VISION utiliza el estadístico PRESS, del que hablaremos proximamente:

To avoid overfitting VISION use the PRESS Statistic (We will talk about it soon)

Validamos con el conjunto de validación de la Campaña del 99, obteniendo:

Validation with the validation set.

El error de predicción SEP es de 0,1799.

The Standard Error of Prediction is: SEP = 0,1799

Visión nos dá los de Bias Pendiente e Intercepto y nos dice que en caso de ajuste el SEP bajaría a 0,1626. No obstante esto se debe ignorar.

Proximamente probaremos con Matlab y Unscrambrer para dar una evaluación general de los estadísticos de este parámetro.

5 nov 2011

Shoot-out 2008_parte 005

En Shoot-out 2008_parte 004 usamos una ecuación PLS, vamos a probar que pasa con las LOCAL. ¿Mejorará la predicción?.
In Shoot-out 2008_parte 004 we used PLS to develop the equation, now we are to deveop the equation with LOCAL. Will it improve the predictions?.
Minimun number of samples: We can use 75.
Maximun number of samples: We will use Batch Mode (100, 150, 200, 250, 300 and 350).

SEP values are quite similar with 200, 250, 300 and 350.
We can select 200 for our LOCAL model.
Now we have to find the best configuration for "minimun & Máximun numder of factors". Wé will check all along the allowed values (minimun 1, maximun 50):

The best combination found was: Min = 5, Max = 27

We used SNV-Detrend 1-4-4-1 as Math treatment which it seems to work quite well for this product.

For some reasons (can be explained in a near future if comment are added) when put it into routine statistics change a little bit, and this are the values that we will compare with the other models.

4 nov 2011

Shoot-out 2008_parte 004

Desarrollando la ecuación (para proteína).
Developing the equation (for protein).

Modified PLS Regression Statistics

Input File…………………………………… FRED2008.CAL

Validation File……………………………. fred99a.cal

Math Treatment ………………………. 1, 4, 4, 1

Number of variables………………….. 768

Scatter Corr. ……………………………. SNV and Detrend

Downweight outliers…………………. No

Constituent …………………………….... WHTPRO

Number of samples……………………. 774

Mean ………………………………………..13.670

Range………………………………………….10.00 - 17.00

Std Dev……………………………………….. 1.367

CALIBRACIÓN					VALIDACIÓN
Terms	SEC	RSQ	SECV	1-VR	SEV	BIAS	SEV(C)
15	0.160	0.986	0.180	0.983	0.179	0.038	0.176

El RPD para la validación es:

RPD = 1,536 : 0,179 = 8.58

28 oct 2011

Shoot-out 2008_parte 003

Se han actualizado las entradas previas de Shoot-out 2008 (001 y 002) con nueva documentación.

El objetivo del Shoot-out 2008 era desarrollar la mejor calibración posible para diferentes parámetros, entre ellos uno de los que mejores resultados proporciona para la técnica NIR, la proteína, pero también de otros parámetros de tipo físico y reológico.

Para validar la ecuación, se dispone de un conjunto independiente, pues se han dejado los resultados de una campaña fuera (la de 1999).

Iremos incluyendo diferentes entradas sobre este Shoot-out 2008, a modo de ejercicio para ver los diferentes métodos de calibración (globales, locales, redes neuronales,...,etc). y con diferentes software (Win ISI, Vision, Matlab, Unscrambler,...).

Como es lógico realizamos un análisis de PCAs, para comprobar la existencia de anómalos, grupos,...Debido a los problemas que hemos visto en las entradas anteriores, y también a la variedad de clases de trigo, y otras fuentes de varianza, el programa selecciona un número elevado de componentes principales y determina que la muestra 70, es anómala. Si observamos las proyecciones de las muestras sobre los componentes principales, podemos determinar el que componente la muestra es anómala.

Sobre el PC 23.
La muestra se va respecto al límite de desviación estándar fijado.

Se pueden probar diferentes tratamientos matemáticos, para ver si la "muestra 70" no sale como anómala, pero en los probados siempre sale y con un valor bastante alto, por lo que se decide excluirla de la calibración.

6 oct 2011

Shoot-out 2008_parte 002

Ya hemos comentado que es importante mirar al espectro con detalle antes de proceder al desarrollo de una calibración.

La primera gráfica muestra los espectros promedio de las diferentes campañas (con tratamiento SNV), y se observan tres agrupamientos:

Las campañas 2004 y 2005 (en verde) se separan del resto más claramente.

las campañas 1998, 1999, 2000, 2001 y 2003 tienen espectros más parecidos (en negro).

La campaña del 2002 se aparta también de los otros dos grupos (en rojo).

Mirando las fechas en que fueron analizadas las muestras, encontramos que:

	Analizada en:
1998	Marzo	2004
1999	Marzo	2004
2000	Marzo	2004
2001	Marzo	2004
2002	Enero	2004
2003	Febrero	2004
2004	Febrero	2005
2005	Enero-Febrero	2006

Esto nos puede indicar que estos cambios espectrales en la zona del visible pueden ir asociados a cambios en el equipo NIR (algún problema en el equipo) , o a cambios asociados a la presentación de la muestra.

En el siguiente figura (con 2ª derivada), en la zona NIR también se observan separaciones, aunque no tan claras de los tres grupos comentados.

Las separaciones son más claras para las campañas 2004 y 2005, como ya se vió en Shoot-Out 2008_parte 001, que por otra parte tienen un intervalo de tiempo mayor entre los análisis que el resto de las campañas, que analizaron en un intervalo más corto de tiempo. Esto nos indica que ha habido una serie de cambios probablemente en el equipo NIR o en el modo de presentyar la muestra en ese periodo de tiempo.

Otra peculariedad observada es al poner el espectro en 4ª derivada con un segmento de 1, la zona de un cambio de filtro (a 790 nm aprox.) que es sensible a la temperatura del equipo y a las condiciones mecánicas del mismo. También podemos observar los tres grupos, con lo que se confirma que el equipo pudo haber cambiado en el periodo de tiempo en el que se analizaron las muestras, manteniendose más estable entre el periodo de análisis de las muestras de las Campañas 2004 y 2005.

Esta parte espectral no coincide con ninguna banda de interés en lo que a los constituyentes se refiere.
Estas variaciones se observan, no obstante es otras zonas espectrales, siempre relacionadas con los tres grupos.

El la parte de arriba (en negro) de marca la forma espectral (4,1,1,1) de los espectros de las Campañas 1998,1999, 2000, 2001 y 2003.
El el medio la de los espectros de la campaña 2002.
Debajo la de los espectros de las campañas 2004 y 2005.

También tenemos que tener en cuenta el cambio de detector que se produce a 1100 nm, pasando de un detector de Silicio (400 a 1100 nm) a otro de Sulfuro de Plomo (1100 a 2500 nm). Los equipos estan bien ajustados para que el cambio apenas se aprecie pero se puede excluir de la calibración algunos nanometros entorno a 1100 nm, donde tampoco hay absorciones de interés.

Si tratamos los espectros en Unscrambler con la Norris Derivative, también se observan las zonas que hemos comentado.

29 sept 2011

Shoot-out 2008_parte 001

En un artículo de la revista NIR News, Karl Norris (Vol. 20 No.3 April 2009) hace un estudio espectral de las muestras (de trigo) de varias campañas, llegando a conclusiones muy interesantes que vamos a ir analizando a modo de un nuevo ejercicio con la etiqueta de Shoot-out 2008.

Una de las observaciones, es que se produjeron cambios espectrales importantes en las dos últimas campañas analizadas respecto a las anteriores.

La técnica de componentes principales ya nos muestra que esto es así, en los primeros componentes como se muestra en la figura:

En el cálculo de componentes principales, no se consideró la zona de 400 a 1100 nm, en la que se observan diferencias claras en la forma espectral de las campañas 2004 y 2005 respecto al resto. No obstante la diferencia acusada en el equipo debido a problemas del equipo o en la presentación de la muestra en el espacio de tiempo entre los análisis de las diferentes campañas no solo se acusa en el rango visible, también se observa en la zona NIR.

Ver Shoot-Out 2008_parte 002

Podéis descargar el fichero de:

CNIRS_Shoot-out 2008

Podéis descargar ficheros y documentación muy interesante, para a modo de ejercicio organizar los datos y sacar conclusiones.

Seguiremos con este tema en el blog y con información adicional en Win ISI World.

1 dic 2010

idrc2010_shootout (1ª Parte)

Este año se celebró la International Diffuse Reflectance Conference ( se celebra cada dos años), y en ella se llevó a cabo un interesante concurso. Los quimiómetras que se presentaron, disponían de 3 conjuntos de datos (calibration, validation and test sets) de espectros de muestras de sangre (en transmisión y reflectancia) . Los conjuntos de calibración y validación tenían datos de laboratorio y tenían algo de trampa (redundancia). El conjunto de test no disponía de datos de laboratorio y el modelo que mejor predijera la hemoglobina, sería el ganador. Para que el conjunto de test fuese bien predicho era importante que la ecuación fuese robusta.

Cada quimiometra utilizó diferentes algoritmos de mayor o menor complejidad, con resultados similares, pero se concedieron un primer, segundo y tercer puesto.

Los resultados:
1st Place - Pierre Dardenne
2nd Place - Mark Westerhaus
3rd Place - David Honigs

Si quieres intentarlo dispones de los ficheros en esta página Web, descárgalos y ya nos contarás.
http://www.idrc-chambersburg.org/shootout2010.html

Para transmisión (solo se evaluó la hemoglobina): Los estadísticos de RMSEP para el "test set" estaban entre 0.4 y 0.5, con pendientes entre 1,00 y 1,10.

Para reflectancia (solo se evaluó la hemoglobina) los errores RMSEP y SEP fueron inferiores a 0,4 para el caso del 1º puesto (con una pendiente de practicamente 1.0), y de entre 0.4 y 0.5 para el resto (con pendientes entre1.0 y 1.05).

Decir que el ganador usó MLR. Todos los participantes, tuvieron muy en cuenta la exclusión de las bandas de agua del modelo.

-------------------------------------------------------------------------------------------------------------

Me he descargado los ficheros de NSAS, que se pueden convertir posteriormente a ficheros CAL (para usar en Win ISI), o se pueden importar a un proyecto de VISION. Desafortunadamente el fichero de Test viene sin los datos de laboratorio.

No obstante, estos conjuntos de datos son un Tutorial estupendo, para mejorar nuestra sistemática al ponernos a desarrollar ecuaciones.

La primera recomendación es la de estudiar los conjuntos de datos (CAL, VAL y TEST).

-------------------------------------------------------------------------------------------------------------

En una de mis consultas a ISI, Mark Westerhaus me recomendó siempre ordenar los ficheros CAL de algún modo para trabajar con ellos:

Por el valor de los diferentes constituyentes (ordenados por composición química).
Por valores de GH (ordenados por composición espectral).

Al ordenar estas bases de datos, por composición química (por ejemplo del colesterol), podemos comprobar que hay duplicados e incluso triplicados de muchas de las muestras, aún teniendo diferente identificación. De no darse cuenta de esto, seria un grave error el realizar la calibración de una manera rutinaria, ya que la validación cruzada se realizaría con muestras duplicadas.

Una de las preguntas en este caso es que hacer con los duplicados ( asegurándose de que el RMS no sea cero, lo que significaría que se trata del mismo espectro). Tom Fearn trata en uno de sius artículos en la columna de Quimiometría de NIR News acerca de los duplicados y que hacer con ellos.

Una de las opciones sería el promediarlos e incluirlos como una única muestra. Otra de las opciones sería la de utilizarlos en un fichero de repetibilidad. Otra el quitarlos, pero ya que los tenemos,esta no es la mejor opción y estudiarlos para comprobar la heterogeneidad de la muestra o la repetibilidad de los resultados, para las diferentes submuestras, o para la misma muestra en condiciones diferentes (días distintos, temperaturas distintas, frescas, después de ser descongeladas,...., etc).

Cuando no conocemos los "data sets", puede que tengamos también duplicados en los conjuntos de validación, o peor que duplicados de muestras estén en el de validación por un lado y de calibración por el otro. En este caso ya no hablamos de lotes, sino de personas que se han hecho análisis de sangre y se pretende realizar una calibración para predecir la hemoglobina, el azúcar y el colesterol.

CONTINUARA .............................