R & Chemometrics: idrc2010_shootout (1ª Parte)

1 dic 2010

idrc2010_shootout (1ª Parte)

Este año se celebró la International Diffuse Reflectance Conference ( se celebra cada dos años), y en ella se llevó a cabo un interesante concurso. Los quimiómetras que se presentaron, disponían de 3 conjuntos de datos (calibration, validation and test sets) de espectros de muestras de sangre (en transmisión y reflectancia) . Los conjuntos de calibración y validación tenían datos de laboratorio y tenían algo de trampa (redundancia). El conjunto de test no disponía de datos de laboratorio y el modelo que mejor predijera la hemoglobina, sería el ganador. Para que el conjunto de test fuese bien predicho era importante que la ecuación fuese robusta.

Cada quimiometra utilizó diferentes algoritmos de mayor o menor complejidad, con resultados similares, pero se concedieron un primer, segundo y tercer puesto.

Los resultados:
1st Place - Pierre Dardenne
2nd Place - Mark Westerhaus
3rd Place - David Honigs

Si quieres intentarlo dispones de los ficheros en esta página Web, descárgalos y ya nos contarás.
http://www.idrc-chambersburg.org/shootout2010.html

Para transmisión (solo se evaluó la hemoglobina): Los estadísticos de RMSEP para el "test set" estaban entre 0.4 y 0.5, con pendientes entre 1,00 y 1,10.

Para reflectancia (solo se evaluó la hemoglobina) los errores RMSEP y SEP fueron inferiores a 0,4 para el caso del 1º puesto (con una pendiente de practicamente 1.0), y de entre 0.4 y 0.5 para el resto (con pendientes entre1.0 y 1.05).

Decir que el ganador usó MLR. Todos los participantes, tuvieron muy en cuenta la exclusión de las bandas de agua del modelo.

-------------------------------------------------------------------------------------------------------------

Me he descargado los ficheros de NSAS, que se pueden convertir posteriormente a ficheros CAL (para usar en Win ISI), o se pueden importar a un proyecto de VISION. Desafortunadamente el fichero de Test viene sin los datos de laboratorio.

No obstante, estos conjuntos de datos son un Tutorial estupendo, para mejorar nuestra sistemática al ponernos a desarrollar ecuaciones.

La primera recomendación es la de estudiar los conjuntos de datos (CAL, VAL y TEST).

-------------------------------------------------------------------------------------------------------------

En una de mis consultas a ISI, Mark Westerhaus me recomendó siempre ordenar los ficheros CAL de algún modo para trabajar con ellos:

Por el valor de los diferentes constituyentes (ordenados por composición química).
Por valores de GH (ordenados por composición espectral).

Al ordenar estas bases de datos, por composición química (por ejemplo del colesterol), podemos comprobar que hay duplicados e incluso triplicados de muchas de las muestras, aún teniendo diferente identificación. De no darse cuenta de esto, seria un grave error el realizar la calibración de una manera rutinaria, ya que la validación cruzada se realizaría con muestras duplicadas.

Una de las preguntas en este caso es que hacer con los duplicados ( asegurándose de que el RMS no sea cero, lo que significaría que se trata del mismo espectro). Tom Fearn trata en uno de sius artículos en la columna de Quimiometría de NIR News acerca de los duplicados y que hacer con ellos.

Una de las opciones sería el promediarlos e incluirlos como una única muestra. Otra de las opciones sería la de utilizarlos en un fichero de repetibilidad. Otra el quitarlos, pero ya que los tenemos,esta no es la mejor opción y estudiarlos para comprobar la heterogeneidad de la muestra o la repetibilidad de los resultados, para las diferentes submuestras, o para la misma muestra en condiciones diferentes (días distintos, temperaturas distintas, frescas, después de ser descongeladas,...., etc).

Cuando no conocemos los "data sets", puede que tengamos también duplicados en los conjuntos de validación, o peor que duplicados de muestras estén en el de validación por un lado y de calibración por el otro. En este caso ya no hablamos de lotes, sino de personas que se han hecho análisis de sangre y se pretende realizar una calibración para predecir la hemoglobina, el azúcar y el colesterol.

CONTINUARA .............................

R & Chemometrics

1 dic 2010

idrc2010_shootout (1ª Parte)

No hay comentarios:

Publicar un comentario