31 ene 2011

Fórmula para el estadístico SEC

Todos sabemos que el estadístico SEC es optimista a la hora de interpretarlo como el error de predicción para muestras futuras de rutina y que debemos de considerar para ello otros errores de predicción como el SECV, el SEP, el SEV,..

Para su cálculo, lo haremos con la formula de la desviación estandar en la que perdemos un grado de libertad por usar el valor medio x_m para su cálculo (en el denominador N-1), siendo N el nº de muestras usado en la calibración, pero tambien perdemos un grado de libertad por cada uno de los términos o factores que utiliza la ecuación a los que denominaremos "p". Por tanto en una ecuación con 120 muestras y 11 términos o factores en el denominador tendremos N - p - 1, es decir 120 - 11 - 1, o lo que es lo mismo 108.

X_i = Residual (LAB – Predicho) El sumatorio nos indica que lo debemos hacer para todas las muestras.

X_m = Valor medio de los residuales.

N = nº de muestras

P = nº de términos

30 ene 2011

Distancia de Mahalanobis (3)_rev.0

En las siguientes tablas se muestran los valores de absorción de varias muestras en un espectro NIR.

Se eligieron seis longitudes de onda de las mas de mil posibles, debajo de la tabla de absorciones, esta una fila con la desviación estándar de cada columna y la varianza (marcada en amarillo). Se calculó la matriz de covarianzas, en la que podemos observar que se trata de una matriz cuadrada, y además simétrica (ver la sección de matrices), siendo los valores de su diagonal los valores de la varianza.

Las matrices de covarianzas en el caso de la espectroscopia NIR, pueden llegar a ser de 1050 x 1050, lo que indica ya de por sí lo complejo de realizar la matriz de covarianzas, pero la matriz inversa es practicamente imposible, dado que las variables están muy correlacionadas unas con otras y que la variabilidad cae en un espacio de menores dimensiones, pudiendo darse el caso de que fuese imposible de realizar o que fuese muy inestable [1].

(En el video "Matriz inversa y determinantes en Excel" , se muestra el caso en que no es posible el cálculo de la Matriz Inversa).

La solución es reducir el espacio a uno nuevo determinado por los componentes principales. Hay softwares que normalizan los scores de cada componente principal, haciendo que el valor de la varianza sea la misma para todos los componentes principales, esto hace que la idea del elipsoide (que seria en el caso de no estar normalizada), la debamos cambiar por una esfera. Esto no implica que en el caso de comparar el punto A y B en el gráfico comparativo entre la distancia Euclidiana y de Mahalanobis de la entrada anterior, "A" quede dentro, pues en la nueva escala, al aplicar la normalización, quedará aun más alejado, quedando fuera de los límites de la esfera.

La distancia de un punto al centroide se mide por unidades de Mahalanobis ("D" en la fórmula) , y diremos que el punto está a 1, 2,.., unidades de distancia de Mahalanobis.

Win ISI hace una normalización al calcular la distancia de Mahalanobis (H), para ello divide cada una de las distancias individuales de cada muestra por el valor medio de las H de todas, lo que remueve las singularidades de cada fichero, pudiendo usar la misma escala independientemente del fichero utilizado. Si la muestra es mayor de 3 unidades H estandarizadas (GH), la muestra se considera anómala, pudiendo tener falta de exactitud en las predicciones [2].

Hay diferentes variantes de la Distancia de Mahalanobis que trataremos en futuras entradas o en la actualización de las existentes.

En un espacio multidimensional existirán tantos elipdoides como productos representemos en la base de datos, esos productos pueden estar lo suficientemente aislados, tener solapamientos (si los productos son similares),etc. Estas elipsoides tendran un umbral de corte que especificaremos (normalmente 3). Una nueva muestra (problema) se representará en ese nuevo espacio como un punto y podrá caer o nó dentro de uno de los elipsoides. Hay que partir de que los espacios elipsoidales dependerán de lo bien que hayamos representado el producto en la base de datos con la que hayamos calculado el valor de "D", eligiendo las posibles fuentes de varianza que pueden aparecer en muestras futuras como rango, origen, proveedores,..... Es importante por tanto que para hacer el cálculo de "D", elijamos suficientes muestras, omitiendo en lo posible muestras redundantes (prodedentes de un mismo lote, finca,....), lo que haría que el centroide no fuese representativo.

En el cálculo de discriminantes con distancia de Mahalanobis, conviene usar un tratamiento matemático espectral que separe lo mejor posible los elipsoides, pero que a su vez sea robusto e insensible a variaciones que puedan ocurrir normalmente. De no ser así, podemos tener muchos resultados de "Fallo" a muestras que si pertenecen al grupo, o de "Pasa", a muestras que no son del grupo. Una validación adecuada, con muestras que sabemos que deben de pasar y otras que deben de fallar, es conveniente antes de poner un modelo discriminante por Mahalanobis en rutina.

[1] Tom Fearn (Chemometric Space - NIR News Vol.21 No 1
[2] ISI: ++NIRS 3++ Version 3.00

26 ene 2011

Distancia de Mahalanobis (3)_rev.1

La varianza es una medida de dispersión y podemos calcularla individualmente para cada una de las variables independientes o de longitudes de onda, de modo que encontremos en que longitudes de onda existe mayor variabilidad, para tratar de correlacionar, de ser posible, esa varianza con la concentración de determinado analito. La correlación y la covarianza sin embargo dan una medida de como las variables independientes están relacionadas entre sí. Podemos ir al caso mas sencillo de un gráfico de dos ejes XY.

Representando en dicho espacio un círculo, la varianza de los valores en el eje X es igual que la varianza de los valores en el eje Y (sus proyecciones). Sin embargo la covarianza en el círculo es de "cero", no hay correlación entre las variables[1].Sin embargo en una elipse, las varianzas varían o son iguales en función de sus proyecciones, y las covarianza y la correlación, tendrán valores mas o menos altos.

Es una manera simple de asociar la matriz de covarianzas a el cálculo de una elipse. En el caso de espacios multidimensionales, hablaremos de elipsoides distribuidos respecto a un determinado centroide.. Los ejes de este elipsoide respecto, serán mayores o menores y tendrán unas direcciones determinadas. Estamos por tanto ante un espacio multidimensional distinto al euclideo, donde la representación es esférica en lugar de elipsoidal.

Determinar el umbral para que una muestra pertenezca a un grupo,se puede hacer por los valores de desviación estándar: 1, 2, 3 desviaciones estándar. En función de la posición de una muestra desconocida dentro de los límites nos dará una medida de probabilidad de que la muestra pertenezca a ese grupo. La probabilidad es mayor si cae dentro del are de 1 desviación estándar que en la de 3. No obstante puede ocurrir que una muestra este fuera de los umbrales para el caso del elipsoide y este dentro para el caso de la esfera, o viceversa. En el caso del elipsoide nos referimos a la distancia de Mahalanobis (por tener en cuenta la covarianza) y en el caso de la esfera a la distancia euclidiana.

En el caso del punto A, está fuera para el espacio de Mahalanobis y dentro para el Euclidiano, y el B está dentro para el de Mahalanobis y fuera para el Euclidiano.

[1] En este caso la distancia de Mahalanobis y la distancia euclidiana coinciden.Si ademas de esto la varianza de cada una de las variables es 1 (estaríamos ante la matriz unidad o de identidad), la distancia de Mahalanobis coincidiría con la distancia euclidiana reducida o normalizada.

25 ene 2011

Distancia de Mahalanobis (2)

La matriz de Varianzas-Covarianzas se utiliza ampliamente en Quimiometría. La podemos ver representada por diferentes letras dependiendo de la publicación: S, ∑,... (Utilizaremos en nuestro caso la letra S, para coincidir con la nomenclatura de Wikipedia).

Pues bien, la matriz de varianzas covarianzas la encontramos en la ecuación para el cálculo de la distancia de Mahalanobis, que la usaremos para conocer la distancia de una muestra respecto a el centro (centroide) de una determinada población, o para conocer la distancia entre dos muestras.

Partimos de que la intención de las explicaciones es la de aplicar estas fórmulas a espectros y que estamos tratando con espacios multidimensionales, donde cada muestra esta representada por un vector.

La inversa de una matriz, se puede aplicar solo a las matrices cuadradas (la de varianzas-covarianzas lo es) y para representarla se utiliza el exponente -1. La transpuesta se representa con el exponente T.

23 ene 2011

Matriz de Varianzas - Covarianzas

Partimos de una Matriz espectral de 8 variables (longitudes de onda) y con 16 muestras, pudiendo ser estas

cualquier numero.

Calculamos la matriz de covarianzas que es una matriz cuadrada en este caso de 8 x 8 (nº de variables).

Esta Matriz también se denomina de Varianzas - Covarianzas, pues la covarianza de una variable respecto a si misma es su varianza, apareciendo estas en la diagonal de dicha matriz.

19 ene 2011

Validando la ecuación (1)

Me gusta hacer esquemas para explicar las cosas. Los iré poniendo en la sección JRC_Drawings.
Los explicaré mas extensamente en Learning WinSI.

Eisenhower Matrix for Residuals

En que cuadrante caen tus residuales de validación?.

Según donde caiga tu residual en la "Eisenhower Matrix" (en A, B, C, D) puedes deducir si tu modelo tiene overfitting, si las muestras son anómalas pero interesantes para recalibrar, si las muestras que se deben descartar o repetir análisis bien de "Lab" o de "NIR",...., etc.
Que cantidad de muestras caen en los diferentes cuadrantes ¿muchas o pocas?. Este es otro indicativo que nos dirá que tal funciona la ecuación desarrollada. Por supuesto todos queremos que nuestras muestras caigan en el cuadrante "A" , pero todo dependerá del conjunto de calibración con el que hayamos desarrollado la ecuación, de si tenía la suficiente variabilidad para representar muestras futuras de rutina, de la robustez de la calibración, de si ha habido "overfitting" o "underfitting", de si el resultado de laboratorio es representativo de la muestra analizada (homogenización, cambios en la muestra,.....). No vale seleccionar las muestras anómalas y recalcular para obtener bonitos estadísticos. El informe de validación debe de indicar los anómalos encontrados y las posibles causas. Si se llega a la conclusión de que hay que omitir una muestra (Cuadrante D), lo haremos.
Mas información en "Learning Win ISI".

17 ene 2011

VISION 3.50 service pack 6

FOSS NIRSystems, Inc. has introduced Service Pack 6 for Vision 3.50.

Vision is a software package specifically designed for use with the FOSS NIRSystems Near-

Infrared (NIR) laboratory and process analyzers. Vision 3.50 Service Pack 6 is a cumulative

service pack and offers support for the latest NIR laboratory and process hardware.

The main new feature added in Service Pack 6:

•

Diagnostics, Data Acquisition, and Routine Analysis. ProFoss is a diode-array instrument

and the latest addition to the product line of FOSS NIRSystems.

If you are a current user of the FOSS Vision software, please contact us for more information

and/or a complete list of new features appearing in version 3.50, Service Pack 6.

The FOSS Vision software is 21 CFR Part 11 compliant and supports PAT through numerous

process analysis options and process communication capabilities. The software has an extensive

security system with multiple access levels, secure data archiving and report generation as well

as database and spreadsheet compatibility. Vision comes with a user-friendly electronic manual

with tutorials and data for self taught hands-on method development and software operation.

The ProFoss instrument has been added to Vision, which includes support for Self-Test,

Publicación de FOSS NIRSystems de actualización de VISION

FOSS releases new features for Vision

11 ene 2011

Introducción

1 - Introducción

Entendemos como zona NIR (Infrarrojo Cercano), aquella zona del espectro electromagnético situada entre el final de la zona visible y el comienzo de la zona de Infrarrojo Medio. La zona NIR comienza aproximadamente a 780 nm de longitud de onda y finaliza a 2500 nm, formando parte de la llamada zona vibracional del espectro electromagnético, en la que la excitación de las moléculas por la radiación NIR hace que algunos enlaces atómicos aumenten la amplitud de su vibración.

La zona NIR fue descubierta por William Herschel en el año 1800. Estudiando la temperatura asociada a las diferentes zonas del espectro visible, comprobó el incremento de temperatura que se producía más allá del color rojo del espectro visible. A esta zona la definió como el “invisible espectro termométrico”.

10 ene 2011

Error de muestreo

El resultado del análisis por NIR (muy poca cantidad de muestra), queremos que sea representativo de un volumen mucho mayor como el contenido de un camión antes de la descarga, un lote de fabricación,.....,etc.

En el caso de muestras muy homogeneas, como líquidos, el problema es menor, pero para muestras heterogeneas los problemas aumentan debido a la dificultad de recoger una muestra representativa. Existen toma muestras adecuados para los diferentes tipos de productos.

Se debe de recoger en lo posible una cantidad adecuada de muestra (ejemplo: 1kg), de diferentes puntos y mezclarla muy bien. Una vez mezclada se seleccionan un número de submuestras, que serán analizadas. El equipo puede dar el resultado individual de cada muestra y posteriormente realizar un promedio y desviaciones estándar que nos ayudarán a identificar el error de muestreo. Se pueden fijar límites una vez realizado el estudio adecuado de error de muestreo para cada materia analizada, para que nos avise de la desviación fuera de límites, y por tanto proceder a una mejor homogenización previa al análisis.

Los cálculos de error de muestreo se pueden realizar en la fase que no disponemos de ecuación, en este caso usamos estadísticos de desviación a nivel espectral (Ejemplo: RMS).

Realizar una calibración no teniendo en cuenta los errores de muestreo, trae consigo una pobre correlación entre los datos de laboratorio y los espectrales.

7 ene 2011

"Segment" & "Gap"

Se trata de dos intervalos usados para el cálculo de derivadas en las "Norris Derivatives" o tratamientos de derivación diseñados por Karl Norris para aplicar a los espectros NIR. Las derivadas pueden incorporar mucho ruido al espectro, por lo que el aplicar estos dos intervalos de manera adecuada ayuda a reducir el ruido y con ello a conseguir mejores resultados en el desarrollo de calibraciones.

El espectro NIR se representa en dos ejes : El Y o escala de absorción y el X o escala de longitudes de onda.

SEGMENT: Distancia del intervalo X, de la que se promediarán los valores de Y.

GAP: Distancia del intervalo X, que separa los dos segmentos que van a ser promediados.

En el caso de no usar GAP, se seleccionan dos segmentos a cada lado de un determinado valor de X al que daremos en valor de la derivada, (los segmentos serán de igual valor), hacemos el promedio de los valores de absorción de los dos (digamos que el valor a la izquierda de X es de Z y a la derecha es de B) y restamos el valor de B, del valor de A, poniendo este valor al punto en común de los dos segmentos. Después vamos haciendo los mismos cálculos a lo largo del espectro, desplazándonos de un valor de X al siguiente.

5 ene 2011

El espectro electromágnético

El Infrarrojo, (cercano_NIR, medio_MIR, lejano_ FIR) es una parte del espectro electromagnético. Para comprender de una manera básica las partes que lo forman podeís acceder a este enlace.
http://science.hq.nasa.gov/kids/imagers/ems/infrared.html

Deconvolución

Uno de los inconvenientes a la hora de interpretar los espectros en la espectroscopia de Infrarrojo Cercano (Near Infrared - NIR), es el solapamiento de las bandas que se producen en las diferentes longitudes de onda, causadas por la absorción de la radiación, a determinadas frecuencias, por los diferentes enlaces moleculares (de la molécula irradiada) que vibran a esas mismas frecuencias. Esto causa un aumento de la amplitud en el enlace afectado.

La suma de todas estas bandas forma lo que se podría llamar un espectro compuesto. Tratar de identificar las bandas de la mejor manera posible sin que afectemos al aumento del ruido espectral, es importante para detectar presencia de analitos. Para ello nos podemos ayudar de los tratamientos matemáticos y de los tratamientos para corregir la dispersión de la radiación que afectan de una manera importante al espectro.

Una de las técnicas que nos permite visualizar las bandas que componen el espectro compuesto es la "Deconvolución". Softwares como Win ISI (2 y 3) disponen de esta herramienta.

La manera en la que se realiza este tratamiento, es compleja y en futuras actualizaciones de esta entrada, podemos comentarlo de manera resumida.

Organiza las bases de datos

Tener organizadas las bases de datos es fundamental para desarrollar calibraciones con espectros. Existen diferentes campos en los softwares para que podamos poner datos que nos ayuden a saber de que muestra se trata, de su origen, variedad, proveedor, equipo en el fue tomado el espectro,.......,etc. De no hacerlo así puede dar lugar a desarrollar las calibraciones a ciegas, y a quitar como anómalos muestras que pueden ser interesantes para calibrar.

Puede que tengamos duplicados de muestras y que su ID sea diferente, en el caso de muestras de un lote de fabricación, y que el dato de laboratorio se haya puesto por igual a los dos espectros. En caso de sospechar que esto pueda ocurrir, podemos ordenar los datos por valor de alguno de sus constituyentes y comprobarlo. Una manera de hacerlo es exportando los datos a Excel, y en esa hoja podemos generar filtros y macros que nos ayuden a organizar mejor los datos.

Las muestras duplicadas pueden ser útiles para estudiar la repetibilidad de nuestro equipo para ese producto, o para esa presentación de la muestra. También puedes ser usados como ficheros de repetibilidad.

Es importante el añadir un código de producto para poder localizarlos mejor dentro de la base de datos: Por ejemplo en una base de datos de cereales, podemos dar el 01 al trigo, el 02 a la cebada, el 03 al centeno y el 04 la avena.

Indicar si la muestra esta molida y con que tamiz, con que tipo de capsula fue tomada,.....

Existen cápsulas con sensor de temperatura que incluso nos pueden indicar la temperatura a la que fue analizada la muestra.

Se podrían seguir añadiendo, por lo que animo a los que consulten esta entrada a realizar los comentarios que crean oportunos.

1 ene 2011

Distancia de Mahalanobis

Como hemos comentado en la distancia euclidiana tenemos el problema de que las variables pueden estar correlacionadas entre sí. Por otra parte el problema de la intercorrelacion entre las variables originales se resuelve por medio del cálculo de componentes principales, a la vez que reducimos el número de variables a solo las más relevantes.

La distancia de Mahalanobis, calcula la distancia entre dos puntos en el espacio de longitud de onda y se representa por d^2.

Esta distancia se puede usar en NIR de diferentes formas: Para cálcular la distancia al centro de la población (el punto donde todos los componentes principales confluyen). Para encontrar la distancia de vecindad respecto a cada una de las muestras.

Se aplica un umbral de corte, que hace que para cada componente principal la distancia sea en función de su varianza explicada, por lo que muestras que por la distancia euclidiana podía ser dadas como "no anómalas", en la distancia de Mahalanobis podían serlo y viceversa.

La distancia de Mahalanobis es una herramienta frecuentemente usada en la detección de anómalos, o para análisis discriminantes indicandonos la probabilidad de una determinada muestra, de pertenecer a un determinado colectivo.

Existen varias modificaciones de la distancia de Mahalanobis (sin normalizar, normalizada,....), pudiendo encontrar diferencias en este aspecto en los diferentes softwares quimiométricos que las utilizan.

En próximas actualizaciones de este Blog iremos profundizando en la medida de lo posible en esta interesante herramienta.

As discussed in the Euclidean distance we have the problem that the variables may be correlated. Moreover, the problem of inter-correlation between the original variables is solved by calculating the principal components analysis , while also reducing the number of variables to only the most relevant.Mahalanobis distance , calculates the distance between two points in space wavelength and is denoted by d ^ 2 .

This distance can be used in NIR in different ways: (1): to calculate the distance to the center of the population (the point where al the principal components converge . (2): To find the neighbor distance for one sample to its nearest neighbor.We apply a cutoff threshold , that for each principal component, is a distance in terms of its variance explained , so some samples can be outliers for the Euclidean distance and correct for the Mahalanobis distance or viceversa.

The Mahalanobis distance is a frequently used tool for detecting outliers , or to discriminate sample groups, indicating the probability of an unknown sample to belong to a particular group .

There are several modifications of the Mahalanobis distance (not standardized, normalized , .... ) and we can find this differences in the chemometric software use by different manufactures.