29 abr 2011

Ejercicio práctico de "Classical Least Square". (1ª Parte)

En la “Tony Davies Column”  (vol.22 No. 6 – 2010) en un artículo muy interesante (“a digression on regression”), A.M.C. Davies y Tom Fearn, hacen referencia  a la “Classical Least Squares Regression” de la que hemos hablado en una de las entradas de este blog.
Leyendo el artículo me surgió la idea de generar unos espectros simulados: A, B y C, (similares a los del artículo) de componentes puros ,  teniendo en cuenta los consejos del artículo para poder realizar la inversa de una matriz de espectros.
A partir de la matriz de espectros puros se hace una supuesta mezcla con los espectros puros en la proporciones (0,5*A,  0,4*B  y   0,1*C), de la que será nuestra muestra problema.
En el artículo se llega tras una serie de pasos a la conclusión de:
C = (ST.S)-1 ST.X
Donde C = (ST.S)-1 es la famosa “pseudomatriz” de la que ya hemos hablado.
X es la matriz de absorbancias a las distintas longitudes de onda.
Me he puesto a desarrollar la regresión con Excel y las formulas de Matrices que se muestran en el apartado de” Matrices en Youtube”.
El artículo la podéis bajar de la página web de "Spectroscopy Europe" en la sección "Tony Davies Column".
En estas próximas entradas iremos viendo más  pasos.
Espectros simulados de componentes puros:
Espectro mezcla a partir de proporciones de los espectros puros:
Continuará......

28 abr 2011

Ley de Lambert-Beer (002)

La anchura de un pico de absorción se define como el ancho de la banda (en nm) en la mitad de dicho pico.En la siguiente simulación se generan tres picos de absorción que podían ser los espectros de 3 componentes puros (dos de ellos se solapan y uno esta aislado). Podemos calcular el espectro que se generaría de la mezcla (en rojo).

25 abr 2011

Análisis Cualitativo: Correlación

La comparación de dos espectros por correlación es de las técnicas mas simples en quimiometría, por otra parte tenemos una escala bien definida para compararlos (entre - 1 y 1).
Uno de los espectros puede ser el espectro promedio de varios espectros representativos de la varianza de un determinado producto (diferentes lotes, procedencias,....) y comparamos con él un espectro desconocido obteniendo un determinado coeficiente de correlación, para definir si la muestra se identifica como perteneciente al grupo al que dicho promedio representa. Es importante en este caso definir un umbral adecuado para que la muestra sea marcada como perteneciente al grupo o rechazada. Un umbral muy estricto nos puede rechazar muestras correctas, mientras que un umbral permisivo, nos clasificaría muestras de otros productos similares como pertenecientes al grupo. Como en el caso de la cuantificación los métodos discriminantes, ya sean para identificación o para cualificación deben de ser validados con muestras buenas y malas para ajustar los umbrales de modo que se produzcan la menor cantidad de falsos positivos o falsos negativos. Este último punto es importante a la hora de fijar el umbral teniendo en cuenta lo que sería mas perjudicial para nuestro objetivo.
Software como Vision, no permiten un umbral menor de 0,85. Aún así este umbral es muy permisivo y se deben de considerar umbrales de 0,95 ó más.
La correlación se utiliza más para hacer una primera identificación y se acompaña posteriormente de otro método cualitativo (distancias, varianza residual,...,etc) que puede ser aplicado en zonas más específicas del espectro para garantizar de que el producto cumple las especificaciones de calidad que se desean.

En el siguiente ejemplo se generan artificialmente 3 bandas, de la que dos de las bandas se generan a partir de una (A=B/2 y C=B*2). Claramente las correlaciones entre estas bandas son de 1.
En el caso de querer separar estas bandas por algún requerimiento tanto de caracter físico como químico, la correlación no es la opción adecuada y debemos de recurrir a métodos de distancia.
La correlación si es mas sensible a desplazamientos de las bandas en la escala de longitud de onda.


24 abr 2011

Ángulo entre vectores.

Dos vectores A (a1, a2, a3,…,an) y B (b1,b2,b3,…,bn), que parten de un mismo origen forman entre sí un ángulo que denominaremos Ɵ. Conocer este ángulo tiene importancia para comprobar lo similares que son ambos vectores.
Las  longitudes de los vectores se calculan fácilmente por el teorema de Pitágoras y se representan por:
A│ longitud del vector A.
B│ longitud del vector B.
Para calcular el ángulo que forman entre sí, partimos de:
A.B = │A│.│B│.cos Ɵ
De aquí podemos despejar cos Ɵ, y por tanto conocer el valor de Ɵ.
Podemos estandarizar los dos vectores para que tengan una longitud igual a 1, de modo que:
A.B = cos Ɵ
En este caso los vectores coinciden con el radio de una circunferencia de radio 1, separándose entre sí en mayor o menor medida según sea el ángulo Ɵ.
Esta es por tanto otra forma de comprobar la similitud entre dos espectros. Podemos fijar  un  umbral para el valor de Ɵ, en torno a un determinado espectro X, para determinar si otro espectro/s, son significativamente diferentes a este.
Esta es por tanto otra de las maneras de realizar un tipo de análisis cualitativo, al igual que lo puede ser la distancia euclidiana, la distancia de Mahalanobis, el coeficiente de correlación, etc.
Podéis visitar unos interesantes videos de como se realiza el cálculo del ángulo entre dos vectores (de juanmemol) en YouTube:
En dos dimensiones.
En tres dimensiones.
Bibliografía: Back to the Basics: qualitative analysis introduction. Tony Davies Column (vol. 20 Nº2 - 2008).

20 abr 2011

Semana de Vacaciones (Cordillera Cantábrica)

Semana de Vacaciones que esta siendo muy provechosa.
Increíble zona asturiana, muy solitaria (Alto de la Mesa - Parque Natural de Somiedo).
Es común encontrar algunos huesos de ganado tras un festín de los buitres.

19 abr 2011

Semana de Vacaciones (Niemeyer)

Semana de Vacaciones por mi tierra. No me extraña que Woody Allen se enamorara de ella.
Me vais a permitir que en ocasiones os ponga algunas de las fotos que hago. Es una de mis aficiones de siempre.
Soon I´ll be back with new inputs.

14 abr 2011

ILS: Inverse Least Square (parte 1ª)

Hemos visto en CLS: Classical Leat Square (parte 2ª) la fórmula:
K=A.CT.(C.CT)-1
basada en la fórmula de la ley de Lambert-Beer. De esta misma Ley y despejando los datos de diferente forma podemos llegar a otra fórmula distinta:
P=C.AT.(A.AT)-1
 En este caso la matriz de coeficientes es distinta, por lo que la llamamos P en vez de K, pero se tratan de constantes en ambos casos, pero en CLS se calcula la inversa de C, mientras que en ILS se calcula la inversa de A.
Uno de los problemas que aquí surge, es que en espectroscopia las longitudes de onda están  correlacionadas entre sí, lo que es un problema a la hora de calcular la matriz inversa.
Aparecen los problemas de overfitting,....
Es importante la selección de las longitudes de onda,....

Esto ya nos va sonando,...., efectivamente se trata de las regresiones también conocidas como MLR que ya hemos hablado de ellas y continuaremos haciendo.

13 abr 2011

CLS: Classical Least Square (parte 2ª)

En "CLS: Classical Least Square (parte 1ª)", hemos trabajado con una matriz muy simple, de dos longitudes de onda y de dos constituyentes, pero podemos desarrollar este tipo de calibraciones con mas longitudes de onda, siempre que estas sean mayores al número de constituyentes, pudiendo usar el espectro completo.
Uno de los problemas que nos pueden surgir a la hora de hacer el cálculo de la matriz K, es el cálculo de la matriz inversa de C, ya que únicamente se puede realizar siempre que se trate de una matriz cuadrada.
K=A.C-1
Afortunadamente esto se resuelve algebraicamente con el cálculo de la "pseudo-inversa":
 CT(C.CT)-1

El exponente T, nos indica de que se trata de la Matriz Transpuesta. De esta forma podremos calcular la matriz K de coeficientes                                
K=A.CT(C.CT)-1
Inconvenientes:
Este tipo de regresión tiene inconvenientes importantes, pues debe desarrollarse siempre y cuando participen todos los constituyentes de la muestra, y siempre y cuando no interactúen entre sí.
La absorción de una muestra a una determinada longitud de onda se asume que es el sumatorio de las concentraciones de cada constituyente  a dicha longitud de onda por los respectivos coeficientes de cada constituyente a dicha longitud de onda. Si alguno de ellos es omitido, o se desconocía, los resultados no tendrán fiabilidad.
Aparte de esto es muy susceptible a desajustes de bias, pues no se asumen factores externos de tipo físico, ambiental,....
Es obvio, por tanto, que no nos va a servir para calibraciones NIR, no obstante es un tipo de regresión elegante y que nos sirve de base para entender procesos de regresión más complejos.

12 abr 2011

Subcripción para ver entradas en iGoogle

Ir a:

Seleccionar Add to Google.
Os apareceran las entradas recientes del Blog en vuestro escritorio de navegación iGoogle:

Podéis expandir las entradas y verlas tranquilamente desde iGoogle, o activar los vínculos para ir al Blog.

Subscripcion por correo electrónico

Podéis solicitar a través de las subscripciones al blog por correo electrónico, que os avise de las entradas del Blog. Simplemente introducir vuestro correo y pulsar "Subscribe". Os aparecerá:
Introducir el texto y aparecerá:


Os llegará un correo para que activéis la subscripción, con un link que la activará. Después de esto aparecerá:

CLS: Classical Least Square (parte 1ª)

En la entrada anterior (Ley de Lambert-Beer) hemos hablado de los problemas que pueden surgir al haber solapamiento de las bandas de los distintos constituyentes, por tanto debemos de recurrir a nuevos métodos de regresión aprovechando las aplicaciones que aporta la Ley de Lambert-Beer.
En este caso tenemos dos bandas de dos constituyentes que se solapan A y B, y en rojo vemos el espectro compuesto que las dos forman. Desarrollamos la calibración únicamente con las dos longitudes de onda donde aparecen los picos de absorción de estas bandas (como comentaremos en otras entradas, también se pueden desarrollar las calibraciones CLS con el espectro completo). Como podemos ver la absorción del espectro completo a cada longitud de onda es la suma de las absorciones de cada constituyente individual a dicha longitud de onda.



Las absorbancias de los muestras son conocidas, así como las concentraciones de los constituyentes, por lo que podemos calcular la matriz de los coeficientes, también conocida como "K Matrix".
En este apartado nos pueden ayudar los videos de multiplicación de matrices y de cálculo de la matriz inversa en Excel de la sección de "Matrices en YouTube".

11 abr 2011

Ley de Lambert-Beer

Se trata de una Ley muy familiar en  Espectroscopía, y con la que nos hemos de familiarizar. Relaciona la concentración de un constituyente con la cantidad de energía absorbida por la muestra:
Aλ = ελ . b. C

Siendo:          
Aλ ….Absorción de la muestra a una determinada longitud de onda.
ελ …..Coeficiente de absortividad a una determinada longitud de onda.
b……..Paso óptico de la cubeta en la que está la muestra.
C….. ..Concentración en la muestra de un determinado analito.

La absorción nos la da el espectrofotometro, el paso óptico es constante y debe de configurarse para que la calibración sea lineal y no se produzca saturación, la concentración se analizará durante la calibración por los métodos de referencia, y nos queda por determinar el coeficiente de absortividad, que depende del constituyente y de la longitud de onda, el principal problema radica en conocer esta constante.
Podemos deducir que:
Aλ = Kλ . C
Siendo K una constante (ελ . b).

Esta será la base para futuras entradas para hablar de tipos de regresión tales como: LS, CLS o ILS.
Una simple muestra nos sería suficiente para calcular ελ y después aplicar la fórmula:
C = Aλ : Kλ
Para predecir los desconocidos. Obviamente esta no es la mejor alternativa.
Otra opción mejor pasa por hacer una recta de calibrado con varias muestras de diferentes concentraciones y desarrollar  una simple calibración de Absorbancia respecto a Concentración calculando la pendiente e intercepto,con ella podemos predecir muestras de rutina basándonos en la absorbancia obtenida  en el espectrofotómetro (Least Square Regression_LS).
Las regresiones del tipo LS, no sirven cuando hay varios constituyentes y sus bandas interfieren entre sí, ya que se asume que el pico de absorción o el área de la banda de absorción son debidas únicamente al constituyente de interés, por tanto es uno de los problemas que claramente tenemos en las regresiones para los espectros NIR, donde dada la gran anchura de las bandas de absorción, las interferencias entre bandas son mucho más complejas.

7 abr 2011

Distancia Euclidiana_002


Detrend (2)

Los polinomios usados para el calculo del tratamamiento Detrend pueden ser de orden 0, 1 y 2. El software Vision nos permite seleccionar el orden, como podemos ver en el menu adjunto:

Estos tratamientos cambian el espectro  en la forma que hemos visto en la entrada anterior Detrend (1).
Información de como utiliza estos tratamientos Win ISI en "Learning Win ISI": Detrend en Win ISI.

4 abr 2011

Detrend (1)

El Detrend es un tratamiento para quitar los efectos de "offset" en la linea de base,ásí como la pendiente o curvatura de los espectros, normalmente causados por el "scatter", empaquetamiento,.... Se trata de un polinomio cuadrático.
El cálculo de esta función se resta del espectro original, dando como resultado el espectro con tratamiento detrend aplicado.
Normalmente se aplica conjuntamente a otros tratamientos (por lo general el SNV).
En la gráfica vemos los espectros sin tratamiento (negro), aplicando el orden "0" (azul) en el que quitamos el efecto del offset, aplicando el orden "1" (naranja) en el que quitamos el offset y la pendiente, y el de orden "2" (rojo) en el que quitamos los efectos de offset, pendiente y curvatura.
Ciertos softwares te permiten elegir el orden del polinomio.

1 abr 2011

MLR: Selección manual vs. automática

En este caso se usaron los espectros sin ningún tratamiento, y se desarrollaron dos calibraciones con dos longitudes de onda:
En la primera seleccionamos las longitudes de onda de forma manual, observando el espectro y con ciertos criterios de donde absorbe el analito (índice de hidroxilo). Se selecciono la segunda para eliminar los efectos de offset de linea base por características físicas (obviamente con tratamientos matemáticos antiscatter, estos resultados serían distintos).
En el segundo caso se dejo al software que seleccionara de forma automática las longitudes de onda.
Se dispone de un conjunto de validación de 7 muestras para ver los estadísticos de predicción (SEP) y comparar cual es la mejor opción.

Los estadísticos muestran como mejor opción la manual.
En ambos casos hay una correlación inferior a 0,4 entre las dos longitudes de onda.