29 sept. 2011

Shoot-out 2008_parte 001

En un artículo de la revista NIR News, Karl Norris (Vol. 20 No.3 April 2009) hace un estudio espectral de las muestras (de trigo) de varias campañas, llegando a conclusiones muy interesantes que vamos a ir analizando a modo de un nuevo ejercicio con la etiqueta de Shoot-out 2008.
Una de las observaciones, es que se produjeron cambios espectrales importantes en las dos últimas campañas analizadas respecto a las anteriores.
La técnica de componentes principales ya nos muestra que esto es así, en los primeros componentes como se muestra en la figura:
En el cálculo de componentes principales, no se consideró la zona de 400 a 1100 nm, en la que se observan diferencias claras en la forma espectral de las campañas 2004 y 2005 respecto al resto. No obstante la diferencia acusada en el equipo debido a problemas del equipo o en la presentación de la muestra en el espacio de tiempo entre los análisis de las diferentes campañas no solo se acusa en el rango visible, también se observa en la zona NIR.
Podéis descargar el fichero de:
Podéis descargar ficheros y documentación muy interesante, para a modo de ejercicio organizar los datos y sacar conclusiones.
Seguiremos con este tema en el blog y con información adicional en Win ISI World.

27 sept. 2011

Reconstrucción espectral_001 / Spectral reconstruction


Hemos visto esta fórmula ya en varias ocasiones:

X = T.Pt+E
Solo algunos comentarios.
P(k.p) es la matriz de loadings, o de los (p más importanteseigenvectors) de la matriz de covarianzas S(k.k) de X(i.k).
T(i.p) es la matriz de scores.
“Para multiplicar matrices (A.B), el nº de columnas de la matriz A, tiene que ser igual al nº de filas de la matriz B, dando como resultado una matriz con el nº de filas de la primera y nº de columnas de la segunda”.
Tenemos que hacer la transpuesta de P, por tanto, para hacer el producto:
T(i.p).Pt(p.k) obteniendo como resultado una X(i.k) predicha, que al restarla de la original nos dará la matriz residual E(i,k).
Los datos entre paréntesis son(nº filas.nº columnas)
i=nº muestras
k=nº long. onda
p=nº eigenvalues seleccionados.


We have seen this formula on several occasions:
X = T.Pt+E

just a few comments:

P(k.p) is the matrix of loadings, or (more importants eigenvectors ) of the covariance matrix S(k.k) of  X(i.k).

T(i.p)  is the matrix of scores.


"To multiply matrices (A.B), the number of columns of the matrix A, must be equal to the number of rows of the matrix B, resulting a matrix with the number of rows of the first (A) and number of columns of the second  (B)".


We have to do the transpose of P, therefore, to make the product:

T(i.p).Pt(p.k) resulting  a  predicted X(i.k) . If we substract this X  predicted  from  the original, we

get the residual matrix E(i,k).

Data in parentheses are: (raw number, columns number)
i = number of samples
k = n ° long. wave
p = number of selected eigenvalues​​.

26 sept. 2011

Collinearity in my data ¿What can I do? / Colinearidad en mis datos ¿Que hacer?

Hemos dejado algunas preguntas pendientes en entradas anteriores, como en la entrada:  Cálculo de los coeficientes.
Cuando los datos tienen colinearidad , la matriz no tiene solución o es muy inestable (como dividir por cero). Por tanto, o bien elegimos de todas, las variables que no esten correlacionadas, pero que pueden tener poca correlación con el analito de interés, o recurrimos a otras técnicas de compresión espectral como la de análisis  componentes principales.
En PCA obtenemos dos nuevas matrices a partir de la matriz X original: La de Factores y la de "Scores".
Sabemos que podemos limitar el número factores para dejar fuera el ruido.
Bien, PCA es igual que MLR, pero usamos la matriz de "Scores" en lugar de la matriz X. Por tanto al no existir colinearidad, podemos encontrar solución a la matriz inversa y calcular los coeficientes de regresión.

Te puede interesar:
PCA (1ª Parte)
PCA (2ª Parte)
PCA (3ª Parte)
PCA (Gráficos)

We left some unanswered questions in previous posts, as in the entry:  Finding the regressors.
When the data is collinearity, the matrix has no solution or is very unstable (as dividing by zero). Therefore, choose either all the variables that are not correlated, but may have little correlation with the analyte of interest or use other spectral compression techniques such as principal components analysis.
In PCA we obtain two new matrices from the original X matrix: The Factors and the "Scores".
We know we can limit the number factors to keep out the noise.
Well, PCA is the same as MLR, but we used the matrix of "Scores" in place of the matrix X. Thus in the absence of collinearity, we can find a solution to the inverse matrix and calculate the regression coeficients.

22 sept. 2011

Mahalanobis distance "Review: 003"

Ver primero / See first:

Hemos hablado ya en entrada anteriores de los Componentes Principales, pues bien la distancia de Mahalanobis se puede aplicar sobre dicho espacio reduciendo en gran medida el número de variable y evitando el sobreajuste.
Una vez calculados los vectores propios o eigenvectors, decidiremos por los valores propios o  eigenvalues el número de componentes principales (cuando hayamos explicado la mayor parte de la varianza sin incluir el ruido).
Esta nueva matriz de términos o componentes principales  “P” tendrá una dimensión: p.k, siendo p el nº de términos o PC´s y k el nº de longitudes de onda.
Por otra parte tenemos la matriz de “scores” o puntuaciones “T”, con una dimensión n.p siendo “n” el numero de muestras.
La matriz de correlaciones de “T”, es la matriz identidad “ I”.

We have talked in previous inputs about Principal Components Analysis; well Mahalanobis can be used in this space without risk of overfitting.
Once the eigenvectors (PCs) are calculated, we´ll decide the number of them by the eigenvalues, because with a few of them we will explain the most of the variance, living out the noise.
We will have a new matrix called “P” with a dimension p.k, being p the number of terms or PCs and k the number of wavelengths.
We project the samples to the new PC axis and we´ll get the scores, having also a new matrix “T” with a dimension n.p, being n the number of samples.
Matrix correlation of  “T” is I the identity matrix.

We will continue soon in “Mahalanobis distance_review:004”

20 sept. 2011

Mahalanobis distance " Review: 002"

Continuación de / Continue from:
Mahalanobis distance " Review: 001"
Vimos en una entrada anterior la formula vectorial de la distancia de Mahalanobis,
We have seen in a previous input, the Mahalanobis distance.
Podemos encontrar esta información en Wikipedia:
We can find this information in Wikipedia:
Como podemos comprobar las formulas del elipsoide y la de distancia de Mahalanobis son las mismas.
As we can see the formula for the ellipsoid and for the Mahalanobis distance are the same.
Podemos calcular la matriz de varianzas-covarianzas  “S”  de nuestra matriz de espectros, y como sabemos este tipo de matrices son cuadradas, lo cual es una de las condiciones para que tenga inversa, pero no la única.
We can calculate the variance-covariance matrix “S” of our spectra matrix, and as we know this type of matrix is square which is one of the conditions to get an inverse matrix, but not the only one.
Podemos conseguir una matriz inversa muy inestable (overfitting), o sin solución.
We can get an inverse matrix very unstable (overfitting) or without solution.
 En una matriz de espectros NIR, esto es lo más probable que pase, por lo que debemos hacer algo más.
In a NIR spectra matrix this is the more usual case, so we have to do something else.
Añade los comentarios que consideres oportunos.
Please feel free to add your comments.

We will continue soon in “Mahalanobis distance_review:003”



19 sept. 2011

Merecidos Tributos al Dr. John S. Shenk (1933-2011)

Tras el fallecimiento del Dr. John S. Shenk, se estan realizando diferentes tributos que reconocen su incansable labor por divulgar la técnica NIR.
Se trata de una persona que debe de ser puesta como ejemplo a los jovenes emprendedores.
Muchos siempre tendremos presente el tandem que formó con M.O. Westerhaus formando Infrasoft International, y desarrollando software, algoritmos que siguen muy vigentes como los de LOCAL y Estandarización de Instrumentos, así como gran cantidad de artículos y publicaciones en las más prestigiosas revistas y editoriales.
Gracias Dr. Shenck por el legado que ha dejado.
NIR-Quimiometria basa algunas de sus entradas en sus enseñanzas y sus escritos siempre formarán parte de la Bibliografía de este Blog, como muestra la fotografía de su encabezado.

18 sept. 2011

Mahalanobis distance "Review: 001"

Cuando medimos muestras de un determinado producto, los espectros NIR, son muy similares.
When we measure samples of a certain product, NIR spectra of these samples are very similar.
Existe variabilidad debida a diferente composición química, pero también a variaciones en el equipo NIR, a presentación de la muestra, temperatura, condiciones ambientales, cambios de lote,…
We have variations due to the chemical composition, but specially for instrument drift, simple presentation, environmental conditions, different batches,
La representación de estas muestras en el espacio de longitud de onda, tiende a formar elipses  compactas definidas respecto al eje.
These samples in the wavelength space tend to form ellipses, with the dots which represent the samples, very compact respect their axis.
Cuando hablamos de una representación en tres o más dimensiones hablamos de elipses y elipsoides.
When we talk about 3 or more dimensions, we refer to ellipsoids and centroids.
El centroide de dicho elipsoide será único de dicho producto.
This centroid is unique for their product.
Esta característica nos sirve para diferenciar grupos de productos. (Análisis cualitativo).
This characteristic let us to discriminate different products.

“More generally, an arbitrarily oriented ellipsoid, centered at v, is defined by the equation:
where A is a positive definite matrix and x, v are vectors. In that case, the eigenvectors of A define the principal directions of the ellipsoid and the square root of the eigenvalues are the corresponding equatorial radii”.

Me suena esta fórmula,…, ¿a vosotros?.
This formula is familiar to me ¿….to you?
Continuaremos pronto en: “Mahalanobis distance_review:002”We will continue  soon in “Mahalanobis distance_review:002”

10 sept. 2011

Indicator Variables

We will link to this table for next coming inputs about the use of equations with indicator variables.
Haremos referencia a esta tabla en próximas entradas sobre el uso de ecuaciones con variables indicadoras.


8 sept. 2011

Finding the coefficients in Excel

See first a previous input about "finding the coefficients"
Ver primero la entrada anterior "Encontrando los coeficientes"
We can find them much easier and quicker with the Data Analysis - Regression Opción in Excell.
You will get the same results, of course, and much more interesting information, which we will continue talking about.
Podemos encontrar los coeficientes de una manera mas cómoda y rápida con la opción "Regresión", disponible en la opción de Análisis de datos de Excel. Los resultados son por supuesto los mismos que los cálculos con las operaciones matriciales llevadas a cabo en la entrada que hago referencia. Excel nos proporciona mucha información estadística de la que hablaremos más adelante.

6 sept. 2011

Looking at the spectra: Noise / Ruido

It is important to look at the spectra, before to develop a calibration. Sometimes we trust that all the spectra are fine, so "go ahead", and we won´t get the better results for our statistics. Of course we will keep out clear outliers (an oat spectra placed by mistake in a wheat sample set), or let the software run it like a black box. But software is not such a black box that sometimes could appear, they let us interact choosing different variables, for example the wavelength range.
So look at the spectra, see if there are any trends that are due to changes in the instrument (they start to appear from a certain day), change of sample presentation, and so on.
In this case we want to see the areas more affected by the noise. If it is clear to you keep those areas out from the calibration. Try to find a reason, due to a mechanical problem, ambient temperature,
One way to do it is:
Transform your spectra with the 4th derivative and the smallest segment/gap (normally 1). Display the spectra with their standard deviation. Decide which areas are up of certain "cutoff", and remove those areas from the calibration.


5 sept. 2011

Least Square in Excel: Finding the coefficients / Cálculo de los coeficientes

We call Chemometrics the statistics, matrix algebra,..., applied to chemical analysis.
Same for Economics, I have found at the Public Library of my Village an interesting Book:
"Econometría Básica - Técnicas y herramientas" - Cesar Perez (Pearson).
I develop here in Excel one of the exercices of the book:
The result match the solution......GOOD.

3 sept. 2011

Finding the regressors / Cálculo de los coeficientes


Queremos encontrar los valores de los coeficientes de regresión "b". ¿Como hacerlo?.
We want to find the estimated values for the regression coeficients. How to do it?
Empleamos el método de Mínimos Cuadrados que consiste en minimizar la suma de los cuadrados de los residuales.
We use the Least Square Method which minimize the sumatory square residuals.
El cálculo de los coeficientes de regrasión en forma matricial es:
This calculation in a matrix form is:
bpred = (Xt. X)-1Xt . Y


Nos volvemos a encontrar con una matriz inversa. ¿Tiene solución?
We find again an inverse matrix. Does it have a solution?
Podemos repasar los videos de matrices inversas de "Nir-Quimiometría", para darnos cuenta de cuando no encontraremos solución.
We can review "NIR-Quimiometría" YouTube videos to realize when a solution can not be found.

ver / see :
Wikipedia: Linear Least Square (Mathematics)