R & Chemometrics: diciembre 2020

30 dic 2020

ALL THE BEST FOR THIS YEAR 2021

Espectros y Señales de Trafico ¿?

Dentro de los curso de Data Camp, varios de ellos son dedicados a "Machine Learning" y usan bases de datos de diferentes tipos, pero a los que queremos aplicar estas técnicas y paquetes de R a la espectroscopia nos gustaría hacerlo con espectros y en el caso de este blog, con espectros NIR. Es por ello interesante extrapolar los ejemplos y ejercicios que se usan al caso de la espectroscopía en lo posible.

Uno de los casos usados en los cursos de Machine Learning, es el de como los vehículos autónomos reconocen las señales de tráfico para en función de ello tomen determinadas decisiones (por ejemplo la de pararse en el caso de ver una señal de Stop), para lo cual debemos de disponer de una base de datos de fotografías de señales de tráfico en diferentes situaciones de (tiempo, hora, ángulo,...). Estas imágenes tendrán distintos fondos (arboles, cielo,...), brillos, etc por lo que se necesitan una gran cantidad de imágenes. Aquí podríamos también pensar en una gran base espectros adquiridos en distintos equipos, con distintas presentaciones de muestra, usuarios, etc.

En el caso de una señal de tráfico es una matriz de pixelado (ejemplo 4.4) y con tres capas de color, por lo que disponemos de 16.3 variables que también estarán correlacionadas entre sí al igual que las variables espectrales. Cuando el coche vea una señal de tráfico la comparará con la base de datos y por un algoritmo de distancia KNN (K nearest neighbors) detectará de que tipo de señal se trata y tomará una decisión que puede ser o no acertada. Esta serie de decisiones se validará para ver si el modelo de reconocimiento de imágenes está funcionando correctamente. Lo mismo pasaría a la hora de registrar un espectro y que el modelo lo prediga como perteneciente a una especie, región,.... y en base a ello tome una determinada decisión de aplicar otro método cuantitativo por ejemplo. En ambos casos usamos modelos de compresión del espacio quitando las correlaciones entre las variables por métodos como PCA (Principal Component Analisis).

Quienes trabajamos con calibraciones LOCAL podemos pensar en una cierta similitud, donde fijamos el valor de "k" o número de vecinos (en la función KNN) a la muestra problema en un determinado rango de valores y en función de las muestras que seleccione dará un resultado que puede ser comparado con el valor real para ver la viabilidad de funcionamiento.

1 dic 2020

Nouvelles stratégies pour la modélisation LOCAL

Interesting lecture from Pierre Dardenne:

FOSS CALIBRATOR TIPS (SPLITING RULE)

When we import a "cal" file into Foss Calibrator, we have the option to split this file into a training and validation set deciding the percentage of samples which goes to the training (80 by default) and to the validation set (20 by default), and the way this percentage is used (randomly), preserving the same distribution for every parameter, or based on time (the last 20% goes to validation and the older rest samples goes for training).

We can, anyway to import the "cal" file as a Validation set (will be used in the models as validation), as Training (will be used as training set for calibration) or None, being this last one important to hide, in same way, this set to the development of the model and change it later to Validation to check the performance for this particular set.

R & Chemometrics