Dentro de los curso de Data Camp, varios de ellos son dedicados a "Machine Learning" y usan bases de datos de diferentes tipos, pero a los que queremos aplicar estas técnicas y paquetes de R a la espectroscopia nos gustaría hacerlo con espectros y en el caso de este blog, con espectros NIR. Es por ello interesante extrapolar los ejemplos y ejercicios que se usan al caso de la espectroscopía en lo posible.
Uno de los casos usados en los cursos de Machine Learning, es el de como los vehículos autónomos reconocen las señales de tráfico para en función de ello tomen determinadas decisiones (por ejemplo la de pararse en el caso de ver una señal de Stop), para lo cual debemos de disponer de una base de datos de fotografías de señales de tráfico en diferentes situaciones de (tiempo, hora, ángulo,...). Estas imágenes tendrán distintos fondos (arboles, cielo,...), brillos, etc por lo que se necesitan una gran cantidad de imágenes. Aquí podríamos también pensar en una gran base espectros adquiridos en distintos equipos, con distintas presentaciones de muestra, usuarios, etc.
En el caso de una señal de tráfico es una matriz de pixelado (ejemplo 4.4) y con tres capas de color, por lo que disponemos de 16.3 variables que también estarán correlacionadas entre sí al igual que las variables espectrales.
Cuando el coche vea una señal de tráfico la comparará con la base de datos y por un algoritmo de distancia KNN (K nearest neighbors) detectará de que tipo de señal se trata y tomará una decisión que puede ser o no acertada. Esta serie de decisiones se validará para ver si el modelo de reconocimiento de imágenes está funcionando correctamente. Lo mismo pasaría a la hora de registrar un espectro y que el modelo lo prediga como perteneciente a una especie, región,.... y en base a ello tome una determinada decisión de aplicar otro método cuantitativo por ejemplo.
En ambos casos usamos modelos de compresión del espacio quitando las correlaciones entre las variables por métodos como PCA (Principal Component Analisis).
Quienes trabajamos con calibraciones LOCAL podemos pensar en una cierta similitud, donde fijamos el valor de "k" o número de vecinos (en la función KNN) a la muestra problema en un determinado rango de valores y en función de las muestras que seleccione dará un resultado que puede ser comparado con el valor real para ver la viabilidad de funcionamiento.