19 feb. 2017

To consider when developing LOCAL calibrations in Win ISI 4


We can have a cal file with several parameters, and with all of them we start a LOCAL study to develop a LOCAL Calibration. We can split the cal File into two o more sample sets (at less one for the calibration and another for the validation (75% of the samples for the calibration and 25% for the validation selected in a random way could be fine. Now we can start the LOCAL procedure to get which is the best configuration  for:
Minimum and maximum numbers to select  (there is a batch option to check this)
Minimum and Maximum number of terms for the calibration.. 
Wavelength range. 
Math treatments
If we select all the constituents for this study we will get the minimum and maximum range for the terms, and probably we get a maximum close or equal to 50 (due to the ash constituent for example) and a minimum of 3 (due to the moisture). So this is the configuration that we have to add in the LOCAL model profile.
That does not mean that it will take 50 samples for the moisture becouse the algorithm will treat every sample and constituent individually.
You can split the cal file into several Cal files of just one constituent and develop the study for one of them every time and you will see how in the case of the moisture you will get different minimum and maximum for each and the range, if we see all together, is almost the same the one we get with the LOCAL study with all the constituents.
To split the Cal file for constituents can be important in the case that some of the works better with a math treatment that with another which is better for others. In this case we can prepare different RED files and different configurations.

See the LOCAL Label to know more about LOCAL Calibrations in WIn ISI

5 comentarios:

  1. Buenos días José Ramón, soy Marc Portella.

    Voy a aprovechar esta entrada para comentar mis dudas respecto a los factores mínimo y máximo que nos da WinIsi cuando pruebo de hacer una calibración Local.

    Entiendo que en una calibración Local el programa genera una ecuación para cada una de las muestras de validación (Input file) usando nuestra colección de muestras (library file), y los parámetros de nº de muestras mínimas y máximas, nº de factores mínimos y máximos, T , eliminación de outliers, y tratamientos matemáticos elegidos.

    Si pruebo de calcular un sólo constituyente, por ejemplo humedad, me da un resultado final con el nº de factores mínimo y máximo que funciona mejor, en mi caso 30 y 30 respectivamente.
    Si luego pruebo de calcular dos constituyentes a la vez, humedad y proteína por ejemplo, con los mismos parámetros elegidos en el anterior cálculo, el resultado final para la humedad no es el mismo ya que el nº de factores mínimo y máximo que funciona mejor ha variado, en este caso 33 y 33 respectivamente. Y para sólo el constituyente Proteína el nº de factores mínimo y máximo que funciona mejor es 34 y 35.

    Entonces entiendo que en la calibración Local se calcula una ecuación para cada muestra de validación, pero los factores dependen de si hacemos que se calcule uno, dos o muchos constituyentes a la vez...
    De hecho, una vez hechos los cálculos me da la opción de elegir que nº de factores mínimo y máximo quiero elegir, según el orden Ranking, o por ejemplo ordenándolo por SEP de proteína... Pero no puedo elegir el nº de factores mínimo y máximo que mejor funcione para cada uno de los constituyentes?

    Es lo que comentas en el artículo? debería poner entonces como valores 30 factores mínimos y 35 factores máximos?

    Lo mismo pasa con la opción Batch Processing, donde el nº de muestras usadas de la colección que funciona mejor puede varia de un constituyente a otro, pero no puedo elegir el número de muestras máximas a usar para cada constituyente.

    Debería entonces hacer una calibración local para cada constituyente? En Mosaic puedo poner más de un modelo de predicción para un determinado producto?

    Otra pregunta que se me ocurre. Porqué si una calibración local en la que hemos calculado más de un constituyente a la vez, visto lo anterior, nos da valores de GH i NH en las muestras de validación diferentes para cada uno de los constituyentes calculados? Si usa los mismos parámetros de factores mínimo y máximo, nº de muestras usadas, tratamiento matemático... no debería dar el mismo valor de GH i NH?

    Como ves hay bastantes cosas que no entiendo de la calibración Local, y seguramente son dudas de principiante... pero no encuentro demasiada información en internet, a no ser por el blog que voy siguiendo a menudo, y que estos días está bastante animado.

    Muchas gracias,
    Un saludo

    ResponderEliminar
    Respuestas
    1. Hola Marc,
      Agradecerte el cometario y decirte que lo iremos tratando poco a poco en el Blog, ya que yo estoy trabajando ahora con las calibraciones LOCAL y en la medida que el tiempo me lo permita ire aclarando los temas que vaya podiendo.
      Uno de los problemas de la LOCAL es la poca trazabilidad que queda en como se hacen las predicciones para cada muestra y para cada parámetro.
      He consultado algunas cosas a Mark Westerhaus y espero que me las aclare, pero otras las voy viendo con ciertas pruebas que hago.
      Si que puedes hacer una LOCAL para cada parámetro creando varios ficheros RED (uno para cada parámetro) de modo que crees diversos Prediction Models y que después los vincules todos a un producto, de modo que para cada uno de ellos tendrás un número mínimo y máximo de muestras y un número mínimo y máximo de factores.
      De no ser así se selecciona un numero que les venga bien a todos.
      He visto casos que te pide un número mínimo igual al máximo, pero quizas se trata de que estas haciendo una LOCAL para un producto con poca variabilidad, pero en la LOCAL las Librerías pueden llevar todos los piensos que tengas mezclados y hay la variabilidad sería muy grande.
      También los grupos de validación y Librería deberían de estar compensados para poder coger un mínimo y máximo tanto en muestras como en factores que represente a todos.
      Tienes que tener en cuenta que en la LOCAL para una determinada predicción de una muestra va a coger muestras diferentes para calcular la Humedad, la proteina o la grasa.... No coje las mismas para todos, de ahí que los GH y NH sean diferentes.
      Saludos y gracias de nuevo por el comentario.

      Eliminar
    2. Los GHs de las LOCAL se basan en los scores PLS de hay que sean diferentes para cada parámetro en cada muestra.Las muestras elegidas sin diferentes para cada parámetro en cada muestra pues se busca la máxima correlación de

      Eliminar
  2. Se busca la máxima correlación de las proyecciones con los valores analíticos de un parámetro concreto.

    ResponderEliminar
  3. Muchas gracias José Ramón por contestar con tanto detalle, hoy he estado haciendo pruebas y me están surgiendo nuevas dudas. Me leo tus nuevas entradas sobre la calibración local y te comento lo que pasa en el caso que he probado.
    Muchas gracias, buen fin de semana

    ResponderEliminar