24 feb. 2011

Overfiting - Underfitting

Dejamos el tema de los componentes principales con muchas lagunas que seguiremos desarrollando.La idea no es hacer como en este chiste que he copiado de unos de los blogs que sigo:
Trataremos los diversos algoritmos que se pueden utilizar para tomar esta decisión, que pretende ni mas ni menos que evitar los denominados "overfitting" y "underfitting". Esto se puede para los modelos PCR basados en los componentes principales como para la regresión PLS.
Una decisión simple sería el cortar al llegar a un determinado valor de varianza explicada, por ejemplo al 95%, esto añadiría sin duda las fuentes de varianza importantes, lo que sería suficiente para muchos de los casos. Ciertos software tienen un campo para poner el límite de varianza explicada en tanto por ciento y si tenemos la suficiente experiencia sobre lo que pretendemos hacer es una buena opción.
Otras opciones pasan a través de hacer un F test, que nos da el valor indicativo de si merece la pena el añadir un término más. Se trata de hacer un ratio entre varianzas, hasta que llegue un momento en que la adición de un término sea perjudicial (overfitting).
Los software nos mostraran la opción de decidir el número de términos o factores, conviniendo por tanto el mirar la información disponible y decidir si nos parece correcta, o al menos tratar de interpretar por que toma ese número de factores.
En las regresiones podemos añadir otros algoritmos que nos ayuden en la toma de esta decisión de gran importancia: las validaciones cruzada y/o externa.
En learning-winisi hay una entrada que se esta desarrollando sobre la validación cruzada, que es el algoritmo con el que se toma la decisión sobre el número de términos a utilizar al desarrollar una regresión PCR o PLS con este software de calibración..

No hay comentarios:

Publicar un comentario