Réglage automatique des hyper-paramètres grâce au chemin de régularisation du nu-SVM
En revenant au problème d'origine qui est l'utilisation de méthodes d'apprentissage dans un appareil autonome et en considérant la mise en œuvre des méthodes telles que les SVM, je me suis rapidement heurtée à un autre verrou. En effet, ces méthodes requièrent des hyper-paramètres. Les hyper-paramètres sont les valeurs que l'on fixe avant l'apprentissage pour régler la sensibilité de l'algorithme. On peut ainsi régler l'influence de chaque point, la type de noyau ou bien la sensibilité au bruit (données mal étiquetées ou bien mélangées). Ces hyper-paramètres, bien que peu nombreux dans le cas des SVM, sont un obstacle à l'autonomie d'une méthode d'apprentissage. J'ai étudié ce problème au travers des chemins de régularisation.
L'hyper-paramètre concerné par cette méthode est celui qui règle l'influence maximale d'un point dans la solution (et donc qui règle la sensibilité au bruit). Il est noté C et influe sur la régularité de la solution. Parcourir le chemin de régularisation consiste à regarder l'ensemble des solutions pour l'ensemble des valeurs possibles de C. Cette valeur, dans les SVM, est comprise entre 0 et l'infini . Pour rendre plus aisé le parcours de toutes les valeurs, il est possible de reformuler les SVM de façon à ce que l'hyper-paramètre de régularisation varie entre 0 et 1 . Dans ce cas, la méthode est appelée nu-SVM et l'hyper-paramètre correspondant à C est nu.
Une fois que l'on sait parcourir l'ensemble des solutions pour tous les compromis de régularisation, on peut évaluer la qualité des solutions obtenues et sélectionner le meilleur hyper-paramètre. Nous proposons dans ce chapitre de parcourir le chemin de régularisation pour les nu-SVM et d'évaluer la qualité des solutions au fur et à mesure de l'avancement plutôt qu'à la fin. Ainsi nous pouvons arrêter l'apprentissage avant d'avoir parcouru tout le chemin (les extrêmes étant de manière générale des solutions peu recommandées).
En comparaison des approches existantes du chemin de régularisation pour les SVM, les travaux présentés ont l'avantage de parcourir le chemin dans le sens opposé. Ainsi, alors que la méthode classique consiste à commencer avec tous les exemples vecteurs supports (ce qui implique un calcul complet du noyau), la méthode proposée commence avec le minimum possible de vecteurs supports. Si le but est de connaître toutes les solutions du chemin, cela n'apporte pas grand chose. En revanche, puisque l'on cherche à arrêter l'apprentissage en cours, il devient pertinent de ne pas calculer le noyau complet. Ainsi il est possible de traiter de plus grandes bases de données avec un chemin de régularisation.