Normalisation non linéaire des déplacements et du strain par les méthodes à noyaux

Lyon, 10/01/13

Gaëlle Loosli

LIMOS, Université Blaise Pascal, Clermont-Ferrand

La normalisation du point de vue de l'apprentissage

  • Un problème de regression : trouver une fonction qui permet d'expliquer une grandeur en fonction de mesures
  • Grandeur : l'amplitude des déplacements à partir desquels sont calculés les strain
  • Mesures : caractéristiques des patients
  • Approche classique : regression linéaire
  • Approche présentée : regression non linéaire, à noyaux
  • Propriété souhaitée : avoir une solution interprétable

Méthodes à noyaux pour la regression

Petit point de vocabulaire

Le noyau

  • une fonction de 2 variables k(xi,xj)
  • assimilable à une mesure de similarité
  • permet de virtuellement projeter les données dans un espace de grande dimension, dans lequel le problème est linéaire
  • sans connaitre cette projection

Principe général simpliste

  • à partir d'un algorithme linéaire utilisant un produit scalaire w,x
  • on remplace les produits scalaire par la fonction noyauw,xf(.),k(x,.)
  • on utilise un théorème de représentation pour formuler la solution en fonction du noyau f(x)=w,xf(x)=f(.),k(x,.)=iαik(xi,x)
  • Remarque : wd et αn Perte de l'interprétabilité

Les bases linéaires

Moindres carrés

  • X=[x1x2...xj...xd]
  • coût : S(β)=yXβ2=yμˆ2
  • prédiction : μˆ=Xβ=j=1dxjβj
  • solution : S(β)=0X(yμˆ)=0βMC=(XX)1Xy

Régression 1

  • minβˆdi=1nyij=1dxjβj

Fidélité aux données VS Régularisation

  • On optimise un problème selon un compromis (eq. biais/variance)
  • Fidélité aux données : choisir S(β) (moindres carrés)
  • Régularisation : définir T(β) et minimiser S(β) et T(β).
    minβdS(β)+λT(β)minβdS(β)avecT(β)t
  • Sélection de modèle : Choisir au mieux λ pour obtenir le meilleur compromis chemins de régularisation

Algorithme efficace

  • critères (S et T) convexes
  • parcimonie : jtels queβj=0 critère singulier

Régulier (2) VS. Singulier (1)

S(β)1212T(β)1122MéthodesDantzig Selector, LP SVR (Linear Programming SVR) LASSO/K-LASSO, LARS (Least Angle Regression stagewise) SVR (support vector regression)Ridge regression

Formulation de quelques méthodes

Kernel LASSO (Kernel Basis Pursuit)

minαnyKα2+λi=1n|αi|

Support Vector Regression

minf,ξtel que12f2+Ci=1n|ξi||f(xi)yi|t+ξi0ξii=1,n

avec f(x)=i=1:nαik(xi,x)+b

Interprétabilité?

Sélection de variable "classique"

  • Forward, Backward, Stepwise
  • Très coûteux (beaucoup d'étapes qui se combinent à la sélection de modèle), problème du choix du critère

Sélection de variable "intégrée"

  • Introduire une régularisation 1 dans le calcul du noyau
  • Coûteux (Optimisation de type EM pour apprendre à la fois les poids du noyau et les poids de la solution, combiné à la sélection de modèle)

Détournement du MKL (Multiple Kernel Learning)

  • MLK : apprendre le noyau (combinaison d'éléments d'un dictionnaire de noyaux) en même temps que résoudre le problème
  • Résolution : Un LASSO qui intègre la résolution d'un SVR à chaque étape
  • Utilisation pour la sélection de variable : dictionnaire composé d'un noyau par variable
  • Le poids de chaque noyau donne l'importance de chaque variable dans la solution
  • Algorithme performant, supprime une partie de la sélection de modèle en composant bien le dictionnaire de noyaux

Exemple pratique : Résistance à la compression du béton (UCI)

Description du problème

La résistance à la compression du béton est une fonction hautement non-linéaire de l'âge et ingrédients

  • Age
  • Ciment
  • Scories dans le haut forneau
  • Cendres
  • Eau
  • Superplastifiant
  • Granulats grossiers
  • Granulats fins

Prédire la résistance

LASSO VS MKL, résultat 1

LASSO : Corr2 = 0.6743

MKL : Corr2 = 0.9171

LASSO VS MKL, résultat 1

LASSO VS MKL, interprétabilité

Les variables utilisées sont similaires.

Bibliographie

  • Le LAR(s) et autres méthodes de régression parcimonieuse, S.Canu, Présentation SfS 2006
  • SimpleMKL. Alain Rakotomamonjy, Francis R. Bach, Stéphane Canu, Yves Grandvalet; JMLR, 9(Nov):2491--2521, 2008.
  • Modeling of strength of high-performance concrete using artificial neural networks. I.-C. Yeh, Cement and Concrete Research, Volume 28, Issue 12, December 1998, Pages 1797–1808
  • A tutorial on support vector regression, Alex J. Smola et Bernhard Schölkopf,STATISTICS AND COMPUTING Volume 14, Number 3 (2004), 199-222, DOI: 10.1023/B:STCO.0000035301.49549.88
  • Kernel logistic regression and the import vector machine, Ji Zhu and Trevor Hastie, Journal of Computational and Graphical Statistics, vol. 14, pp. 185–205, 2005.
  • On the consistency of feature selection using greedy least squares regression. T Zhang - Journal of Machine Learning Research, 2009
  • An introduction to variable and feature selection. I Guyon, A Elisseeff - The Journal of Machine Learning Research, 2003
  • Kernel basis pursuit. V Guigue, A Rakotomamonjy, S Canu - Machine Learning: ECML 2005, 2005 - Springer