En statistique, les M-estimateurs constituent une large classe de statistiques obtenues par la minimisation d'une fonction dépendant des données et des paramètres du modèle. Le processus du calcul d'un M-estimateur est appelé M-estimation. De nombreuses méthodes d'estimation statistiques peuvent être considérées comme des M-estimateurs. Dépendant de la fonction à minimiser lors de la M-estimation, les M-estimateurs peuvent permettre d'obtenir des estimateurs plus robustes que les méthodes plus classiques, comme la méthode des moindres carrés.

Définition

Les M-estimateurs ont été introduits en 1964 par Peter Huber sous la forme d'une généralisation de l'estimation par maximum de vraisemblance à la minimisation d'une fonction ρ sur l'ensemble des données. Ainsi, le (ou les) M-estimateur associé aux données et à la fonction ρ est estimé par

θ ^ = argmin θ ( i = 1 n ρ ( x i , θ ) ) {\displaystyle {\hat {\theta }}=\operatorname {argmin} _{\theta }\left(\sum _{i=1}^{n}\rho (x_{i},\theta )\right)}

Le M de M-estimateur provient donc du maximum de vraisemblance (maximum likelihood-type en anglais) et les estimateurs par maximum de vraisemblance sont un cas particulier des M-estimateurs.

Types

La résolution du problème de minimisation passe couramment par une différentiation de la fonction cible. En effet, pour chercher θ ^ {\displaystyle {\hat {\theta }}} , une méthode simple consiste à chercher les valeurs telles que

θ ( i = 1 n ρ ( x i , θ ) ) = 0. {\displaystyle {\frac {\partial }{\partial \theta }}\left(\sum _{i=1}^{n}\rho (x_{i},\theta )\right)=0.}

Dans le cas où cette différentiation est possible, le M-estimateur est dit de type ψ ; sinon, il est dit de type ρ.

Type ρ

Pour un entier positif r, soit ( X , Σ ) {\displaystyle ({\mathcal {X}},\Sigma )} et ( Θ R r , S ) {\displaystyle (\Theta \subset \mathbb {R} ^{r},S)} des espaces mesurables, et θ Θ {\displaystyle \theta \in \Theta } est un vecteur de paramètres. Un M-estimateur de type ρ T {\displaystyle T} est défini par une fonction mesurable ρ : X × Θ R {\displaystyle \rho :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R} } . Il envoie la fonction de répartition d'une loi de probabilités F {\displaystyle F} sur X {\displaystyle {\mathcal {X}}} vers la valeur T ( F ) Θ {\displaystyle T(F)\in \Theta } (si elle existe) qui minimise X ρ ( x , θ ) d F ( x ) {\displaystyle \int _{\mathcal {X}}\rho (x,\theta )\,\mathrm {d} F(x)} , soit :

T ( F ) := arg min θ Θ X ρ ( x , θ ) d F ( x ) {\displaystyle T(F):=\arg \min _{\theta \in \Theta }\int _{\mathcal {X}}\rho (x,\theta )\mathrm {d} F(x)}

Par exemple, la fonction qui correspond à l'estimateur du maximum de vraisemblance et ρ ( x , θ ) = log ( f ( x , θ ) ) {\displaystyle \rho (x,\theta )=-\log(f(x,\theta ))} , avec f ( x , θ ) = F ( x , θ ) x {\displaystyle f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}} .

Type ψ

Si ρ {\displaystyle \rho } est dérivable par rapport à θ {\displaystyle \theta } , le calcul de θ ^ {\displaystyle {\widehat {\theta }}} est souvent plus simple. Un M-estimateur de type ψ T est défini pour une fonction mesurable ψ : X × Θ R r {\displaystyle \psi :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R} ^{r}} . Il envoie la fonction de répartition d'une loi de probabilités F sur X {\displaystyle {\mathcal {X}}} vers la valeur T ( F ) Θ {\displaystyle T(F)\in \Theta } (si elle existe) qui vérifie l'équation vectorielle:

X ψ ( x , θ ) d F ( x ) = 0 {\displaystyle \int _{\mathcal {X}}\psi (x,\theta )\,dF(x)=0}
X ψ ( x , T ( F ) ) d F ( x ) = 0 {\displaystyle \int _{\mathcal {X}}\psi (x,T(F))\,dF(x)=0}

Par exemple, pour l'estimateur du maximum de vraisemblance, on a ψ ( x , θ ) = ( log ( f ( x , θ ) ) θ 1 , , log ( f ( x , θ ) ) θ p ) T {\displaystyle \psi (x,\theta )=\left({\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{1}}},\dots ,{\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{p}}}\right)^{\mathrm {T} }} , avec u T {\displaystyle u^{\mathrm {T} }} désignant le vecteur transposé de u et f ( x , θ ) = F ( x , θ ) x {\displaystyle f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}} .

Un tel estimateur n'est pas nécessairement un M-estimateur de type ρ, mais si ρ est dérivée et de dérivée continue par rapport à θ {\displaystyle \theta } , alors une condition nécessaire pour qu'un M-estimateur de type ψ soit un M-estimateur de type ρ est ψ ( x , θ ) = θ ρ ( x , θ ) {\displaystyle \psi (x,\theta )=\nabla _{\theta }\rho (x,\theta )} . De telles définitions peuvent être adaptés aux échantillons finis.

Si la fonction ψ décroit vers zéro quand x ± {\displaystyle x\rightarrow \pm \infty } , l'estimateur est dit décroissant. De tels estimateurs ont d'autres propriétés utiles, comme le rejet des valeurs aberrantes évidentes.

Exemples de M-estimateurs

Parmi les exemples connus de M-estimateurs, on peut citer :

  • ρ ( x ) = x 2 {\displaystyle \rho (x)=x^{2}} , ce qui revient à appliquer la méthode des moindres carrés
  • ρ ( x ) = | x | {\displaystyle \rho (x)=|x|}
  • ρ k ( x ) = { x 2 2  si  | x | < k k ( | x | k 2 )  si  | x | k {\displaystyle \rho _{k}(x)={\begin{cases}{\frac {x^{2}}{2}}&{\text{ si }}|x| (fonction de Huber (en))
  • ρ c ( x ) = c 2 2 ln ( 1 ( x c ) 2 ) {\displaystyle \rho _{c}(x)={\frac {c^{2}}{2}}\ln \left(1 \left({\frac {x}{c}}\right)^{2}\right)} (fonction de Lorentz)
  • ρ c ( x ) = x 2 2 ( 1 x 2 2 c 2 x 4 6 c 4 ) {\displaystyle \rho _{c}(x)={\frac {x^{2}}{2}}\left(1-{\frac {x^{2}}{2c^{2}}} {\frac {x^{4}}{6c^{4}}}\right)} (bipoids de Tukey)

Articles connexes

  • Méthode des moindres carrés

Références

  • Peter J. Huber, Robust Statistics, Wiley, 1981, 2004
  • Portail des probabilités et de la statistique

(PDF) M estimation, S estimation, and MM estimation in robust regression

Mestimator Encyclopedia of Mathematics

14 Estimateur MCO YouTube

 Mestimator results in RR configuration. Same legend as Figure 2 but

AMestimators versus Mestimator for α = −10. Download Scientific Diagram