Détection par boosting de données aberrantes en régression

Nathalie Chèze 1 Jean-Michel Poggi 2, 3
3 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : Nous proposons une méthode basée sur le boosting, pour la détec-tion des données aberrantes en régression. Le boosting privilégie naturellement les observations difficiles à prévoir, en les surpondérant de nombreuses fois au cours des itérations. La procédure utilise la réitération du boosting pour sélec-tionner parmi elles les données effectivement aberrantes. L'idée de base consiste à sélectionner l'observation la plus fréquemment rééchantillonnée lors des itéra-tions du boosting puis de recommencer après l'avoir retirée. Le critère de sélec-tion est basé sur l'inégalité de Tchebychev appliquée au maximum du nombre moyen d'apparitions dans les échantillons bootstrap. Ainsi, la procédure ne fait pas d'hypothèses sur la loi du bruit. Des exemples tests bien connus sont consi-dérés et une étude comparative avec deux méthodes classiques illustrent le com-portement de la méthode.
Document type :
Journal articles
Complete list of metadatas

Cited literature [14 references]  Display  Hide  Download

https://hal-univ-paris10.archives-ouvertes.fr/hal-01633701
Contributor : Administrateur Hal Nanterre <>
Submitted on : Tuesday, November 21, 2017 - 10:05:24 AM
Last modification on : Tuesday, November 19, 2019 - 9:53:34 AM

File

1000722.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01633701, version 1

Collections

Citation

Nathalie Chèze, Jean-Michel Poggi. Détection par boosting de données aberrantes en régression. Revue des Nouvelles Technologies de l'Information (RNTI), 2008, pp.159--171. ⟨hal-01633701⟩

Share

Metrics

Record views

134

Files downloads

303