Institut de Mathématiques de Luminy

STATISTIQUE ET APPLICATIONS


Thèmes de recherche de l'équipe

Recherche théorique

On peut distinguer quatre grands thèmes de recherche qui sont :

Les applications

L'environnement particulier de Luminy incite plus particulièrement les membres de l'équipe à développer des modèles et des outils pour des applications en biologie, en sciences humaines et sociales, en économie et en environnement.


Apprentissage statistique

La théorie de l'apprentissage statistique a repris quelques résultats existants en régression, discrimination, estimation de densité et classification, pour leur donner un nouveau cadre plus précis et moins restreint. Nous nous intéressons à des méthodes d'apprentissage modernes tels que les arbres de régression et de classification, l'agrégation de modèles par bootstrap et les machines à vecteurs support (SVM). Dans ce contexte quelques extensions méthodologiques ont été proposées avec succès tel que les arbres de régression pour des réponses multivariées et fonctionnelles [5] et les arbres avec des variables explicatives fonctionnelles. Une des questions ouvertes dans le contexte de l'apprentissage supervisé est celle du choix des modèles et en particulier des variables explicatives pertinentes pour la prédiction de la variable dépendante. Nous avons proposé dans des travaux récents ([2]) une procédure séquentielle particulièrement adaptée aux SVM mais aussi utilisable pour les arbres et les forêts aléatoires. Cette procédure permet de sélectionner le sous ensemble optimal de variables explicatives à conserver dans un modèle de classification. Elle reste très efficace surtout dans les situations où le nombre d'observations est très faible par rapport au nombre de variables. Des algorithmes proposés dans [56] permettant d'étendre les méthodes de type boosting au cas où la réponse est multi-catégorielle sont en cours d'étude. Une approche spécifiquement adaptée au cas où la variable modélisée est non observable a été récemment proposée [58].

=> Applications : en environnement ([38], [53]) ; en génomique ([27], [61], [58]), [31],[30]).

Variables latentes

Dans ce thème nous regroupons les modèles de mélanges, les modèles mixtes et les données manquantes.
Les mélanges de lois sont largement étudiés depuis une dizaine d'années du fait de leurs nombreuses applications et du développement de l'outil informatique pour estimer les paramètres de ces modèles.
Dans [16] nous obtenons des approximations de la densité de ces mélanges et nous en déduisons des bornes pour les distances en normes L1, L2 et pour la distance de Kolmogorov. Dans [14], [16] et [15] nous considérons d'autres types de mélanges portant sur le paramètre de la moyenne et sur le paramètre de convolution. C'est ainsi que nous obtenons un développement polynomial de la loi du mélange et que nous en déduisons une expression de la distance entre la loi mélangée et la loi parente.
Nous étudions également l'effet d'un changement de marge (considéré comme une éventuelle approximation) sur la loi jointe dans [13].
Les modèles mixtes ont connu un essor important ces dix dernières années et certaines approches sont liées aux techniques bayésiennes, comme les algorithmes de type EM et les méthodes MCMC. Un premier travail a été soumis sur ce thème [49]. Un deuxième article est en préparation : il s'agit de l'application de l'algorithme RJCMCM pour estimer les paramètres d'un mélange tout en sélectionnant le nombre de variables significatives par méthode bayésienne.
Nous proposons deux méthodes pour résoudre des problèmes inverses non linéaires pour la quantification d'incertitudes dans un modèle physique, en collaboration avec EDF R&D. Le but est l'estimation de paramètres dans un problème avec des données manquantes (modèle mixte) lorsque la fonction reliant les observations aux données manquantes est complexe et coûteuse en temps de calculs CPU. Pour commencer, une approximation linéaire du modèle a été proposée ([6]). Actuellement, une méthode non linéaire est développée couplant l'utilisation de l'algorithme SEM et une approximation de la fonction complexe à l'aide du krigeage ([7]). D'autres travaux sont en cours ([50]).
En statistique bayésienne, dans [1] une méthode de choix de modèle est proposée pour décider entre un modèle de Poisson, un modèle binomial ou binomial négatif.

Récemment, avec une approche bayésienne, une nouvelle mesure invariante par changement de paramètrisation a été proposée et appliquée dans le cadre de la loi inverse Gaussienne ([55]).
Enfin, un thème très porteur de la statistique est celui des données manquantes, problème récurrent dans de nombreuses analyses. Nous travaillons actuellement sur la mise en place d'un test pour détecter le caractère aléatoire de la non réponse ([64]). Une autre approche est mise en oeuvre pour pouvoir imputer les valeurs manquantes grâce à différentes méthodes (PLS, modèles mixtes).

=>  Applications : avec le laboratoire de Médecine Tropicale des Armées,([19], [21], [26]) ; en génomique, ([22], ([20], ([23], ([18], ([24], ([25], [65].

Processus

Ce thème plus récent est aujourd'hui ancré dans les travaux de l'équipe. En collaboration avec Mohamed Boutahar, nous travaillons sur une méthode non paramétrique pour comparer deux processus observés sous forme de panel.
Un preprint est rédigé ([52]) et une extension est envisagée. Dans un cadre de processus non stationnaires nous avons mis en oeuvre un algorithme pouvant être utilisé "en-ligne" sous contraintes de ressources, en mémoire ou en temps de calcul ([4]). Un projet est en cours d'élaboration. Dans le cadre des modèles à longue mémoire on s'intéresse à l'estimateur des paramètres d'un processus autorégressif. Plusieurs travaux sont liés à ce thème : [43] où sont considérés considérés les modèles ARFIMA, [39] où est proposé un Théorème Central Limite Fonctionnel pour les processus à longue mémoire non Gaussiens, [44] et [40] qui concernent l'estimation du paramètre de longue mémoire.
Enfin, un résultat d'estimation sous contrainte est obtenu dans le cadre de processus de Poisson et de taux de hasard dans [47].

=> Applications : avec l'AFSSA (Agence Française de Sécurité Sanitaire des Aliments), ([29]), et avec l'INRA, ([10], [34], [33]). En finance/assurance : [41], [45], [42].

Construction de tests

Il s'agit d'un thème toujours en expansion en statistique et qui est à la base de la statistique inférentielle.
Nous poursuivons tout d'abord notre étude des mélanges avec la construction d'un test d'adéquation pour différents types de mélanges ([17]). Nous proposons également d'adapter ce test dans le cadre d'un problème de déconvolution ([63]) et ainsi de tester la loi d'une variable entachée d'erreur.

Également, des résultats théoriques de caractérisation de lois permettent de construire des tests utilisant des propriétés satisfaites par certaines distributions ([11], [12], [9] et [8]) et [46]).
Nous nous intéressons aussi à la construction d'un test non-paramétrique d'homogénéité des distributions de deux populations dépendantes (appariées ou non) et nous proposons un test adaptatif construit à partir de coefficients des fonctions de densités dans une base de polynômes orthogonaux ([59]). Ce travail est aussi étudié avec des outils d'estimation de densité non paramétrique lorsque l'on veut comparer plus de deux populations statistiques. Un travail actuellement soumis a permis de mettre en place un test statistique pour vérifier l'hypothèse que deux échantillons proviennent de densités f1 et f2 sont liées par une fonction monotone ([57]).

=>  Applications : des projets d'applications en actuariat sont en cours.

 


Mise à jour : 8 décembre 2009, EL