Programme du Séminaire de Statistique et Applications

Organisateur : Badih Ghattas

 

 

Lieu : Amphi Herbrand - Institut de Mathématiques de Luminy (1er étage), Université de la Méditerranée

Jour : Le lundi (en alternance avec un groupe de travail sur le Bootstrap)

Horaires : de 14h à 15h pour un séminaire simple,  de 14h à 16h pour un double séminaire

 

Prochain séminaire

Quelques informations générales, plans d'accès, coordonnées organisateurs, remboursement de frais.

Séminaires 2012-2013


Date

Titre

Intervenant

Etablissement





22/10/12

Une application de l'ACP de mesures à l'étude de l'impact de la bioturbation sur la structure granulométrique de sédiments

Claude Manté

AMU

29/10/12

 

 

 

05/11/12

 

 

 

12/11/12

Influence measures for CART classification trees

 A. Bar Hen

Université Paris V 

19/11/12

 

 

 

26/11/12

Modélisation du Response Shift en qualité de vie.

M. Boucekine

AMU

03/12/12

Consistency of Adaptive Multiple Importance Sampling.

M. Sedki

Université Montpellier II.

10/12/12

Un modèle par blocs pour la classification de graphes temporels

 F. Rossi

Université de Paris I. 

17/12/12

 

 

 

07/01/13




!!A la FRUMAM!!

Problèmes inverses et méthodes d'ondelettes en statistique non paramétrique

 T. Willer

 AMU

14/01/13

Model-based clustering for multivariate partial ranking data

 C. Biernacki

Université Lille 1

21/01/13

 

 

 

28/01/13

 Classification de séries temporelles.

 A. Douzal

UJF Grenoble - IMAG

04/02/13

 

 

 




11/02/13

!! 13h45

On clustering procedure and nonparametric mixture estimation

 L. Rouvière

Université Rennes 2.

18/02/13

 



25/02/13

Vacances Février

04/03/13

 

 

 

11/03/13

Méthodes séquentielles en Analyse des Données par approximation stochastique

 J.M. Monnez

Université de Lorraine

18/03/13

Functional Clustering using Wavelets

   J.M. Poggi

 Université paris V et Labo d'Orsay.

25/03/13

Critical issues and developments in high-dimensional prediction with biomedical applications

A.L. Boulesteix




Ludwig Maximilans University




01/04/13

Pâques

08/04/13

 

 

 

12/04/13-28/04/13

Vacances Printemps

29/04/13

 

 

 

06/05/13

  Agregation d'estimateurs de densité.

 M. Bourel

  IML et Université de la République, Montevideo.

13/05/13

Analyse des données longitudinales : nouvelles approches C. Genolini Université Paris 10

20/05/13

 

27/05/13

45èmes Journées de Statistique

07/06/13 (Vendredi)

Deuxième Rencontre Statistique Marseille-Avignon

10/06/13

 

 

 

17/06/13

Prévision de la consommation électrique par mélange d'experts spécialisés.


Pierre Gaillard

ENS - EDF

24/06/13

 

 

 

 

Séminaires 2011-2012 , Séminaires 2010-2011 , Séminaires 2009-2010 , Séminaires 2008-2009

Anciens séminaires

 


Claude Manté

Une application de l'ACP de mesures à l'étude de l'impact de la bioturbation sur la structure granulométrique de sédiments.

Les courbes granulométrique sont utilisées en routine par les géologues, pour caractériser les sédiments, analyser leurs conditions de dépôt, etc. Une telle courbe F possède trois caractéristiques: (1) elle est croissante, car F(x) mesure l'importance relative de la quantité de grains de "taille<x" dans le sédiment (2) elle a été échantillonnée en fonction d'une grille dépendant de l'appareil utilisé (3) l'allure de chaque courbe dépend de l'échelle utilisée (il existe plusieurs définitions de la "taille de grain"). Une courbe granulométrique possède donc la plupart des caractéristiques d'une fonction de répartition, et l'on peut considérer sa dérivée de Radon-Nikodym relativement à une mesure de référence µ.

Ce travail consiste à théoriser et à pratiquer l'ACP de telles densités de Radon-Nikodym. La méthode proposée tient à la fois compte des caractéristiques des courbes granulométriques et de la mesure de référence µ choisie pour l'analyse, en relation avec des notions classiques (transport de mesures, dominance, problèmes d'approximation, etc.). On l'utilise pour répondre à une question écologique: le polychaete Nereis diversicolor modifie-t-il notablement la structure du sédiment, et si oui, la perturbation dépend-elle de la profondeur et/ou du nombre d'organisme?

Pour ce, on a analysé 552 courbes granulométrique, en utilisant trois mesures de référence distinctes et complémentaires. L'ANOVA des premiers facteurs montre que dans tous les cas considérés, Nereis diversicolor modifie la structure sédimentaire, et que le nombre d'animaux impliqués joue un rôle indiscutable, contrairement à la profondeur.


Avner Bar-Hen

Influence measures for CART classification trees .


Classification And Regression Trees (CART) have proven to be very useful in various applied contexts mainly because models can include numerical as well as nominal explanatory variables and because models can be easily represented.

This talk present tools to measure the influence of observations on the results obtained with CART classification trees. To define the influence of individuals on the analysis, we use influence measures to propose criterions to measure the sensitivity of the CART classification tree analysis. The proposals are based on predictions and use jackknife trees. The analysis is extended to the pruned sequences of CART trees to produce  CART specific notions of influence. Using the framework of influence functions, distributional results are derived.

A numerical example, the well known spam dataset, is presented to illustrate the notions developed throughout the paper. A real dataset relating the administrative classification of cities surrounding Paris, France, to the characteristics of their tax revenues distribution, is finally analyzed using the new influence-based tools.

This is a joint work with Servane Gey and Jean-Michel Poggi



Mohamed Boucekine

Modélisation du Response Shift en Qualité de Vie.



Après la mise à disposition d’une multitude de questionnaire de plus en plus spécifique de  la qualité de vie, on observe aujourd’hui des réflexions particulièrement intéressantes sur les limites de l’interprétation des résultats. Le point de départ de ces réflexions se situe dans la découverte que les personnes atteintes d’une affection chronique indique souvent une qualité de vie pas nécessairement inférieure à celle de sujets apparemment indemnes de maladie. Dans des enquêtes fondées sur la dimension temporelle des paradoxes semblables sont apparus. En effet contrairement à l’hypothèse sous-jacente qui stipule que la qualité de vie se détériore avec la progression de la maladie, il est apparu qu’une personne malade peut indiquer un niveau de qualité de vie stable malgré une nette détérioration de son état de santé. Défini par le terme « response shift », ce phénomène renvoie à la capacité de l’individu à changer ses « standards de mesure », ses valeurs et sa conception de la qualité de vie au cours de son affection. On verra comment les méthodes statistiques sont utilisées à profit pour identifier ce phènomène.


Mohamed Sedki

Consistency of Adaptive Multiple Importance Sampling.


L’algorithme AMIS (Adaptive Multiple Importance Sampling) de Cornuet et al. (2012) se distingue par sa stabilité et son gain considérable en ESS (Effective Sample Size) grâce a la procédure de recyclage employée dans son schéma adaptatif. Ces propriétés numériques sont particulièrement adéquates pour les modèles bayésiens en génétique des populations comportant un grand nombre de paramètres. Toutefois, la question de la convergence de l’estimateur AMIS est largement ouverte. Dans ce travail, nous montrons la convergence d’une version légèrement modifiée de cet algorithme en conservant ses qualités numériques.

Among Monte Carlo techniques, the importance sampling requires fine tuning of a proposal distribution, which is now fluently done with iterative schemes. The Adaptive Multiple Importance Sampling (AMIS) of Cornuet et al. (2012) provides a significant improvement in stability and Effective Sample Size due to the introduction of a recycling procedure. However, the consistency of the AMIS estimator remains largely open. In this work we provides proofs of the convergence of the AMIS, at a cost of a slight modification in the learning process. First numerical experiments exhibit that this modification might even improve the original scheme.  


Fabrice Rossi

Un modèle par blocs pour la classification de graphes temporels

en collaboration avec R. Guigourès et M. Boullé de Orange Labs Lannion.

Nous présentons dans ce travail une méthode de classification adaptée aux graphes temporels s'appuyant sur l'approche d'estimation de densité en grille MODL dévelopée par M. Boullé. Nous étudions des multi-graphes orientés temporels : chaque arc possède une estampille temporelle et chaque paire de sommets peut être reliée par plusieurs arcs. L'objectif de la méthode est la production d'une classification tri-dimensionnelle (un tri-clustering) c'est-à-dire une classification croisée des sommets en tant qu'origines des arcs, des sommets en tant que destinations des arcs et des estampilles temporelles. Pour choisir de façon totalement non paramétrique la meilleure classification 3D, nous introduisons un modèle bayésien hiérarchique qui utilise des distributions à priori non informatives (uniformes). Ce modèle est suffisamment simple pour permettre le calcul exact de la probabilité à posteriori de n'importe quelle classification sachant les données, ce qui conduit à un problème d'optimisation combinatoire visant à maximiser cette probabilité. Une stratégie gloutonne associée à des structures de données adaptées permet d'obtenir efficacement des solutions de bonne qualité. Nous illustrons l'intérêt de la méthode sur un exemple de données réelles issues du système de vélos en libre service de Londres.



Thomas Willer

Problèmes inverses et méthodes d'ondelettes en statistique non paramétrique



On s'intéresse à un problème d'estimation où une fonction initiale subit un lissage par un opérateur mal posé, et est bruitée par un bruit blanc gaussien additif. On veut retrouver la fonction initiale, connaissant la version bruitée et lissée, l'opérateur et l'amplitude du bruit blanc. On présentera deux familles de méthodes: les décompositions en valeurs singulières, et les méthodes d'ondelettes. Parmi ces dernières, on verra les limites des méthodes reposant sur des ondelettes "classiques", et comment on peut contourner ces limites en utilisant de nouvelles constructions d'ondelettes. On présentera les performances théoriques (risque minimax) et pratiques (étude sur des données simulées) des divers estimateurs.



Christophe Biernacki

Model-based clustering for multivariate partial ranking data


We propose the first model-based clustering algorithm dedicated to multivariate partial ranking data. This is an extension of the Insertion Sorting Rank (ISR) model for ranking data, which is a meaningful and effective model obtained by modelling the ranking generating process assumed to be a sorting algorithm. The heterogeneity of the rank population is modelled by a mixture of ISR, whereas conditional independence assumption allows the extension to multivariate ranking. Maximum likelihood estimation is performed through a SEM-Gibbs algorithm, and partial rankings are considered as missing data, what allows to simulate them during the estimation process. After having validated the estimation algorithm on simulations, three real datasets are studied: the 1980 American Psychological Association (APA) presidential election votes, the results of French students to a general knowledge test and the votes of the European countries to the Eurovision song contest. For each application, the proposed model shows relevant adequacy and leads to significant interpretation. In particular, regional alliances between European countries are exhibited in the Eurovision contest, which are often suspected but never proved.

-

.

A. Douzal

Classification de séries temporelles.

Mes travaux de recherche portent sur l’analyse de données temporelles et s’articulent en trois parties : -la représentation de séries temporelles, -la définition de métriques et leur apprentissage, -ainsi que la proposition de nouvelles approches de classification dédiées aux séries temporelles. Le déploiement de statistiques d’autocorrélation spatiale sur des structures de contiguïté particulières, telle que temporelle, met en évidence des propriétés intéressantes. Elles permettent, par exemple, d’appréhender le comportement des séries (aléatoire, chaotique), d’évaluer le niveau de saillance d’un événement, ou de mesurer la dépendance locale ou globale entre une structure évolutive et les observations associées. Ces propriétés ont guidé nos principaux travaux.

Ainsi, notre première contribution concerne la représentation compacte de séries multivariées. Nous avons étudié une approche de réduction de la dimension temporelle de séries multivariées, par segmentation, préservant les corrélations inférées par la série ; l’identification de segments saillants étant guidée par la variance locale. Dans la deuxième partie de notre travail, nous nous sommes intéressé à la définition de métriques intégrant la composante forme des séries et leur positionnement dans un cadre plus général. L’alignement de séries étant un concept fondamental dans la définition de métriques, notre intérêt a porté, ensuite, sur l’apprentissage de couplages pour la discrimination de classes de séries complexes. L’approche proposée vise à lier les séries selon les caractéristiques communes au sein des classes et différentielles entre les classes. Le couplage ainsi appris permet de dériver une métrique locale pondérée restreignant la comparaison des séries aux attributs discriminants. Enfin, le troisième volet de nos travaux est dédié à l’extension des arbres de classification/régression à des variables prédictives temporelles. L’arbre temporel de classification proposé recours à un nouveau critère de coupure fondé sur une métrique adaptative et la localisation de sous-séquences discriminantes.


Laurent Rouvière

On clustering procedure and nonparametric mixture estimation

(joint work with Stéphane Auray and Nicolas Klutchnikoff)

In this work, we propose a clustering approach to estimate densities in mixture models. Given a sample of random pairs (Y1,X1),...,(Yn,Xn) where the random variables Yi's are generated according to an unknown probability density f(y)= f1(y)...+fM(y), the aim is to estimate densities fj, j=1,...M. Our strategy consists to perform a clustering procedure on the sample (X1,..., Xn) to guess the group of each observation and then to compute a kernel density estimate on the Yi's of each group. Under mild assumptions on the performances of the clustering procedure, we show that the resulting estimates of the fj's achieve the minimax rate over Nikol'skii class of densities. Finally, we offer examples of clustering methods verifyingthe required assumptions.


Jean Marie Monnez

Méthodes séquentielles en Analyse des Données par approximation stochastique.

Dans le contexte actuel des flux de données et des données de grande dimension, l’utilisation de processus récursifs d’approximation stochastique permet d’obtenir des estimations séquentielles actualisées à chaque introduction d’une donnée ou d’un paquet de données et dont le calcul est relativement simple. Il est ainsi inutile de stocker les données et la rapidité de calcul permet de prendre en compte dans le même temps plus de données qu’une méthode classique. En outre, le caractère séquentiel de ces méthodes permet de tenir compte de variations dans le temps de la loi des données. Une méthode classique comme l’algorithme séquentiel des k-means de MacQueen en classification non supervisée peut être interprétée comme une méthode de gradient stochastique. On peut utiliser cette approche dans des domaines comme la régression multiple sans contrainte ou sous contraintes convexes, la classification non supervisée, l’ACP et les méthodes dérivées, entre autres. Après une brève introduction sur le principe de l’approximation stochastique illustré par des exemples, on en présentera l’utilisation dans certains de ces domaines.



Jean Michel Poggi

Functional Clustering using Wavelets.

We present two methods for detecting patterns and clusters in high dimensional time-dependent functional data. Our methods are based on wavelet-based similarity measures, since wavelets are well suited for identifying highly discriminant local time and scale features. The multiresolution aspect of the wavelet transform provides a time-scale decomposition of the signals allowing to visualize and to cluster the functional data into homogeneous groups. For each input function, through its empirical orthogonal wavelet transform the first method uses the distribution of energy across scales to generate a representation that can be sufficient to make the signals well distinguishable. Our new similarity measure combined with an efficient feature selection technique in the wavelet domain is then used within more or less classical clustering algorithms to effectively differentiate among high dimensional populations. The second method uses similarity measures between the whole time-scale representations that are based on wavelet-coherence tools. The clustering is then performed using a k-centroid algorithm starting from these similarities. Practical performance of these methods that jointly design both the feature selection in the wavelet domain and the classification distance is illustrated through simulations as well as daily profiles of the French electricity power demand. This is a joint work with A. Antoniadis, X. Brossat and J. Cugliari More details can be found in A. Antoniadis, X. Brossat, J. Cugliari, J.-M. Poggi, Functional Clustering using Wavelets, accepted for publication, International Journal of Wavelets, Multiresolution and Information Processing, 2012, DOI: 10.1142/S0219691313500033.

Anne Laure Boulesteix

Critical issues and developments in high-dimensional prediction with biomedical applications.

The construction of prediction rules based on high-dimensional molecular ("omics") data in small sample settings has been the focus of abundant literature in computational statistics and bioinformatics in the last decade. Such rules may be used in medical practice, e.g., to predict the clinical outcome of patients based on their transcriptomic, proteomic or metabolomic profile. While the technical issues characterizing the construction of prediction rules in this context have been well-investigated in the literature, other related crucial aspects remain comparatively underconsidered. In this talk, I will give an overview of four projects addressing some of these problems.

The focus of the first project is on cross-validation and preliminary steps -- such as variable selection, normalization or imputation of missing values -- that possibly lead to an underestimation of prediction error if performed globally using both training and test sets. The second project addresses the evaluation and improvement of the clinical usefulness of the derived prediction rules in terms of added predictive value compared to simpler models based on classical clinical predictors. The third project is about the random forest algorithm often used for regression and classification in bioinformatics and the statistical properties of its associated variable importance measures. The fourth project deals with methodological aspects of comparison studies based on real-life data sets with emphasis on testing procedures and power issues.



Mathias Bourel

Agrégation d'estimateurs de densité. 


Christophe Genolini

Analyse des données longitudinales : nouvelles approches

Les enquêtes de cohorte sont des études dans lesquelles les mêmes variables sont mesurées de manière répétée au cours du temps. Une possibilité pour analyser ce genre de données consiste à les partitionner, c'est à dire regrouper les individus dont les trajectoires se ressemblent et ainsi à définir des « trajectoires types », reflétant le comportement « moyen » des individus d’un même sous-groupe.


Lors de cet exposé, trois méthodes de partitionnement non paramétriques sur le temps, variantes de k-means sur données longitudinales, seront présentées. KmL3D permet le partitionnement de trajectoires jointes ; KmLshape partitionne en ce basant sur la forme de la trajectoire ; KmLcov intègre l'impact de covariables dans k-means.

KmL3D permet le partitionnement joint.

A ce jour, les techniques de partitionnement considèrent l’évolution temporelle d’une seule variable-trajectoire. Or, il est permis d’envisager des interactions complexes entre trajectoires. KmL3D travaillera sur l’évolution conjointe de plusieurs variables-trajectoires en les partitionnant simultanément.

Notre projet allie donc recherche méthodologique et application sur données concrètes en réponse à des questionnements de recherche de cliniciens ou d’épidémiologistes. Chaque équipe sera en mesure de proposer des analyses de cohorte originales en utilisant les nouveaux outils développés dans ce programme. Au final, ces nouvelles techniques statistiques seront programmées et mises à disposition de la communauté scientifique via un site web dédié, permettant ainsi d’en assurer la diffusion la plus large.

Pierre Gaillard

Prévision de la consommation électrique par mélange d'experts spécialisés.


Dans cet exposé, nous nous intéressons à la prévision à court terme (journalière) de la consommation d'électricité. Nous considérons un jeu de données récent utilisé par EDF R&D afin de prévoir le marché français. Nous adoptons une méthodologie en deux étapes, qui consiste à construire différentes méthodes de prévision avant de les mélanger. Afin d'améliorer les performances du mélange, nous cherchons à apporter de la variété au sein des méthodes considérées. Cela peut se faire par des techniques de bagging ou de boosting. Nous pouvons aussi spécialiser les prédicteurs à mélanger pour différentes situations dépendant de l'information contextuelle (grand froid,…). Nous adaptons ensuite les algorithmes de suites individuelles à de tels experts spécialisés.

Forecasting the electricity consumption by aggregating specialized experts

Abstract. We consider the empirical goal of sequential short-term (one-day ahead) forecasting of electricity consumption. For this purpose, we look at a recent data set used by EDF R&D to forecast the French market. It contains the observed electricity load as well as some side information (temperature, date,...). We intend to work in real operating conditions and we restrict ourselves to operational constraints which come with it (delays for data acquisition). First of all we build in this study a set of base forecasters, that aim to be as heterogenous as possible and to exhibit varied enough behaviors. They aspire also to be optimized for specific situations depending the side information (weather, special events). To do so, we first test on our dataset several recent machine learning algorithms, such as Boosting or Random-Forests. We furthermore consider statistical models used by EDF R&D that come from three main categories: parametric, semi-parametric, and non-parametric models. So as to specialize our forecasters, we focus their training sets on subsets depending on the specialization they aim to acquire. In a second step, we apply the framework of prediction with experts advice. We combine in a sequential fashion all these base forecasts, so as to optimize our forecasting of electricity consumption.