Institut de Mathématiques de Luminy

SÉMINAIRES 2013
Statistique et Applications

Organisateur :
Badih Ghattas
Lieu : IML, Bâtiment TPR2- CNRS :
Amphi Herbrand, 1er étage, salle 130-134
Horaire : en règle générale le lundi, à 14h.

lundi 17 juin

Pierre Gaillard

Pierre Gaillard
(ENS - EdF) :
Prévision de la consommation électrique
par mélange d'experts spécialisés

Webpage : http://ulminfo.fr/~pgaillar/

Résumé : Dans cet exposé, nous nous intéressons à la prévision à court terme (journalière) de la consommation d'électricité. Nous considérons un jeu de données récent utilisé par EDF R&D afin de prévoir le marché français. Nous adoptons une méthodologie en deux étapes, qui consiste à construire différentes méthodes de prévision avant de les mélanger. Afin d'améliorer les performances du mélange, nous cherchons à apporter de la variété au sein des méthodes considérées. Cela peut se faire par des techniques de bagging ou de boosting. Nous pouvons aussi spécialiser les prédicteurs à mélanger pour différentes situations dépendant de l'information contextuelle (grand froid,…). Nous adaptons ensuite les algorithmes de suites individuelles à de tels experts spécialisés.
Forecasting the electricity consumption by aggregating specialized experts
Abstract: We consider the empirical goal of sequential short-term (one-day ahead) forecasting of electricity consumption. For this purpose, we look at a recent data set used by EDF R&D to forecast the French market. It contains the observed electricity load as well as some side information (temperature, date,...). We intend to work in real operating conditions and we restrict ourselves to operational constraints which come with it (delays for data acquisition). First of all we build in this study a set of base forecasters, that aim to be as heterogenous as possible and to exhibit varied enough behaviors. They aspire also to be optimized for specific situations depending the side information (weather, special events). To do so, we first test on our dataset several recent machine learning algorithms, such as Boosting or Random-Forests. We furthermore consider statistical models used by EDF R&D that come from three main categories: parametric, semi-parametric, and non-parametric models. So as to specialize our forecasters, we focus their training sets on subsets depending on the specialization they aim to acquire. In a second step, we apply the framework of prediction with experts advice. We combine in a sequential fashion all these base forecasts, so as to optimize our forecasting of electricity consumption.


lundi 13 mai

Christophe Genolini

Christophe Genolini
(UFR STAPS, Université Paris 10) :
Analyse des données longitudinales :
nouvelles approches

Webpage : http://christophe.genolini.free.fr

Résumé : Les enquêtes de cohorte sont des études dans lesquelles les mêmes variables sont mesurées de manière répétée au cours du temps. Une possibilité pour analyser ce genre de données consiste à les partitionner, c'est à dire regrouper les individus dont les trajectoires se ressemblent et ainsi à définir des « trajectoires types », reflétant le comportement « moyen » des individus d’un même sous-groupe.
Lors de cet exposé, trois méthodes de partitionnement non paramétriques sur le temps, variantes de k-means sur données longitudinales, seront présentées. KmL3D permet le partitionnement de trajectoires jointes ; KmLshape partitionne en ce basant sur la forme de la trajectoire ; KmLcov intègre l'impact de covariables dans k-means.
KmL3D permet le partitionnement joint.
A ce jour, les techniques de partitionnement considèrent l’évolution temporelle d’une seule variable-trajectoire. Or, il est permis d’envisager des interactions complexes entre trajectoires. KmL3D travaillera sur l’évolution conjointe de plusieurs variables-trajectoires en les partitionnant simultanément :
• KmLCov partitionnera les données en intégrant l’effet de covariables (dépendantes ou non du temps) sur les trajectoires. Leur effet pourra éventuellement être spécifique pour chaque classe de trajectoire.
• KmLShape : Dans certaines circonstances, le moment exact d’apparition d’un phénomène a moins d’importance que la typologie de son évolution. Etre en mesure de partitionner les trajectoires selon leur forme et de regrouper les individus dont les trajectoires sont proches modulo un décalage dans le temps constitue l’objectif de KmLShape.
• KmLVar : Il peut également être pertinent de classer des individus suivant le caractère stable ou au contraire fluctuant de leur variable-trajectoire. En effet, le niveau d’instabilité d’un marqueur peut apporter plus d’information que l’évolution de sa valeur. L'objectif de KmLVar sera de permettre la modélisation et l’identification de groupes ou de trajectoires ayant la même variance.
• Enfin, les techniques de partitionnement permettent de proposer de nouvelles approches pour l’imputation des valeurs manquantes sur les trajectoires, basées à la fois sur les valeurs connues de l’individu et sur la trajectoire moyenne du groupe. La validation de la méthode CopyMean constitue également un des axes de notre projet.
Notre projet allie donc recherche méthodologique et application sur données concrètes en réponse à des questionnements de recherche de cliniciens ou d’épidémiologistes. Chaque équipe sera en mesure de proposer des analyses de cohorte originales en utilisant les nouveaux outils développés dans ce programme. Au final, ces nouvelles techniques statistiques seront programmées et mises à disposition de la communauté scientifique via un site web dédié, permettant ainsi d’en assurer la diffusion la plus large.


lundi 25 mars

Anne-Laure Boulesteix

Anne-Laure Boulesteix
(IBE, Ludwig Maximilians University Munich) :
Critical issues and developments in high-dimensional prediction with biomedical applications

Webpage : http://www.ibe.med.uni-muenchen.de/


Jean-Michel Poggi

lundi 18 mars
Jean-Michel Poggi
(Université Paris-Sud, Orsay) :
Functional clustering using wavelets

Webpage : http://www.math.u-psud.fr/~poggi/

Abstract: We present two methods for detecting patterns and clusters in high dimensional time-dependent functional data. Our methods are based on wavelet-based similarity measures, since wavelets are well suited for identifying highly discriminant local time and scale features. The multiresolution aspect of the wavelet transform provides a time-scale decomposition of the signals allowing to visualize and to cluster the functional data into homogeneous groups. For each input function, through its empirical orthogonal wavelet transform the first method uses the distribution of energy across scales to generate a representation that can be sufficient to make the signals well distinguishable. Our new similarity measure combined with an efficient feature selection technique in the wavelet domain is then used within more or less classical clustering algorithms to effectively differentiate among high dimensional populations. The second method uses similarity measures between the whole time-scale representations that are based on wavelet-coherence tools. The clustering is then performed using a k-centroid algorithm starting from these similarities. Practical performance of these methods that jointly design both the feature selection in the wavelet domain and the classification distance is illustrated through simulations as well as daily profiles of the French electricity power demand. This is a joint work with A. Antoniadis, X. Brossat and J. Cugliari More details can be found in A. Antoniadis, X. Brossat, J. Cugliari, J.-M. Poggi, Functional Clustering using Wavelets, accepted for publication, International Journal of Wavelets, Multiresolution and Information Processing, 2012, DOI: 10.1142/S0219691313500033.


Jean-Marie Monnez

lundi 11 mars
Jean-Marie Monnez
(Université de Lorraine, Nancy) :
Méthodes séquentielles en analyse des données
par approximation stochastique

Webpage : http://ticri.inpl-nancy.fr/wicri-lor.fr/index.php/Jean-Marie_Monnez

Résumé : Dans le contexte actuel des flux de données et des données de grande dimension, l’utilisation de processus récursifs d’approximation stochastique permet d’obtenir des estimations séquentielles actualisées à chaque introduction d’une donnée ou d’un paquet de données et dont le calcul est relativement simple. Il est ainsi inutile de stocker les données et la rapidité de calcul permet de prendre en compte dans le même temps plus de données qu’une méthode classique. En outre, le caractère séquentiel de ces méthodes permet de tenir compte de variations dans le temps de la loi des données. Une méthode classique comme l’algorithme séquentiel des k-means de MacQueen en classification non supervisée peut être interprétée comme une méthode de gradient stochastique. On peut utiliser cette approche dans des domaines comme la régression multiple sans contrainte ou sous contraintes convexes, la classification non supervisée, l’ACP et les méthodes dérivées, entre autres. Après une brève introduction sur le principe de l’approximation stochastique illustré par des exemples, on en présentera l’utilisation dans certains de ces domaines.


Laurent Rouvière

lundi 11 février
Laurent Rouvière
(Université Rennes 2) :
Estimation des composantes d'un modèle de mélange par une approche clustering

Webpage : http://www.sites.univ-rennes2.fr/laboratoire-statistique/ROUVIERE/


Ahlame Douzal

lundi 28 janvier
Ahlame Douzal
(LIG, Grenoble) :
Classification de séries temporelles

Webpage : http://membres-liglab.imag.fr/douzal/

Résumé : Mes travaux de recherche portent sur l’analyse de données temporelles et s’articulent en trois parties :
-la représentation de séries temporelles,
-la définition de métriques et leur apprentissage,
-ainsi que la proposition de nouvelles approches de classification dédiées aux séries temporelles.
Le déploiement de statistiques d’autocorrélation spatiale sur des structures de contiguïté particulières, telle que temporelle, met en évidence des propriétés intéressantes. Elles permettent, par exemple, d’appréhender le comportement des séries (aléatoire, chaotique), d’évaluer le niveau de saillance d’un événement, ou de mesurer la dépendance locale ou globale entre une structure évolutive et les observations associées. Ces propriétés ont guidé nos principaux travaux.
Ainsi, notre première contribution concerne la représentation compacte de séries multivariées. Nous avons étudié une approche de réduction de la dimension temporelle de séries multivariées, par segmentation, préservant les corrélations inférées par la série ; l’identification de segments saillants étant guidée par la variance locale. Dans la deuxième partie de notre travail, nous nous sommes intéressé à la définition de métriques intégrant la composante forme des séries et leur positionnement dans un cadre plus général. L’alignement de séries étant un concept fondamental dans la définition de métriques, notre intérêt a porté, ensuite, sur l’apprentissage de couplages pour la discrimination de classes de séries complexes. L’approche proposée vise à lier les séries selon les caractéristiques communes au sein des classes et différentielles entre les classes. Le couplage ainsi appris permet de dériver une métrique locale pondérée restreignant la comparaison des séries aux attributs discriminants. Enfin, le troisième volet de nos travaux est dédié à l’extension des arbres de classification/régression à des variables prédictives temporelles. L’arbre temporel de classification proposé recours à un nouveau critère de coupure fondé sur une métrique adaptative et la localisation de sous-séquences discriminantes.



Christophe Biernacki

lundi 14 janvier
Christophe Biernacki
(Laboratoire Paul Painlevé, Lille 1) :
Model-based clustering
for multivariate partial ranking data

Webpage : http://math.univ-lille1.fr/~biernack/

Résumé : We propose the first model-based clustering algorithm dedicated to multivariate partial ranking data. This is an extension of the Insertion Sorting Rank (ISR) model for ranking data, which is a meaningful and effective model obtained by modelling the ranking generating process assumed to be a sorting algorithm. The heterogeneity of the rank population is modelled by a mixture of ISR, whereas conditional independence assumption allows the extension to multivariate ranking. Maximum likelihood estimation is performed through a SEM-Gibbs algorithm, and partial rankings are considered as missing data, what allows to simulate them during the estimation process. After having validated the estimation algorithm on simulations, three real datasets are studied: the 1980 American Psychological Association (APA) presidential election votes, the results of French students to a general knowledge test and the votes of the European countries to the Eurovision song contest. For each application, the proposed model shows relevant adequacy and leads to significant interpretation. In particular, regional alliances between European countries are exhibited in the Eurovision contest, which are often suspected but never proved.



Thomas Willer

lundi 7 janvier
exceptionnelllement à la FRUMAM
Thomas Willer
(LATP, Marseille) :
Problèmes inverses et méthodes d'ondelettes
en statistique non paramétrique

Webpage : http://www.latp.univ-mrs.fr/~twiller/

Résumé : On s'intéresse à un problème d'estimation où une fonction initiale subit un lissage par un opérateur mal posé, et est bruitée par un bruit blanc gaussien additif. On veut retrouver la fonction initiale, connaissant la version bruitée et lissée, l'opérateur et l'amplitude du bruit blanc. On présentera deux familles de méthodes: les décompositions en valeurs singulières, et les méthodes d'ondelettes. Parmi ces dernières, on verra les limites des méthodes reposant sur des ondelettes "classiques", et comment on peut contourner ces limites en utilisant de nouvelles constructions d'ondelettes. On présentera les performances théoriques (risque minimax) et pratiques (étude sur des données simulées) des divers estimateurs.

 

Liste des séminaires de l'année ...
[2007-2008] [2008-2009] [2009-2010] [2010-2011] [2011-2012] [2012]

EL, le 12 juin 2013