Programme du Séminaire de Statistique et Applications

Organisateurs : Mohamed Boutahar et Denys Pommeret

 

Lieu : Amphi Herbrand - Institut de Mathématiques de Luminy (1er étage), Université de la Méditerranée

Jour : Le lundi (en alternance avec un groupe de travail « Actuariat »)

Horaires : de 14h à 15h pour un séminaire simple,  de 14h à 16h pour un double séminaire

 

Prochain séminaire

Quelques informations générales, plans d'accès, coordonnées organisateurs, remboursement de frais.

Liste des séminaires de l'année


Séminaires 2011-2012

 

Date

Titre

Invité

Etablissement

07/11/11

Evaluation et couverture des Variable Annuities

Antoine Conze

Natixis, Paris

21/11/11

Reconstruction d'un processus gaussien

Delphine Blanke

Université d'Avignon

05/12/10

reporté



23/01/12

Extension de la Méthode de Poursuite de Projection et Applications

Jacques Touboul

LSTA (Paris)

30/01/12

Une revue des méthodes d'imputation multiple

Emilie Guyon

IML (Marseille)

13/02/12

à 10h30

 Analyse d'images et statistiques : des concepts fondamentaux aux applications industrielles

Jean Sequeira

LSIS (Marseille)

20/02/12

À préciser

Bastien Marchina

Marc Chadeau

Université Montpellier II

Imperial College London

12/03/12








05/12

Journées de Statistique à Bruxelles

http://jds2012.ulb.ac.be/



06/12

Journées de Statistique du Sud à Toulouse

http://www.math.univ-toulouse.fr/jss2012/



06/12

Rencontres Statistique Avignon-Marseille







Jean Sequeira : Analyse d'images et statistiques : des concepts fondamentaux aux applications industrielles


Résumé : L'image joue un rôle clé dans la communication entre l'homme et son environnement. Depuis quelques décennies, celle-ci, avec le support de l'ordinateur (on parle alors d'imagerie numérique), prend une place prépondérante dans le monde socio-économique, que ce soit avec la télédétection (images satellite, aéroportées, ...), l'imagerie médicale, la vision industrielle, la vidéoprotection, l'analyse de documents, la simulation, la "réalité augmentée" pour n'évoquer ici que les principaux domaines de l'analyse d'images (il ne faut pas oublier, non plus, la modélisation et la production d'images, avec la "Conception Assistée par Ordinateur", la "Visualisation Scientifique", l'Animation, ...).


Dans cette présentation, nous nous intéresserons uniquement à l'analyse d'images, à ses interactions avec les statistiques, et à son implication croissante dans le monde professionnel.


Les statistiques ont une place importante en analyse d'images, à la fois dans ce que l'on appelle le "Traitement Bas Niveau des images" (proche du "Traitement du Signal") et dans sa composante "Reconnaissance des Formes". Nous nous focaliserons davantage sur la partie "Reconnaissance des Formes" et nous illustrerons notre propos avec une description détaillée de la "Transformée de Hough", mais aussi avec la présentation de travaux récents développés au sein de l'équipe SimGraph du LSIS (et qui ont donné lieu à un dépôt de brevet) concernant le recalage d'images de modalités différentes, à travers l'estimation de la similarité locale entre deux nuages de points. Ces deux axes montreront qu'il existe de nombreux problèmes ouverts, et nous évoquerons d'autres pistes intéressantes pour lesquelles la résolution de problèmes au niveau mathématique permettrait de débloquer des verrous techniques en milieu industriel.


Emilie Guyon : une revue des méthodes d'imputations multiples

Résumé :

Dans de nombreuses études, il arrive fréquemment que l’ensemble des données soit incomplet. Jusqu’à maintenant, de nombreuses techniques statistiques ont été suggérées afin de contrer ce problème. A ce jour, l’imputation multiple ( Little et Rubin, 1987) est considérée comme la méthode la plus performante de traitement des données manquantes car elle permet d’obtenir des jeux de données complets mais aussi de prendre en compte l’incertitude liée à la valeur à imputer.

Rubin (1996) décrit l’imputation multiple comme un processus en trois étapes. D’abord, > 1 ensembles de valeurs plausibles pour les données manquantes sont créés. Chacun de ces ensembles est utilisé pour remplir les données manquantes et ainsi créer ensembles complets de données. Ensuite, chacun de ces ensembles de données peut être analysé en utilisant les méthodes habituellement utilisées avec des données complètes. Ainsi, l’imputation multiple peut être réalisée sur la base de plusieurs modèles et se decompose alors sous plusieurs formes. Finalement, les résultats des analyses sont combinés afin d’obtenir un ensemble final de données.

Au travers de cet exposé, nous reviendrons essentiellement sur les principales methodes d’imputation multiple.





Jacques Touboul : Extension de la Méthode de Poursuite de Projection et Applications
 

Résumé : Projection Pursuit methodology permits to solve the difficult problem of finding an

estimate of a density defined on a set of very large dimension. In his seminal article,

Projection Pursuit”, Huber (1985) evidenced the interest of the Projection Pursuit

method thanks to the factorization of a density into a Gaussian component and some

residual density in a context of Kullback–Leibler divergence maximisation.

In the present seminar, we introduce a new algorithm, and in particular, a test

for the factorisation of a density estimated from an iid sample.



Delphine Blanke : Reconstruction d'un processus gaussien


Résumé : On considère un processus Gaussien réel admettant une dérivée d'ordre r_0 supposée localement stationnaire. En se basant sur (n+1) observations équidistantes d'une trajectoire du processus sur [0,1], on propose deux estimateurs de r_0 ainsi qu'un estimateur pour la régularité de la dernière dérivée. Ces résultats sont basés sur les variations quadratiques du processus. Deux applications sont proposées : la reconstruction de la trajectoire sur [0,1] et l'estimation d'une intégrale pondérée de ce processus.



Antoine Conze : Evaluation et couverture des Variable Annuities


Résumé : Les variables annuities sont des produits d’épargne retraite, investis en unités de compte actions ou autres sous jacents, assortis de garanties plancher portant sur la valeur des unités lors des retraits et/ou au décès. Commercialisés aux Etats-Unis et au Japon depuis plusieurs décennies, ils commencent à apparaitre en Europe.


L’assureur proposant ces produits est sujet à un profil de risque mixant risques de marché (actions, etc.) et risques de type assurance vie (mortalité/longévité, persistance). Du point de vue de la finance quantitative, il s’agit donc d’un produit dérivé hybride pour lequel une couverture au moins partielle est possible.


Dans cet exposé on présentera les problématiques sous jacentes à la valorisation et à la couverture de ces produits.


 

Séminaires 2010-2011

 

Date

Titre

Invité

Etablissement

22/11/10

Imputation multiple avec PLS pour le modèle linéaire généralisé mixte

Emilie Guyon

IML, Université de la Méditerranée

29/11/10

GT « Actuariat », séance 2 : Prime pure et rappels de proba

Badih Ghattas


17/12/10

Journées CIRM



03/01/11

GT « Actuariat », séance 3 : Mélanges et ségmentation

Laurence Reboul

10/01/11

Markoviens en théorie des valeurs extrêmes: Reconstruction de maxima en sciences de l'atmosphère

Gwladys Toulemonde

I3M, Université de Montpellier II

17/01/11

GT « Actuariat », séance 4 : Les indices VAR et T-VAR

Mohamed Boutahar


24/01/11

On ruin theory with dependent risks

Stéphane Loisel

ISFA, LYON

31/01/11

Estimation de probabilités d'événements rares dans le contexte des
expériences simulées

Pierre Barbillon

Paris Sud 11, INRIA

07/02/11

Estimation du paramètre de longue mémoire de séries temporelles non—linéaires


"Classification de données multivariées multitypes basée sur des modèles de mélange."

14h : Marianne Clausel





15h : Vera Georgescue

INSA Lyon







INRA, Avignon

14/02/11

GT Actuariat, séance 5

Denys Pommeret

07/03/11

Probabilités de ruine

Romain Biard

Université d'Aarhus

14/03/11

GT Actuariat, séance 6



21/03/11

Méthodes de filtrage pour des processus à partir d'observations indirecte

Adrien Ickowicz

Paris Dauphine

28/03/11

Estimation de régularité locale et Problèmes de Classification

Rémi Servien

INRA, Supagro

04/04/11

Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)



Ensembles fractals et espacements uniformes

14h : Andrea Rau





15h : Claire Coiffard Marre



INRIA Saclay





Ecole Centrale Marseille

11/04/11

GT Actuariat

A préciser


23/05/11

Journées de Statistique - Tunis



30/05/11


Paul Doukhan

Université Cergy Pontoise

06/06/11

Parallel Tempering with Equi-Energy Moves

Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques

Meïli Baragatti



Claude Manté

IML/Ispogen



COM, Université de la Méditerranée

20/06/11

Partial Least Squares Methods: a methodological overview




laura Trinchera



Ricardo Fraiman




Supelec


Universidad de San Andrés Buenos Aires




Gwladys Toulemonde
Markoviens en théorie des valeurs extrêmes: Reconstruction de maxima en sciences de l'atmosphère


Résumé : D'après des résultats fondamentaux en théorie des valeurs extrêmes, les maxima sont généralement ajustés par la distribution des valeurs extrêmes généralisée. Dans cet exposé, nous nous concentrerons sur l'étude de maxima journaliers, hebdomadaires ou annuels de séries temporelles en sciences de l'environnement. Dans un tel contexte il conviendra alors de prendre en compte la dépendance temporelle inhérente à ces séries.
Dans un premier temps nous présenterons un modèle autorégressif qui est à la fois linéaire et adapté à la distribution attendue des maxima issus de distributions à queues légères [Toulemonde et al., (2010)].
L'étude, motivée par la problématique de reconstruction de maxima, sera ensuite étendue aux modèles de Markov cachés en introduisant des modèles à espace d'états linéaires et adaptés au contexte particulier des événements extrêmes.



Stéphane Loisel

On ruin theory with dependent risks

Résumé : In this talk, we describe several models with dependent risks and  
give some exact or asymptotic formulas for finite-time or  
infinite-time ruin probabilities.
Considered models either feature correlation crises (which occur  
when risks that are independent in the classical regime suddenly  
become strongly correlated) or correlations obtained by mixture  
models.




Pierre Barbillon
Estimation de probabilités d'événements rares dans le contexte des expériences simulées

Résumé : Dans le domaine de la fiabilité et de la quantification des risques industriels, il est courant d'avoir recours à des expériences simulées qui consistent en des évaluations d'un modèle physique déterministe type boîte noire, coûteux en temps de calcul. Les entrées de ce modèle sont considérées comme des variables aléatoires car entachées d'incertitude. Nous nous intéressons à la probabilité d'un risque de défaillance du système qui correspond au dépassement d'un seuil fixé par la sortie du modèle physique. C'est a priori un événement rare. Un estimateur de Monte-Carlo naïf de sa probabilité, sous la contrainte d'un nombre limité d'évaluations du modèle, n'est pas performant et ne permet pas d'obtenir une borne de confiance précise.
    Nous proposons alors deux stratégies d'estimation et de construction de borne de confiance. Elles reposent sur un métamodèle de type krigeage qui revient à poser une loi a priori sur le modèle. La loi a posteriori est calculée grâce à un nombre limité d'évaluations en des points bien choisis. Le métamodèle nous donne alors une approximation du modèle et une mesure probabiliste de la qualité d'approximation.
    La première stratégie est bayésienne dans le sens où elle considère la probabilité de l'événement rare comme la réalisation d'une variable aléatoire. En s'intéressant à la loi a posteriori de cette variable, un estimateur et une borne de crédibilité sont obtenus. La seconde stratégie est un schéma d'échantillonnage préférentiel dont la loi instrumentale s'appuie sur le métamodèle.
    Ces deux méthodes sont testées sur des exemples jouets et un cas pratique est traité en les combinant.

Mots clés : expériences simulées, événements rares, krigeage, échantillonnage préférentiel, estimation bayésienne, fiabilité.








Marianne Clausel
Estimation du paramètre de longue mémoire de séries temporelles non--linéaires.
Résumé en Pdf.






Vera Georgescue
Classification de données multivariées multitypes basée sur des modèles de mélange.
Application à l'étude d'assemblages d'espèces en écologie.

Résumé : En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement.
L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales.

Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée.
Dans ce cadre, nous proposons :

1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages.
2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie,
3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.).

Deux applications en écologie ont guidé et illustré ce travail :
l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande.







Adrien Ickowicz
Méthodes de filtrage pour des processus à partir d'observations indirectes


Résumé : Nous disposons lors d'instants particuliers d'un encadrement des réalisations d'un processus dont nous cherchons à effectuer le filtrage. La problématique consiste donc à traiter ces données pour effectuer une estimation paramétrique (le cas échéant) et finalement parvenir à un filtrage pour permettre le suivi de ce processus. Nous commencerons par présenter l'origine "industrielle" de la problématique avant de présenter les méthodes d'estimations statistiques que nous avons mises en œuvre.




Claire Coiffard Marre

Ensembles fractals et espacements uniformes

Résumé : Nous verrons dans un premier temps les outils de calcul utilisés dans la

théorie fractale en définissant notamment la dimension de Hausdorff. Nous nous

intéresserons ensuite aux espacements uniformes multivariés. Plus précisément,

nous étudierons l’ensemble des points de [0,1]^d où nous avons infiniment souvent

de “ grands” espacements. Nous montrerons alors comment nous pouvons

calculer la dimension de Hausdorff de cet ensemble de points exceptionnels.




Andrea Rau

Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)


Résumé : Les réseaux de gènes régulateurs représentent un ensemble de gènes qui interagissent, directement ou indirectement, les uns avec les autres ainsi qu'avec d'autres produits cellulaires. Ces interactions règlementent le taux de transcription des gènes et la production subséquente de protéines. Le développement des technologies telles que les puces à ADN et le séquençage à ultra-haut débit (RNA sequencing) permettent une étude simultanée de l'expression des milliers de gènes chez un organisme au cours du temps. Avec ces données temporelles, il est possible d'inférer (soit « reverse-engineer ») la structure des réseaux biologiques qui s'impliquent pendant un processus cellulaire particulier. Cependant, ces réseaux sont en général très compliqués et difficilement élucidés, surtout vu le grand nombre de gènes considérés et le peu de répliques biologiques disponibles dans la plupart des données expérimentales. Dans cette optique, nous proposons une nouvelle application des méthodes de Approximate Bayesian Computation (ABC), qui exploitent les techniques de simulation pour permettre l'inférence des modèles avec un vraisemblance complexe ou insoluble. Notre méthode, qui s'appelle ABC for Networks (ABC-Net), est basée sur une procédure de Monte Carlo par chaînes de Markov (MCMC), qui échantillonne des lois a posteriori d'un réseau de gènes. Nous étudions le performance de cette approche avec des simulations et un vrai jeu de données sur un réseau de réparation génétique chez Escherichia coli.




Rémi Servien

Estimation de régularité locale et Problèmes de Classification


Résumé: Le premier sujet de cet exposé est lié au problème général de dérivation des mesures. Il trouve ses motivations dans l'étude de problèmes d'estimation quand les conditions de régularité habituelles ne sont pas vérifiées. En effet, de nombreux théorèmes de convergence font intervenir des hypothèses de continuité qui ne sont en pratique pas toujours satisfaites. Nous utilisons donc des conditions moins contraignantes permettant de plus d'étudier la régularité de la mesure considérée.


Un paramètre appelé indice de régularité apparaît lorsqu'on essaie d'étudier localement le comportement d'une fonction de densité dérivée d'une mesure quelconque. Ce paramètre de régularité étant fortement local, son estimation est difficile. Nous nous attacherons à étudier certains problèmes d'estimation non paramétrique où cet indice intervient et à définir différents estimateurs convergents de cet indice de régularité.


Dans une seconde partie indépendante, nous nous intéresserons à deux problème de classification non supervisée. Tout d'abord, nous expliciterons une version accélérée d'un algorithme de classification utilisant la distance L1. Enfin, nous étudierons un problème de classification non supervisée en biostatistique. L'originalité du problème réside dans la forme des données, des jeux de cinq angles sur un cercle provenant de réglages de rayons de radiothérapie. Nous verrons que la définition d'une distance adéquate et l'utilisation de lois définies sur le cercle est nécessaire. Puis nous utiliserons un algorithme de type recuit simulé.


Claude Manté

Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques


Les communautés de macrophytes (algues et phanérogames), dont certaines espèces sont protégées, constituent un des indicateurs clés de l’état écologique des lagunes, tel que défini par la Directive Européenne Cadre sur l’Eau (DCE). Par ailleurs, la restauration de ces communautés de macrophytes, et des herbiers de Zostera en particulier, est l’un des objectifs principaux de la réhabilitation de l’Etang de Berre (Bouches-du-Rhône) portée par le Gipreb (Groupement d’intérêt public pour la réhabilitation de l’Etang de Berre). C’est pourquoi celui-ci met en œuvre, depuis 1996, le suivi des principales espèces de macrophytes encore présentes dans l’étang.

La densité de chaque espèce a été évaluée visuellement par des plongeurs le long de 31 transects (composés chacun de 20 segments de même longueur) répartis sur le pourtour de l’étang, et ce pendant 11 années. L’évaluation consiste en un codage en 6 modalités du taux de couverture du fonds par l’espèce. L’état annuel de la population de chaque espèce est finalement décrit par un tableau de type 6x20, croisant la densité avec la position, qui sont ici deux variables ordinales.

Nous nous intéresserons à deux des neuf espèces étudies par le Gipreb : une espèce errante, Ulva, et une espèce constituant des herbiers de grande importance écologique, Zostera Noltii.

La suite des 11 tableaux relatifs à chaque espèce sera décrite via l’Analyse des Correspondances Ordinales de Beh (1997); les résultats obtenus seront comparés avec ceux de l’AFC.

[1] Beh, E. J. (1997) Simple Correspondence Analysis of ordinal cross-classifications using orthogonal polynomials, Biometrical Journal, 39, 5, 589-613.

[2] Beh, E. J. (1998) A comparative study of Scores for Correspondence Analysis with ordered categories, Biometrical Journal, 40, 4, 413-429.

[3] Beh, E. J. (2004) Simple Correspondence Analysis : a bibliographic review, International Statistical Review, 72, 2, 257-284.

[4] Benzécri, J. P. (1976) L’Analyse des Données, tome 2, 2ème ed., Dunod.

[5] Bernard G., Boudouresque CF., Picon P. (2007) Long term changes in Zostera meadows in the Berre lagoon (Provence, Mediterranean Sea). Estuarine, Coastal and Shelf Science, 73:617-629.

[6] Bonhomme, P., Gravel, R. Ruitton, S., Bonhomme, Boudouresque, C.-F. (2008) Système de surveillance des principales espèces de macrophytes dans les étangs de Berre et de Vaïne : Suivi 2007, Contrat GIS Posidonie/GIPREB. GIS Posidonie publ., Marseille, Fr. : 1- 47+ Annexes 1-3.

[7] Rayner, J.C.W. and Best, D.J. (1996) Smooth extensions of Pearson’s product moment correlation and Spearman’s Rho, Statistics & Probability Letters, 30, 171-177.


Meïli Baragatti
Parallel Tempering with Equi-Energy Moves


L'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) se base sur
une population de chaînes actualisées par des mouvements locaux et globaux. Cet algorithme
a été développé dans le but de faciliter les mouvements globaux entre les di fférentes
chaînes, ce qui permet une meilleure exploration de l'espace des paramètres par la chaîne
d'intérêt. Cette méthode est apparement plus efficace que l'algorithme Parallel Tempering
(PT) classique. Cependant, elle nécessite un stockage important de valeurs, et la convergence
de l'EES n'est pas garantie (Andrieu et al., 2008). Nous proposons une adaptation
de l'EES qui combine PT avec le principe de "sauts" entre chaines ayant des niveaux
d'énergie similaires. Cette adaptation que nous appelons Parallel Tempering with Equi-
Energy Move (PTEEM) conserve l'idée originale de l'algorithme EES tout en assurant la
convergence. Les performances de cet algorithme PTEEM sont comparées avec celles des
algorithmes EES et PT, dans le cas de modèles de mélange.




Laura Trinchera :

Partial Least Squares Methods: a methodological overview


The acronym PLS (Partial Least Squares) (PLS) refers to a family of “soft modelling” methods implemented by various extensions of the Nonlinear estimation by Iterative PArtial Least Squares (NIPALS) algorithm. The basic principles of NIPALS were first developed in order to model the relationships between several blocks of observed variables, each one supposed to be the expression of an underlying latent variable (PLS approach to Structural Equation Models, or PLS Path Modeling - PLS-PM). Then, NIPALS iteration was exploited to implement a component-based regularized regression technique, known as PLS regression (PLS-R).

This talk will focus on the computational and methodological aspects of these two methods.




Ricardo Fraiman :

Quantiles for multivariate data and infinite-dimensional spaces


A new projection-based definition of quantiles in a multivariate setting is proposed.

This approach extends in a natural way to infinite-dimensional Hilbert spaces and can be easily adapted to Banach spaces as well. The directional quantiles we define are shown to satisfy desirable properties of equivariance and, from an interpretation point of view, the resulting quantile contours provide valuable information when plotting them. Sample quantiles estimating the corresponding population quantiles are defined and consistency results are obtained.

The new concept of principal quantile directions, closely related in some situations to principal component analysis, is found specially attractive for reducing the dimensionality of the data. Asymptotic properties of the empirical version of principal quantile directions are also obtained. Based on these ideas, a simple definition of robust principal components for finite and infinite-dimensional spaces is also proposed. The presented methodology is illustrated with examples.



Séminaires 2009-2010

Anciens séminaires