Programme du Séminaire de Statistique et Applications
Organisateurs : Mohamed Boutahar et Denys Pommeret
Lieu : Amphi Herbrand - Institut de Mathématiques de Luminy (1er étage), Université de la Méditerranée
Jour : Le lundi (en alternance avec un groupe de travail « Actuariat »)
Horaires : de 14h à 15h pour un séminaire simple, de 14h à 16h pour un double séminaire
Quelques informations générales, plans d'accès, coordonnées organisateurs, remboursement de frais.
Liste des séminaires de l'année
Séminaires 2011-2012
|
Date |
Titre |
Invité |
Etablissement |
|---|---|---|---|
|
07/11/11 |
Evaluation et couverture des Variable Annuities |
Antoine Conze |
Natixis, Paris |
|
21/11/11 |
Reconstruction d'un processus gaussien |
Delphine Blanke |
Université d'Avignon |
|
05/12/10 |
reporté |
|
|
|
23/01/12 |
Extension de la Méthode de Poursuite de Projection et Applications |
Jacques Touboul |
LSTA (Paris) |
|
30/01/12 |
Une revue des méthodes d'imputation multiple |
Emilie Guyon |
IML (Marseille) |
|
13/02/12 à 10h30 |
Analyse d'images et statistiques : des concepts fondamentaux aux applications industrielles |
Jean Sequeira |
LSIS (Marseille) |
|
20/02/12 |
À préciser |
Bastien Marchina Marc Chadeau |
Université Montpellier II Imperial College London |
|
12/03/12 |
|
|
|
|
|
|
|
|
|
05/12 |
Journées de Statistique à Bruxelles |
|
|
|
06/12 |
Journées de Statistique du Sud à Toulouse |
|
|
|
06/12 |
Rencontres Statistique Avignon-Marseille |
|
|
Jean
Sequeira :
Analyse d'images et
statistiques : des concepts fondamentaux aux applications
industrielles
Résumé : L'image joue un rôle clé dans la communication entre l'homme et son environnement. Depuis quelques décennies, celle-ci, avec le support de l'ordinateur (on parle alors d'imagerie numérique), prend une place prépondérante dans le monde socio-économique, que ce soit avec la télédétection (images satellite, aéroportées, ...), l'imagerie médicale, la vision industrielle, la vidéoprotection, l'analyse de documents, la simulation, la "réalité augmentée" pour n'évoquer ici que les principaux domaines de l'analyse d'images (il ne faut pas oublier, non plus, la modélisation et la production d'images, avec la "Conception Assistée par Ordinateur", la "Visualisation Scientifique", l'Animation, ...).
Dans cette présentation, nous nous intéresserons uniquement à l'analyse d'images, à ses interactions avec les statistiques, et à son implication croissante dans le monde professionnel.
Les statistiques ont une place importante en analyse d'images, à la fois dans ce que l'on appelle le "Traitement Bas Niveau des images" (proche du "Traitement du Signal") et dans sa composante "Reconnaissance des Formes". Nous nous focaliserons davantage sur la partie "Reconnaissance des Formes" et nous illustrerons notre propos avec une description détaillée de la "Transformée de Hough", mais aussi avec la présentation de travaux récents développés au sein de l'équipe SimGraph du LSIS (et qui ont donné lieu à un dépôt de brevet) concernant le recalage d'images de modalités différentes, à travers l'estimation de la similarité locale entre deux nuages de points. Ces deux axes montreront qu'il existe de nombreux problèmes ouverts, et nous évoquerons d'autres pistes intéressantes pour lesquelles la résolution de problèmes au niveau mathématique permettrait de débloquer des verrous techniques en milieu industriel.
Emilie Guyon : une revue des méthodes d'imputations multiples
Résumé :
Dans de nombreuses études, il arrive fréquemment que l’ensemble des données soit incomplet. Jusqu’à maintenant, de nombreuses techniques statistiques ont été suggérées afin de contrer ce problème. A ce jour, l’imputation multiple ( Little et Rubin, 1987) est considérée comme la méthode la plus performante de traitement des données manquantes car elle permet d’obtenir des jeux de données complets mais aussi de prendre en compte l’incertitude liée à la valeur à imputer.
Rubin (1996) décrit l’imputation multiple comme un processus en trois étapes. D’abord, m > 1 ensembles de valeurs plausibles pour les données manquantes sont créés. Chacun de ces ensembles est utilisé pour remplir les données manquantes et ainsi créer m ensembles complets de données. Ensuite, chacun de ces m ensembles de données peut être analysé en utilisant les méthodes habituellement utilisées avec des données complètes. Ainsi, l’imputation multiple peut être réalisée sur la base de plusieurs modèles et se decompose alors sous plusieurs formes. Finalement, les résultats des m analyses sont combinés afin d’obtenir un ensemble final de données.
Au travers de cet exposé, nous reviendrons essentiellement sur les principales methodes d’imputation multiple.
Jacques
Touboul :
Extension
de la Méthode de Poursuite de Projection et Applications
Résumé : Projection Pursuit methodology permits to solve the difficult problem of finding an
estimate of a density defined on a set of very large dimension. In his seminal article,
“Projection Pursuit”, Huber (1985) evidenced the interest of the Projection Pursuit
method thanks to the factorization of a density into a Gaussian component and some
residual density in a context of Kullback–Leibler divergence maximisation.
In the present seminar, we introduce a new algorithm, and in particular, a test
for the factorisation of a density estimated from an iid sample.
Delphine Blanke : Reconstruction d'un processus gaussien
Résumé : On considère un processus Gaussien réel admettant une dérivée d'ordre r_0 supposée localement stationnaire. En se basant sur (n+1) observations équidistantes d'une trajectoire du processus sur [0,1], on propose deux estimateurs de r_0 ainsi qu'un estimateur pour la régularité de la dernière dérivée. Ces résultats sont basés sur les variations quadratiques du processus. Deux applications sont proposées : la reconstruction de la trajectoire sur [0,1] et l'estimation d'une intégrale pondérée de ce processus.
Antoine Conze : Evaluation et couverture des Variable Annuities
Résumé : Les variables annuities sont des produits d’épargne retraite, investis en unités de compte actions ou autres sous jacents, assortis de garanties plancher portant sur la valeur des unités lors des retraits et/ou au décès. Commercialisés aux Etats-Unis et au Japon depuis plusieurs décennies, ils commencent à apparaitre en Europe.
L’assureur proposant ces produits est sujet à un profil de risque mixant risques de marché (actions, etc.) et risques de type assurance vie (mortalité/longévité, persistance). Du point de vue de la finance quantitative, il s’agit donc d’un produit dérivé hybride pour lequel une couverture au moins partielle est possible.
Dans cet exposé on présentera les problématiques sous jacentes à la valorisation et à la couverture de ces produits.
|
Date |
Titre |
Invité |
Etablissement |
|---|---|---|---|
|
22/11/10 |
Imputation multiple avec PLS pour le modèle linéaire généralisé mixte |
Emilie Guyon |
IML, Université de la Méditerranée |
|
29/11/10 |
GT « Actuariat », séance 2 : Prime pure et rappels de proba |
Badih Ghattas |
|
|
17/12/10 |
Journées CIRM |
|
|
|
03/01/11 |
GT « Actuariat », séance 3 : Mélanges et ségmentation |
Laurence Reboul |
|
|
10/01/11 |
Markoviens en théorie des valeurs extrêmes: Reconstruction de maxima en sciences de l'atmosphère |
Gwladys Toulemonde |
I3M, Université de Montpellier II |
|
17/01/11 |
GT « Actuariat », séance 4 : Les indices VAR et T-VAR |
Mohamed Boutahar |
|
|
24/01/11 |
On ruin theory with dependent risks |
Stéphane Loisel |
ISFA, LYON |
|
31/01/11 |
Estimation de probabilités
d'événements rares dans le contexte des
|
Paris Sud 11, INRIA |
|
|
07/02/11 |
Estimation du paramètre de longue mémoire de séries temporelles non—linéaires
|
14h : Marianne Clausel
15h : Vera Georgescue |
INSA Lyon
INRA, Avignon |
|
14/02/11 |
GT Actuariat, séance 5 |
Denys Pommeret |
|
|
07/03/11 |
Probabilités de ruine |
Romain Biard |
Université d'Aarhus |
|
14/03/11 |
GT Actuariat, séance 6 |
|
|
|
21/03/11 |
Méthodes de filtrage pour des processus à partir d'observations indirecte |
Adrien Ickowicz |
Paris Dauphine |
|
28/03/11 |
Estimation de régularité locale et Problèmes de Classification |
Rémi Servien |
INRA, Supagro |
|
04/04/11 |
Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)
Ensembles fractals et espacements uniformes |
14h : Andrea Rau
15h : Claire Coiffard Marre |
INRIA Saclay
Ecole Centrale Marseille |
|
11/04/11 |
GT Actuariat |
A préciser |
|
|
23/05/11 |
Journées de Statistique - Tunis |
|
|
|
30/05/11 |
|
Paul Doukhan |
Université Cergy Pontoise |
|
06/06/11 |
Parallel Tempering with Equi-Energy Moves Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques |
Meïli Baragatti
Claude Manté |
IML/Ispogen
COM, Université de la Méditerranée |
|
20/06/11 |
Partial Least Squares Methods: a methodological overview
|
laura Trinchera
Ricardo Fraiman
|
Universidad de San Andrés Buenos Aires |
Gwladys
Toulemonde
Markoviens en théorie des valeurs
extrêmes: Reconstruction de maxima en sciences de l'atmosphère
Résumé : D'après des résultats
fondamentaux en théorie des valeurs extrêmes, les maxima
sont généralement ajustés par la distribution
des valeurs extrêmes généralisée. Dans cet
exposé, nous nous concentrerons sur l'étude de maxima
journaliers, hebdomadaires ou annuels de séries temporelles en
sciences de l'environnement. Dans un tel contexte il conviendra alors
de prendre en compte la dépendance temporelle inhérente
à ces séries.
Dans un premier temps nous
présenterons un modèle autorégressif qui est à
la fois linéaire et adapté à la distribution
attendue des maxima issus de distributions à queues légères
[Toulemonde et al., (2010)].
L'étude, motivée par
la problématique de reconstruction de maxima, sera ensuite
étendue aux modèles de Markov cachés en
introduisant des modèles à espace d'états
linéaires et adaptés au contexte particulier des
événements extrêmes.
Stéphane Loisel
On ruin theory with dependent risks
Résumé
: In this talk, we describe several models with dependent risks
and
give some exact or asymptotic formulas for
finite-time or
infinite-time ruin
probabilities.
Considered models either feature correlation crises
(which occur
when risks that are independent in the
classical regime suddenly
become strongly correlated)
or correlations obtained by mixture
models.
Pierre Barbillon
Estimation de probabilités
d'événements rares dans le contexte des expériences
simulées
Résumé : Dans le domaine de
la fiabilité et de la quantification des risques industriels,
il est courant d'avoir recours à des expériences
simulées qui consistent en des évaluations d'un modèle
physique déterministe type boîte noire, coûteux en
temps de calcul. Les entrées de ce modèle sont
considérées comme des variables aléatoires car
entachées d'incertitude. Nous nous intéressons à
la probabilité d'un risque de défaillance du système
qui correspond au dépassement d'un seuil fixé par la
sortie du modèle physique. C'est a priori un événement
rare. Un estimateur de Monte-Carlo naïf de sa probabilité,
sous la contrainte d'un nombre limité d'évaluations du
modèle, n'est pas performant et ne permet pas d'obtenir une
borne de confiance précise.
Nous
proposons alors deux stratégies d'estimation et de
construction de borne de confiance. Elles reposent sur un métamodèle
de type krigeage qui revient à poser une loi a priori sur le
modèle. La loi a posteriori est calculée grâce à
un nombre limité d'évaluations en des points bien
choisis. Le métamodèle nous donne alors une
approximation du modèle et une mesure probabiliste de la
qualité d'approximation.
La première
stratégie est bayésienne dans le sens où elle
considère la probabilité de l'événement
rare comme la réalisation d'une variable aléatoire. En
s'intéressant à la loi a posteriori de cette variable,
un estimateur et une borne de crédibilité sont obtenus.
La seconde stratégie est un schéma d'échantillonnage
préférentiel dont la loi instrumentale s'appuie sur le
métamodèle.
Ces deux méthodes
sont testées sur des exemples jouets et un cas pratique est
traité en les combinant.
Mots clés :
expériences simulées, événements rares,
krigeage, échantillonnage préférentiel,
estimation bayésienne, fiabilité.
Marianne Clausel
Estimation du paramètre
de longue mémoire de séries temporelles
non--linéaires.
Résumé
en Pdf.
Vera Georgescue
Classification
de données multivariées multitypes basée sur des
modèles de mélange.
Application à l'étude
d'assemblages d'espèces en écologie.
Résumé
: En écologie des populations, les distributions spatiales
d'espèces sont étudiées afin d'inférer
l'existence de processus sous-jacents, tels que les interactions
intra- et interspécifiques et les réponses des espèces
à l'hétérogénéité de
l'environnement. Nous proposons d'analyser les données
spatiales multi-spécifiques sous l'angle des assemblages
d'espèces, que nous considérons en termes d'abondances
absolues et non de diversité des espèces. Les
assemblages d'espèces sont une des signatures des interactions
spatiales locales des espèces entre elles et avec leur
environnement.
L'étude des assemblages d'espèces
peut permettre de détecter plusieurs types d'équilibres
spatialisés et de les associer à l'effet de variables
environnementales.
Les assemblages d'espèces sont
définis ici par classification non spatiale des observations
multivariées d'abondances d'espèces. Les méthodes
de classification basées sur les modèles de mélange
ont été choisies afin d'avoir une mesure de
l'incertitude de la classification et de modéliser un
assemblage par une loi de probabilité multivariée.
Dans
ce cadre, nous proposons :
1. une méthode d'analyse
exploratoire de données spatiales multivariées
d'abondances d'espèces, qui permet de détecter des
assemblages d'espèces par classification, de les cartographier
et d'analyser leur structure spatiale. Des lois usuelles, telle que
la Gaussienne multivariée, sont utilisées pour
modéliser les assemblages.
2. un modèle hiérarchique
pour les assemblages d'abondances lorsque les lois usuelles ne
suffisent pas. Ce modèle peut facilement s'adapter à
des données contenant des variables de types différents,
qui sont fréquemment rencontrées en écologie,
3.
une méthode de classification de données contenant des
variables de types différents basée sur des mélanges
de lois à structure hiérarchique (définies en
2.).
Deux applications en écologie ont guidé et
illustré ce travail :
l'étude à petite
échelle des assemblages de deux espèces de pucerons sur
des feuilles de clémentinier et l'étude à large
échelle des assemblages d'une plante hôte, le plantain
lancéolé, et de son pathogène, l'oïdium,
sur les îles Aland en Finlande.
Adrien
Ickowicz
Méthodes
de filtrage pour des processus à partir d'observations
indirectes
Résumé : Nous disposons lors d'instants particuliers d'un encadrement des réalisations d'un processus dont nous cherchons à effectuer le filtrage. La problématique consiste donc à traiter ces données pour effectuer une estimation paramétrique (le cas échéant) et finalement parvenir à un filtrage pour permettre le suivi de ce processus. Nous commencerons par présenter l'origine "industrielle" de la problématique avant de présenter les méthodes d'estimations statistiques que nous avons mises en œuvre.
Claire Coiffard Marre
Ensembles fractals et espacements uniformes
Résumé : Nous verrons dans un premier temps les outils de calcul utilisés dans la
théorie fractale en définissant notamment la dimension de Hausdorff. Nous nous
intéresserons ensuite aux espacements uniformes multivariés. Plus précisément,
nous étudierons l’ensemble des points de [0,1]^d où nous avons infiniment souvent
de “ grands” espacements. Nous montrerons alors comment nous pouvons
calculer la dimension de Hausdorff de cet ensemble de points exceptionnels.
Andrea Rau
Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)
Résumé : Les réseaux de gènes régulateurs représentent un ensemble de gènes qui interagissent, directement ou indirectement, les uns avec les autres ainsi qu'avec d'autres produits cellulaires. Ces interactions règlementent le taux de transcription des gènes et la production subséquente de protéines. Le développement des technologies telles que les puces à ADN et le séquençage à ultra-haut débit (RNA sequencing) permettent une étude simultanée de l'expression des milliers de gènes chez un organisme au cours du temps. Avec ces données temporelles, il est possible d'inférer (soit « reverse-engineer ») la structure des réseaux biologiques qui s'impliquent pendant un processus cellulaire particulier. Cependant, ces réseaux sont en général très compliqués et difficilement élucidés, surtout vu le grand nombre de gènes considérés et le peu de répliques biologiques disponibles dans la plupart des données expérimentales. Dans cette optique, nous proposons une nouvelle application des méthodes de Approximate Bayesian Computation (ABC), qui exploitent les techniques de simulation pour permettre l'inférence des modèles avec un vraisemblance complexe ou insoluble. Notre méthode, qui s'appelle ABC for Networks (ABC-Net), est basée sur une procédure de Monte Carlo par chaînes de Markov (MCMC), qui échantillonne des lois a posteriori d'un réseau de gènes. Nous étudions le performance de cette approche avec des simulations et un vrai jeu de données sur un réseau de réparation génétique chez Escherichia coli.
Rémi Servien
Estimation de régularité locale et Problèmes de Classification
Résumé: Le premier sujet de cet exposé est lié au problème général de dérivation des mesures. Il trouve ses motivations dans l'étude de problèmes d'estimation quand les conditions de régularité habituelles ne sont pas vérifiées. En effet, de nombreux théorèmes de convergence font intervenir des hypothèses de continuité qui ne sont en pratique pas toujours satisfaites. Nous utilisons donc des conditions moins contraignantes permettant de plus d'étudier la régularité de la mesure considérée.
Un paramètre appelé indice de régularité apparaît lorsqu'on essaie d'étudier localement le comportement d'une fonction de densité dérivée d'une mesure quelconque. Ce paramètre de régularité étant fortement local, son estimation est difficile. Nous nous attacherons à étudier certains problèmes d'estimation non paramétrique où cet indice intervient et à définir différents estimateurs convergents de cet indice de régularité.
Dans une seconde partie indépendante, nous nous intéresserons à deux problème de classification non supervisée. Tout d'abord, nous expliciterons une version accélérée d'un algorithme de classification utilisant la distance L1. Enfin, nous étudierons un problème de classification non supervisée en biostatistique. L'originalité du problème réside dans la forme des données, des jeux de cinq angles sur un cercle provenant de réglages de rayons de radiothérapie. Nous verrons que la définition d'une distance adéquate et l'utilisation de lois définies sur le cercle est nécessaire. Puis nous utiliserons un algorithme de type recuit simulé.
Claude Manté
Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques
Les communautés de macrophytes (algues et phanérogames), dont certaines espèces sont protégées, constituent un des indicateurs clés de l’état écologique des lagunes, tel que défini par la Directive Européenne Cadre sur l’Eau (DCE). Par ailleurs, la restauration de ces communautés de macrophytes, et des herbiers de Zostera en particulier, est l’un des objectifs principaux de la réhabilitation de l’Etang de Berre (Bouches-du-Rhône) portée par le Gipreb (Groupement d’intérêt public pour la réhabilitation de l’Etang de Berre). C’est pourquoi celui-ci met en œuvre, depuis 1996, le suivi des principales espèces de macrophytes encore présentes dans l’étang.
La densité de chaque espèce a été évaluée visuellement par des plongeurs le long de 31 transects (composés chacun de 20 segments de même longueur) répartis sur le pourtour de l’étang, et ce pendant 11 années. L’évaluation consiste en un codage en 6 modalités du taux de couverture du fonds par l’espèce. L’état annuel de la population de chaque espèce est finalement décrit par un tableau de type 6x20, croisant la densité avec la position, qui sont ici deux variables ordinales.
Nous nous intéresserons à deux des neuf espèces étudies par le Gipreb : une espèce errante, Ulva, et une espèce constituant des herbiers de grande importance écologique, Zostera Noltii.
La suite des 11 tableaux relatifs à chaque espèce sera décrite via l’Analyse des Correspondances Ordinales de Beh (1997); les résultats obtenus seront comparés avec ceux de l’AFC.
[1] Beh, E. J. (1997) Simple Correspondence Analysis of ordinal cross-classifications using orthogonal polynomials, Biometrical Journal, 39, 5, 589-613.
[2] Beh, E. J. (1998) A comparative study of Scores for Correspondence Analysis with ordered categories, Biometrical Journal, 40, 4, 413-429.
[3] Beh, E. J. (2004) Simple Correspondence Analysis : a bibliographic review, International Statistical Review, 72, 2, 257-284.
[4] Benzécri, J. P. (1976) L’Analyse des Données, tome 2, 2ème ed., Dunod.
[5] Bernard G., Boudouresque CF., Picon P. (2007) Long term changes in Zostera meadows in the Berre lagoon (Provence, Mediterranean Sea). Estuarine, Coastal and Shelf Science, 73:617-629.
[6] Bonhomme, P., Gravel, R. Ruitton, S., Bonhomme, Boudouresque, C.-F. (2008) Système de surveillance des principales espèces de macrophytes dans les étangs de Berre et de Vaïne : Suivi 2007, Contrat GIS Posidonie/GIPREB. GIS Posidonie publ., Marseille, Fr. : 1- 47+ Annexes 1-3.
[7] Rayner, J.C.W. and Best, D.J. (1996) Smooth extensions of Pearson’s product moment correlation and Spearman’s Rho, Statistics & Probability Letters, 30, 171-177.
Meïli Baragatti
Parallel
Tempering with Equi-Energy Moves
L'algorithme Equi-Energy Sampler
(EES) introduit par Kou et al. (2006) se base sur
une population
de chaînes actualisées par des mouvements locaux et
globaux. Cet algorithme
a été développé
dans le but de faciliter les mouvements globaux entre les di
fférentes
chaînes, ce qui permet une meilleure
exploration de l'espace des paramètres par la
chaîne
d'intérêt. Cette méthode est
apparement plus efficace que l'algorithme Parallel Tempering
(PT)
classique. Cependant, elle nécessite un stockage important de
valeurs, et la convergence
de l'EES n'est pas garantie (Andrieu et
al., 2008). Nous proposons une adaptation
de l'EES qui combine PT
avec le principe de "sauts" entre chaines ayant des
niveaux
d'énergie similaires. Cette adaptation que nous
appelons Parallel Tempering with Equi-
Energy Move (PTEEM)
conserve l'idée originale de l'algorithme EES tout en assurant
la
convergence. Les performances de cet algorithme PTEEM sont
comparées avec celles des
algorithmes EES et PT, dans le
cas de modèles de mélange.
Laura Trinchera :
Partial Least Squares Methods: a methodological overview
The acronym PLS (Partial Least Squares) (PLS) refers to a family of “soft modelling” methods implemented by various extensions of the Nonlinear estimation by Iterative PArtial Least Squares (NIPALS) algorithm. The basic principles of NIPALS were first developed in order to model the relationships between several blocks of observed variables, each one supposed to be the expression of an underlying latent variable (PLS approach to Structural Equation Models, or PLS Path Modeling - PLS-PM). Then, NIPALS iteration was exploited to implement a component-based regularized regression technique, known as PLS regression (PLS-R).
This talk will focus on the computational and methodological aspects of these two methods.
Ricardo Fraiman :
Quantiles for multivariate data and infinite-dimensional spaces
A new projection-based definition of quantiles in a multivariate setting is proposed.
This approach extends in a natural way to infinite-dimensional Hilbert spaces and can be easily adapted to Banach spaces as well. The directional quantiles we define are shown to satisfy desirable properties of equivariance and, from an interpretation point of view, the resulting quantile contours provide valuable information when plotting them. Sample quantiles estimating the corresponding population quantiles are defined and consistency results are obtained.
The new concept of principal quantile directions, closely related in some situations to principal component analysis, is found specially attractive for reducing the dimensionality of the data. Asymptotic properties of the empirical version of principal quantile directions are also obtained. Based on these ideas, a simple definition of robust principal components for finite and infinite-dimensional spaces is also proposed. The presented methodology is illustrated with examples.