Programme du Séminaire de Statistique et Applications

Organisateurs : Mohamed Boutahar et Denys Pommeret

 

Lieu : Amphi Herbrand - Institut de Mathématiques de Luminy (1er étage), Université de la Méditerranée

Jour : Le lundi (en alternance avec un groupe de travail « Actuariat »)

Horaires : de 14h à 15h pour un séminaire simple,  de 14h à 16h pour un double séminaire

 

Prochain séminaire

Quelques informations générales, plans d'accès, coordonnées organisateurs, remboursement de frais.

Liste des séminaires de l'année


Séminaires 2011-2012

 

Date

Titre

Invité

Etablissement

07/11/11

Evaluation et couverture des Variable Annuities

Antoine Conze

Natixis, Paris

21/11/11

Reconstruction d'un processus gaussien

Delphine Blanke

Université d'Avignon

05/12/10

reporté



23/01/12

Extension de la Méthode de Poursuite de Projection et Applications

Jacques Touboul

LSTA (Paris)

30/01/12

Une revue des méthodes d'imputation multiple

Emilie Guyon

IML (Marseille)

13/02/12

à 10h30

 Analyse d'images et statistiques : des concepts fondamentaux aux applications industrielles

Jean Sequeira

LSIS (Marseille)

20/02/12

Tester l'adéquation avec la fonction caractéristique


A Hidden Markov Model for Smoking-induced Lung Cance

Bastien Marchina

Marc Chadeau-Hyam

Université Montpellier II

Imperial College London

09/04/12


Dhafer Malouche

ESSAI (Tunis)

16/04/12

Modèles Statistiques à Variables Latentes : Application à la Mesure de la Qualité de Vie Liée à la Santé.

Mounir Mesbah

LSTA, Université Pierre et Marie Curie

05/12

Journées de Statistique à Bruxelles

http://jds2012.ulb.ac.be/



06/12

Journées de Statistique du Sud à Toulouse

http://www.math.univ-toulouse.fr/jss2012/



15/06/12

Rencontres de Statistique Avignon-Marseille

http://iml.univ-mrs.fr/~pommeret/Affiche-Avignon-Marseille1.html






Mounir Mesbah Modèles Statistiques à Variables Latentes : Application à la Mesure de la Qualité de Vie Liée à la Santé.

Résumé : L’OMS (Organisation Mondiale pour la Santé) a défini en 1994 la Qualité de Vie (QdV) comme « La perception qu’a un individu de sa place dans l’existence, dans le contexte de la culture et du système de valeurs dans lesquels il vit, en relation avec ses objectifs, ses attentes, ses normes

et ses inquiétudes. Il s’agit d’un large champ conceptuel, englobant de maniére complexe la

santé physique de la personne, son état psychologique, son niveau d’indépendance, ses

relations sociales, ses croyances personnelles et sa relation avec les spécificités de son

environnement ». La QdV apparait donc comme un concept multidimensionnel latent se structurant généralement autour de quelques concepts (dimensions, trait, variable latente), en particulier, les suivants :

– une dimension physique : autonomie, capacités physiques ;

– une dimension somatique : symptômes, conséquence des traumatismes ou des procédures

thérapeutiques, douleurs ;

– une dimension psychologique : émotivité, anxiété, dépression ;

– une dimension sociale : relations sociales et rapport à l’environnement familial, amical ou

professionnel.

Opérationnellement, cette QdV (liée à la Santé) est mesurée le plus souvent à l’aide d’un

instrument : un auto-questionnaire comprenant plusieurs questions (items), recouvrant certaines

de ces dimensions.

Les modèles de mesure à variables latentes, spécifient paramétriquement des relations entre

d’une part, les réponses des patients à ces questions (variables observées, manifestes), et les

variables latentes inobservées (dimensions) que le chercheur souhaîte mesurer avec le plus de

précision possible. Ces modèles complexes, sont des modèles linéaires, ou linéiares généralisés

(le plus souvent logistiques) mixtes.

La validation statistique d’un questionnaire de QdV, consistera, au vu des données observées

sur un échantillon à valider le modèle métrologique choisi particulier.

Nous présenterons dans cet exposé, les principaux models utilisés, et des outils de validations,

souvent peu connus, mais très utiles, que nous illustrerons à l’aide de simulations de certain de

ces modèles, et d’exemples de données d’études cliniques et ou épidémiologiques réelles.

Enfin, nous conclurons par une discussion sur quelques problèmes statistiques non résolus.

Mots-Clefs : Unidimensionnalité ; Formule de Spearman-Brown ; Courbe de fiabilité ;

Cronbach Alpha ; Modèles à variables latentes ; Qualité de Vie liée à la Santé ; Validation de

questionnaire ; Modèles de Réponses aux Items ; Modèles de Rasch.



Bastien Marchina Tester l'adéquation avec la fonction caractéristique

Résumé : La fonction caractéristique d'une variable aléatoire X est une représentation de la loi de probabilité de X. Au même titre que la fonction de répartition, on peut déduire de la connaissance de la fonction caractéristique d'une variable aléatoire toutes les propriétés de sa loi de probabilité.

Ainsi, il apparaît intéressant de se pencher sur l'usage de la fonction caractéristique et de son estimateur naturel la fonction caractéristique empirique pour construire des tests d'adéquation de la loi de X à une loi P0, ou à une famille de lois.

Nous présenterons différentes stratégies de test d'adéquation basées sur la fonction caractéristique. Dans un premier temps, nous nous attacherons à donner des résultats théoriques, sur les variables aléatoires à valeurs complexes en particulier, qui nous permettront de donner un éclairage nouveau sur les statistiques de test existantes basées sur la fonction caractéristique. D'autre part, nous présenterons une nouvelle classe de tests d'adéquation basés sur la fonction caractéristique et tirant son inspiration du test lisse de Neyman. Nous proposerons pour ce dernier test des variantes permettant le test d'une hypothèse simple et d'une hypothèse composite.


Marc Chadeau-Hyam « A Hidden Markov Model for Smoking-induced Lung Cancer »

Abstract: There is a growing interest in applying infectious disease models in the investigation of causal relationships between exposures and the risk of chronic diseases such as cancer, as these approaches can provide valuable insights into the mechanisms involved in carcinogenesis. We propose a Hidden Markov model for the risk of lung cancer related to exposure to tobacco smoke. The model relies on an individual-based compartmental structure, where the health status of each individual is either healthy, asymptomatically affected, diagnosed, or deceased. This health state partition covers the whole pathogenic pathway from exposure to disease onset and outcome. Its application has the potential to provide insight in some debated features of the risk of smoking-induced lung cancer. Our approach yielded good performances in reconstructing individual trajectories in both cases (specificity > 75%) and controls (specificity >85%). The elucidation of temporal effects of smoking-induced lung cancer, the predictive ability together with the flexible and general formulation of our model support its application to other diseases and suggest a large range of applications in chronic disease epidemiology.





Jean Sequeira : Analyse d'images et statistiques : des concepts fondamentaux aux applications industrielles


Résumé : L'image joue un rôle clé dans la communication entre l'homme et son environnement. Depuis quelques décennies, celle-ci, avec le support de l'ordinateur (on parle alors d'imagerie numérique), prend une place prépondérante dans le monde socio-économique, que ce soit avec la télédétection (images satellite, aéroportées, ...), l'imagerie médicale, la vision industrielle, la vidéoprotection, l'analyse de documents, la simulation, la "réalité augmentée" pour n'évoquer ici que les principaux domaines de l'analyse d'images (il ne faut pas oublier, non plus, la modélisation et la production d'images, avec la "Conception Assistée par Ordinateur", la "Visualisation Scientifique", l'Animation, ...).


Dans cette présentation, nous nous intéresserons uniquement à l'analyse d'images, à ses interactions avec les statistiques, et à son implication croissante dans le monde professionnel.


Les statistiques ont une place importante en analyse d'images, à la fois dans ce que l'on appelle le "Traitement Bas Niveau des images" (proche du "Traitement du Signal") et dans sa composante "Reconnaissance des Formes". Nous nous focaliserons davantage sur la partie "Reconnaissance des Formes" et nous illustrerons notre propos avec une description détaillée de la "Transformée de Hough", mais aussi avec la présentation de travaux récents développés au sein de l'équipe SimGraph du LSIS (et qui ont donné lieu à un dépôt de brevet) concernant le recalage d'images de modalités différentes, à travers l'estimation de la similarité locale entre deux nuages de points. Ces deux axes montreront qu'il existe de nombreux problèmes ouverts, et nous évoquerons d'autres pistes intéressantes pour lesquelles la résolution de problèmes au niveau mathématique permettrait de débloquer des verrous techniques en milieu industriel.


Emilie Guyon : une revue des méthodes d'imputations multiples

Résumé :

Dans de nombreuses études, il arrive fréquemment que l’ensemble des données soit incomplet. Jusqu’à maintenant, de nombreuses techniques statistiques ont été suggérées afin de contrer ce problème. A ce jour, l’imputation multiple ( Little et Rubin, 1987) est considérée comme la méthode la plus performante de traitement des données manquantes car elle permet d’obtenir des jeux de données complets mais aussi de prendre en compte l’incertitude liée à la valeur à imputer.

Rubin (1996) décrit l’imputation multiple comme un processus en trois étapes. D’abord, > 1 ensembles de valeurs plausibles pour les données manquantes sont créés. Chacun de ces ensembles est utilisé pour remplir les données manquantes et ainsi créer ensembles complets de données. Ensuite, chacun de ces ensembles de données peut être analysé en utilisant les méthodes habituellement utilisées avec des données complètes. Ainsi, l’imputation multiple peut être réalisée sur la base de plusieurs modèles et se decompose alors sous plusieurs formes. Finalement, les résultats des analyses sont combinés afin d’obtenir un ensemble final de données.

Au travers de cet exposé, nous reviendrons essentiellement sur les principales methodes d’imputation multiple.





Jacques Touboul : Extension de la Méthode de Poursuite de Projection et Applications
 

Résumé : Projection Pursuit methodology permits to solve the difficult problem of finding an

estimate of a density defined on a set of very large dimension. In his seminal article,

Projection Pursuit”, Huber (1985) evidenced the interest of the Projection Pursuit

method thanks to the factorization of a density into a Gaussian component and some

residual density in a context of Kullback–Leibler divergence maximisation.

In the present seminar, we introduce a new algorithm, and in particular, a test

for the factorisation of a density estimated from an iid sample.



Delphine Blanke : Reconstruction d'un processus gaussien


Résumé : On considère un processus Gaussien réel admettant une dérivée d'ordre r_0 supposée localement stationnaire. En se basant sur (n+1) observations équidistantes d'une trajectoire du processus sur [0,1], on propose deux estimateurs de r_0 ainsi qu'un estimateur pour la régularité de la dernière dérivée. Ces résultats sont basés sur les variations quadratiques du processus. Deux applications sont proposées : la reconstruction de la trajectoire sur [0,1] et l'estimation d'une intégrale pondérée de ce processus.



Antoine Conze : Evaluation et couverture des Variable Annuities


Résumé : Les variables annuities sont des produits d’épargne retraite, investis en unités de compte actions ou autres sous jacents, assortis de garanties plancher portant sur la valeur des unités lors des retraits et/ou au décès. Commercialisés aux Etats-Unis et au Japon depuis plusieurs décennies, ils commencent à apparaitre en Europe.


L’assureur proposant ces produits est sujet à un profil de risque mixant risques de marché (actions, etc.) et risques de type assurance vie (mortalité/longévité, persistance). Du point de vue de la finance quantitative, il s’agit donc d’un produit dérivé hybride pour lequel une couverture au moins partielle est possible.


Dans cet exposé on présentera les problématiques sous jacentes à la valorisation et à la couverture de ces produits.


 

Séminaires 2010-2011

 

Date

Titre

Invité

Etablissement

22/11/10

Imputation multiple avec PLS pour le modèle linéaire généralisé mixte

Emilie Guyon

IML, Université de la Méditerranée

29/11/10

GT « Actuariat », séance 2 : Prime pure et rappels de proba

Badih Ghattas


17/12/10

Journées CIRM



03/01/11

GT « Actuariat », séance 3 : Mélanges et ségmentation

Laurence Reboul

10/01/11

Markoviens en théorie des valeurs extrêmes: Reconstruction de maxima en sciences de l'atmosphère

Gwladys Toulemonde

I3M, Université de Montpellier II

17/01/11

GT « Actuariat », séance 4 : Les indices VAR et T-VAR

Mohamed Boutahar


24/01/11

On ruin theory with dependent risks

Stéphane Loisel

ISFA, LYON

31/01/11

Estimation de probabilités d'événements rares dans le contexte des
expériences simulées

Pierre Barbillon

Paris Sud 11, INRIA

07/02/11

Estimation du paramètre de longue mémoire de séries temporelles non—linéaires


"Classification de données multivariées multitypes basée sur des modèles de mélange."

14h : Marianne Clausel





15h : Vera Georgescue

INSA Lyon







INRA, Avignon

14/02/11

GT Actuariat, séance 5

Denys Pommeret

07/03/11

Probabilités de ruine

Romain Biard

Université d'Aarhus

14/03/11

GT Actuariat, séance 6



21/03/11

Méthodes de filtrage pour des processus à partir d'observations indirecte

Adrien Ickowicz

Paris Dauphine

28/03/11

Estimation de régularité locale et Problèmes de Classification

Rémi Servien

INRA, Supagro

04/04/11

Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)



Ensembles fractals et espacements uniformes

14h : Andrea Rau





15h : Claire Coiffard Marre



INRIA Saclay





Ecole Centrale Marseille

11/04/11

GT Actuariat

A préciser


23/05/11

Journées de Statistique - Tunis



30/05/11


Paul Doukhan

Université Cergy Pontoise

06/06/11

Parallel Tempering with Equi-Energy Moves

Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques

Meïli Baragatti



Claude Manté

IML/Ispogen



COM, Université de la Méditerranée

20/06/11

Partial Least Squares Methods: a methodological overview




laura Trinchera



Ricardo Fraiman




Supelec


Universidad de San Andrés Buenos Aires




Gwladys Toulemonde
Markoviens en théorie des valeurs extrêmes: Reconstruction de maxima en sciences de l'atmosphère


Résumé : D'après des résultats fondamentaux en théorie des valeurs extrêmes, les maxima sont généralement ajustés par la distribution des valeurs extrêmes généralisée. Dans cet exposé, nous nous concentrerons sur l'étude de maxima journaliers, hebdomadaires ou annuels de séries temporelles en sciences de l'environnement. Dans un tel contexte il conviendra alors de prendre en compte la dépendance temporelle inhérente à ces séries.
Dans un premier temps nous présenterons un modèle autorégressif qui est à la fois linéaire et adapté à la distribution attendue des maxima issus de distributions à queues légères [Toulemonde et al., (2010)].
L'étude, motivée par la problématique de reconstruction de maxima, sera ensuite étendue aux modèles de Markov cachés en introduisant des modèles à espace d'états linéaires et adaptés au contexte particulier des événements extrêmes.



Stéphane Loisel

On ruin theory with dependent risks

Résumé : In this talk, we describe several models with dependent risks and  
give some exact or asymptotic formulas for finite-time or  
infinite-time ruin probabilities.
Considered models either feature correlation crises (which occur  
when risks that are independent in the classical regime suddenly  
become strongly correlated) or correlations obtained by mixture  
models.




Pierre Barbillon
Estimation de probabilités d'événements rares dans le contexte des expériences simulées

Résumé : Dans le domaine de la fiabilité et de la quantification des risques industriels, il est courant d'avoir recours à des expériences simulées qui consistent en des évaluations d'un modèle physique déterministe type boîte noire, coûteux en temps de calcul. Les entrées de ce modèle sont considérées comme des variables aléatoires car entachées d'incertitude. Nous nous intéressons à la probabilité d'un risque de défaillance du système qui correspond au dépassement d'un seuil fixé par la sortie du modèle physique. C'est a priori un événement rare. Un estimateur de Monte-Carlo naïf de sa probabilité, sous la contrainte d'un nombre limité d'évaluations du modèle, n'est pas performant et ne permet pas d'obtenir une borne de confiance précise.
    Nous proposons alors deux stratégies d'estimation et de construction de borne de confiance. Elles reposent sur un métamodèle de type krigeage qui revient à poser une loi a priori sur le modèle. La loi a posteriori est calculée grâce à un nombre limité d'évaluations en des points bien choisis. Le métamodèle nous donne alors une approximation du modèle et une mesure probabiliste de la qualité d'approximation.
    La première stratégie est bayésienne dans le sens où elle considère la probabilité de l'événement rare comme la réalisation d'une variable aléatoire. En s'intéressant à la loi a posteriori de cette variable, un estimateur et une borne de crédibilité sont obtenus. La seconde stratégie est un schéma d'échantillonnage préférentiel dont la loi instrumentale s'appuie sur le métamodèle.
    Ces deux méthodes sont testées sur des exemples jouets et un cas pratique est traité en les combinant.

Mots clés : expériences simulées, événements rares, krigeage, échantillonnage préférentiel, estimation bayésienne, fiabilité.








Marianne Clausel
Estimation du paramètre de longue mémoire de séries temporelles non--linéaires.
Résumé en Pdf.






Vera Georgescue
Classification de données multivariées multitypes basée sur des modèles de mélange.
Application à l'étude d'assemblages d'espèces en écologie.

Résumé : En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement.
L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales.

Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée.
Dans ce cadre, nous proposons :

1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages.
2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie,
3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.).

Deux applications en écologie ont guidé et illustré ce travail :
l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande.







Adrien Ickowicz
Méthodes de filtrage pour des processus à partir d'observations indirectes


Résumé : Nous disposons lors d'instants particuliers d'un encadrement des réalisations d'un processus dont nous cherchons à effectuer le filtrage. La problématique consiste donc à traiter ces données pour effectuer une estimation paramétrique (le cas échéant) et finalement parvenir à un filtrage pour permettre le suivi de ce processus. Nous commencerons par présenter l'origine "industrielle" de la problématique avant de présenter les méthodes d'estimations statistiques que nous avons mises en œuvre.




Claire Coiffard Marre

Ensembles fractals et espacements uniformes

Résumé : Nous verrons dans un premier temps les outils de calcul utilisés dans la

théorie fractale en définissant notamment la dimension de Hausdorff. Nous nous

intéresserons ensuite aux espacements uniformes multivariés. Plus précisément,

nous étudierons l’ensemble des points de [0,1]^d où nous avons infiniment souvent

de “ grands” espacements. Nous montrerons alors comment nous pouvons

calculer la dimension de Hausdorff de cet ensemble de points exceptionnels.




Andrea Rau

Inférence rétrospective de réseaux de gènes avec Approximate Bayesian Computation (ABC)


Résumé : Les réseaux de gènes régulateurs représentent un ensemble de gènes qui interagissent, directement ou indirectement, les uns avec les autres ainsi qu'avec d'autres produits cellulaires. Ces interactions règlementent le taux de transcription des gènes et la production subséquente de protéines. Le développement des technologies telles que les puces à ADN et le séquençage à ultra-haut débit (RNA sequencing) permettent une étude simultanée de l'expression des milliers de gènes chez un organisme au cours du temps. Avec ces données temporelles, il est possible d'inférer (soit « reverse-engineer ») la structure des réseaux biologiques qui s'impliquent pendant un processus cellulaire particulier. Cependant, ces réseaux sont en général très compliqués et difficilement élucidés, surtout vu le grand nombre de gènes considérés et le peu de répliques biologiques disponibles dans la plupart des données expérimentales. Dans cette optique, nous proposons une nouvelle application des méthodes de Approximate Bayesian Computation (ABC), qui exploitent les techniques de simulation pour permettre l'inférence des modèles avec un vraisemblance complexe ou insoluble. Notre méthode, qui s'appelle ABC for Networks (ABC-Net), est basée sur une procédure de Monte Carlo par chaînes de Markov (MCMC), qui échantillonne des lois a posteriori d'un réseau de gènes. Nous étudions le performance de cette approche avec des simulations et un vrai jeu de données sur un réseau de réparation génétique chez Escherichia coli.




Rémi Servien

Estimation de régularité locale et Problèmes de Classification


Résumé: Le premier sujet de cet exposé est lié au problème général de dérivation des mesures. Il trouve ses motivations dans l'étude de problèmes d'estimation quand les conditions de régularité habituelles ne sont pas vérifiées. En effet, de nombreux théorèmes de convergence font intervenir des hypothèses de continuité qui ne sont en pratique pas toujours satisfaites. Nous utilisons donc des conditions moins contraignantes permettant de plus d'étudier la régularité de la mesure considérée.


Un paramètre appelé indice de régularité apparaît lorsqu'on essaie d'étudier localement le comportement d'une fonction de densité dérivée d'une mesure quelconque. Ce paramètre de régularité étant fortement local, son estimation est difficile. Nous nous attacherons à étudier certains problèmes d'estimation non paramétrique où cet indice intervient et à définir différents estimateurs convergents de cet indice de régularité.


Dans une seconde partie indépendante, nous nous intéresserons à deux problème de classification non supervisée. Tout d'abord, nous expliciterons une version accélérée d'un algorithme de classification utilisant la distance L1. Enfin, nous étudierons un problème de classification non supervisée en biostatistique. L'originalité du problème réside dans la forme des données, des jeux de cinq angles sur un cercle provenant de réglages de rayons de radiothérapie. Nous verrons que la définition d'une distance adéquate et l'utilisation de lois définies sur le cercle est nécessaire. Puis nous utiliserons un algorithme de type recuit simulé.


Claude Manté

Application de l’Analyse des Correspondances Ordinales au suivi d’espèces végétales aquatiques


Les communautés de macrophytes (algues et phanérogames), dont certaines espèces sont protégées, constituent un des indicateurs clés de l’état écologique des lagunes, tel que défini par la Directive Européenne Cadre sur l’Eau (DCE). Par ailleurs, la restauration de ces communautés de macrophytes, et des herbiers de Zostera en particulier, est l’un des objectifs principaux de la réhabilitation de l’Etang de Berre (Bouches-du-Rhône) portée par le Gipreb (Groupement d’intérêt public pour la réhabilitation de l’Etang de Berre). C’est pourquoi celui-ci met en œuvre, depuis 1996, le suivi des principales espèces de macrophytes encore présentes dans l’étang.

La densité de chaque espèce a été évaluée visuellement par des plongeurs le long de 31 transects (composés chacun de 20 segments de même longueur) répartis sur le pourtour de l’étang, et ce pendant 11 années. L’évaluation consiste en un codage en 6 modalités du taux de couverture du fonds par l’espèce. L’état annuel de la population de chaque espèce est finalement décrit par un tableau de type 6x20, croisant la densité avec la position, qui sont ici deux variables ordinales.

Nous nous intéresserons à deux des neuf espèces étudies par le Gipreb : une espèce errante, Ulva, et une espèce constituant des herbiers de grande importance écologique, Zostera Noltii.

La suite des 11 tableaux relatifs à chaque espèce sera décrite via l’Analyse des Correspondances Ordinales de Beh (1997); les résultats obtenus seront comparés avec ceux de l’AFC.

[1] Beh, E. J. (1997) Simple Correspondence Analysis of ordinal cross-classifications using orthogonal polynomials, Biometrical Journal, 39, 5, 589-613.

[2] Beh, E. J. (1998) A comparative study of Scores for Correspondence Analysis with ordered categories, Biometrical Journal, 40, 4, 413-429.

[3] Beh, E. J. (2004) Simple Correspondence Analysis : a bibliographic review, International Statistical Review, 72, 2, 257-284.

[4] Benzécri, J. P. (1976) L’Analyse des Données, tome 2, 2ème ed., Dunod.

[5] Bernard G., Boudouresque CF., Picon P. (2007) Long term changes in Zostera meadows in the Berre lagoon (Provence, Mediterranean Sea). Estuarine, Coastal and Shelf Science, 73:617-629.

[6] Bonhomme, P., Gravel, R. Ruitton, S., Bonhomme, Boudouresque, C.-F. (2008) Système de surveillance des principales espèces de macrophytes dans les étangs de Berre et de Vaïne : Suivi 2007, Contrat GIS Posidonie/GIPREB. GIS Posidonie publ., Marseille, Fr. : 1- 47+ Annexes 1-3.

[7] Rayner, J.C.W. and Best, D.J. (1996) Smooth extensions of Pearson’s product moment correlation and Spearman’s Rho, Statistics & Probability Letters, 30, 171-177.


Meïli Baragatti
Parallel Tempering with Equi-Energy Moves


L'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) se base sur
une population de chaînes actualisées par des mouvements locaux et globaux. Cet algorithme
a été développé dans le but de faciliter les mouvements globaux entre les di fférentes
chaînes, ce qui permet une meilleure exploration de l'espace des paramètres par la chaîne
d'intérêt. Cette méthode est apparement plus efficace que l'algorithme Parallel Tempering
(PT) classique. Cependant, elle nécessite un stockage important de valeurs, et la convergence
de l'EES n'est pas garantie (Andrieu et al., 2008). Nous proposons une adaptation
de l'EES qui combine PT avec le principe de "sauts" entre chaines ayant des niveaux
d'énergie similaires. Cette adaptation que nous appelons Parallel Tempering with Equi-
Energy Move (PTEEM) conserve l'idée originale de l'algorithme EES tout en assurant la
convergence. Les performances de cet algorithme PTEEM sont comparées avec celles des
algorithmes EES et PT, dans le cas de modèles de mélange.




Laura Trinchera :

Partial Least Squares Methods: a methodological overview


The acronym PLS (Partial Least Squares) (PLS) refers to a family of “soft modelling” methods implemented by various extensions of the Nonlinear estimation by Iterative PArtial Least Squares (NIPALS) algorithm. The basic principles of NIPALS were first developed in order to model the relationships between several blocks of observed variables, each one supposed to be the expression of an underlying latent variable (PLS approach to Structural Equation Models, or PLS Path Modeling - PLS-PM). Then, NIPALS iteration was exploited to implement a component-based regularized regression technique, known as PLS regression (PLS-R).

This talk will focus on the computational and methodological aspects of these two methods.




Ricardo Fraiman :

Quantiles for multivariate data and infinite-dimensional spaces


A new projection-based definition of quantiles in a multivariate setting is proposed.

This approach extends in a natural way to infinite-dimensional Hilbert spaces and can be easily adapted to Banach spaces as well. The directional quantiles we define are shown to satisfy desirable properties of equivariance and, from an interpretation point of view, the resulting quantile contours provide valuable information when plotting them. Sample quantiles estimating the corresponding population quantiles are defined and consistency results are obtained.

The new concept of principal quantile directions, closely related in some situations to principal component analysis, is found specially attractive for reducing the dimensionality of the data. Asymptotic properties of the empirical version of principal quantile directions are also obtained. Based on these ideas, a simple definition of robust principal components for finite and infinite-dimensional spaces is also proposed. The presented methodology is illustrated with examples.



Séminaires 2009-2010

Anciens séminaires