Programme du Séminaire de Statistique et Applications

Organisateurs: Badih. Ghattas et Agnès Grimaud

 

Lieu : Amphi Herbrand - Institut de Mathématiques de Luminy (1er étage), Université de la Méditerranée

Jour : Le jeudi

Horaires : de 16h à 17h pour un séminaire simple,  de 15h30 à 17h30 pour un double séminaire

 
 

Prochain séminaire

Quelques informations générales, plans d'accès, coordonnées organisateurs, remboursement de frais.

Liste des séminaires de l'année

Anciens séminaires

 

 

Séminaires 2008-2009

 

Date

Titre

Invité

Etablissement

04/12/09

Introduction aux graphes aléatoires

Denys Pommeret

IML

18/12/08

Fouille de données sur des
grands graphes

Nathalie Villa

Univ. Toulouse





15/01/09

Monique Vincent-Dalud

GRS, Univ. Lyon 2

22/01/09

Prédiction bayésienne dans le cas de réponse non observable

Badih Ghattas

IML

05/02/09

Structured outputs and variable selection with decision tree ensembles - applications in bioinformatics

P. Geurts

Bruxelles

19/02/09

Forêts aléatoires : importance et sélection de variables

J.M. Poggi

Orsay

26/02/09

Reconstitution de champs de données physiques dans l’Océan Austral à l’aide d’une méthode de krigeage fonctionnel

David Nerini

COM Marseille

19/03/09

Modélisation en réseaux télécoms

P. Bermolen

ENST Paris

16/04/09 

Une classe de champs aléatoires dissymétriques, les "skew-normal random fields"

D. Allard 

INRA Avignon 

04/06/09

Données ordinales et modèles de mélange en classification non-supervisée

F.X. Jollois 

Paris V 

11/06/09 R. Giorgi  Timone, Marseille
09/07/09 Une approche fonctionnelle pour la prévision de séries temporelles.  J. Cugliari EDF, Paris
09/07/09

Estimating boundary measures of general sets

R. Fraiman Universidad San Andres, Argentine

 

 

Denys Pommeret

    Nous présentons tout d'abord le graphe le plus simple de Erdös Rényi qui propose une liaison dichotomique entre deux sommets. Nous nous intéressons ensuite à plusieurs extensions, dont celle proposée par Daudin et al. récemment. Les applications semblent nombreuses, notamment en génomique mais aussi en sciences sociales pour modéliser des réseaux d'interactions entre individus. Des problèmes ouverts seront abordés. 

 

Nathalie Villa

    La recherche de groupes de sommets d'un grand graphe fortement liés et l'étude des relations existant entre ces groupes est une thématique d'intérêt dans plusieurs domaines applicatifs : réseaux sociaux, réseaux biologiques, recherche d'information, etc. Dans cette optique, nous présenterons des méthodes d'organisation de sommets sur des cartes de faibles dimensions. Ces méthodes sont soit des adaptations d'algorithmes de cartes auto-organisatrices à des données non vectorielles par le biais de noyaux, soit des algorithmes stochastiques ou déterministes de recuit conduisant à l'optimisation d'un critère de qualité de l'organisation du graphe. Nous illustrerons notre propos sur des réseaux sociaux réels.

 

David Nerini

 

    Depuis plus de deux décennies, les mammifères marins constituent de puissants alliés pour les océanologues. La miniaturisation des appareils de mesure (CTD) en océanographie a en effet permis d’équiper certains de ces animaux, susceptibles de transiter dans des zones de l’océan inaccessibles pour la plupart des navires océanographiques. Outre l’étude de leur comportement migratoire ou reproducteur, l’analyse des échantillons de données physiques (température, salinité) et maintenant biologiques (chlorophylle A), collectées par des éléphants de mer via ces appareils de mesure, vient enrichir les connaissances éparses dans des zones de l’Océan Austral proche du plateau continental Antarctique ([1],[2]). Cependant, l’amélioration de cet échantillonnage a entrainé une augmentation conséquente de l’acquisition de données à haute fréquence spatio-temporelle et avec elle, la nécessité de développer des méthodes mathématiques novatrices permettant d’analyser ces données.

    Nous proposons dans cet exposé une méthode pour reconstruire le champ de courbes de température à partir d’un échantillonnage réalisé le long de la trajectoire d’un éléphant de mer, ceci en tenant compte de la variabilité des appareils de mesure. Une généralisation des méthodes de krigeage est proposée dans le cas où les données sont des courbes échantillonnées spatialement. Sous des conditions de régularité des fonctions, nous établissons un modèle linéaire fonctionnel incluant des dépendances spatiales entre courbes, ceci en dimension infinie ([3],[4]). D’un point de vue pratique, nous montrons enfin que le problème peut se ramener à celui d’un cokrigeage standard, ce qui permet de faciliter le calcul des estimateurs.

Références

[1] Bailleul F., Charrassin J-B., Ezraty R., Girard-Ardhuin F., McMahon C. R. , Field I. C. and C. Guinet (2007) Southern elephant seals from Kerguelen Islands confronted by Antarctic Sea ice. Changes in movements and in diving behaviour, Deep Sea Research Part II: Topical Studies in Oceanography, 54, 343-355

[2] Bailleul F., Charrassin J-B., Monestiez P., Roquet F., Biuw M. and C. Guinet (2007) Successful foraging zones of southern elephant seals from the Kerguelen Islands in relation to oceanographic conditions, Phil. Trans. R. Soc. B, 362, 2169-2181

[3] Nerini D., Monestiez P and C. Manté (2008) Cokriging for Functional Data, accepted in J. Mult. Anal. 

[4] Ramsay J. O. and B. W. Silverman (2005) Functional Data Analysis, Springer, New-York.

 

Monique Dalud-Vincent 

Traditionnellement, la mobilité sociale est étudiée à l’aide de tableaux statistiques (appelés table de mobilité) croisant la profession d’un enquêté et celle d’un de ses ascendants (parent ou grand-parent). Ces tables, issues des enquêtes de l’INSEE, montrent d’une manière générale que la mobilité est « ascendante » (l’enquêté a une profession « plus élevée » que celle de son ascendant) et valident ainsi une certaine stratification des professions. Mais si ceci est vrai quand on utilise une nomenclature des professions grossière, ce n’est plus le cas avec une nomenclature plus fine comme on peut le montrer pour les enquêtes de 1985 et de 2003. Dans ce cas, une modélisation sous forme de graphes des tables permet de mettre en évidence une structure non verticale mais plutôt de type « centre/périphéries » des catégories socioprofessionnelles. Le graphe est défini sur l’ensemble des catégories (sommets) et les arcs (orientés de la catégorie de l’ascendant vers celle de l’enquêté) sont donnés par les écarts à l’indépendance strictement positifs. Les composantes fortement connexes caractérisent la « continuité » (i.e. l’impossibilité d’ordonner les catégories) par opposition à la notion de stratification. L’outil Réso permet de décomposer les composantes en mettant en évidence les catégories plus en périphéries et les catégories plus centrales sur la base d’un critère de fragilité des positions. On montre ainsi que la continuité a fortement progressé entre 1985 et 2003 ce qui peut s’expliquer par un contexte économique plus difficile et une moindre rentabilité des diplômes (les mobilités les plus significatives se sont déplacées).

 

 

Badih Ghattas

Nous présentons des résultats de consistence d'un algorithme de prédiction pour une variable réponse non observable. Dans ce contexte nous supposons que nous disposons d'algorithmes "faibles" permettant de réaliser cette prévision avec un taux d'erreur qui peut être voisin de un demi dans le cas binaire. Nous agrégeons les prévisions de tels algorithmes pour produire un prédicteur fiable. Un exemple d'application est celui de la mise en place de test de diagnostic fiable pour certaines maladies dont le diagnostic  est difficile à obtenir mais pour laquelle des tests non coûteux et non invasifs peuvent être répétés sur chaque individu. 

 

Pierre Geurts

 

Les méthodes d’arbres de décision sont très attractives pour leur efficacité computationnelle, leur simplicité et leur interprétabilité. Leur utilisation au sein de méthodes d’ensemble, telles que le boosting ou les random forests, les rend en plus compétitives en terme de précision par rapport à d’autres méthodes telles que les machines à support vectoriel ou les réseaux de neurones artificiels. Dans cet exposé, je présenterai nos derniers travaux autour de ces méthodes.

Dans la première partie, je parlerai d’une extension des méthodes d’arbre que nous avons proposée pour traiter des sorties complexes. Cette extension est basée sur la réécriture de la mesure de score utilisée dans les arbres de régression à partir de noyaux. Cette méthode, appelée OK3, permet de traiter n’importe quel type de sortie sur laquelle il est possible de définir un noyau. Elle généralise les méthodes d’arbre traditionnelles et hérite de la plupart de leurs caractéristiques. L’intérêt de la méthode sera illustré sur un problème de complétion de graphe biologique.

Dans la seconde partie de l’exposé, j’évoquerai nos travaux récents sur la sélection de variables. Les méthodes d’ensemble d’arbre permettent d’ordonner les variables d’entrée par ordre de leur pertinence (aussi appelée importance) pour prédire la variable de sortie. Néanmoins, ces mesures d’importance sont généralement peu compréhensibles et il n’est pas aisé de tirer du classement des variables un sous-ensemble maximum de variables réellement pertinentes. Pour palier à ce problème, nous avons proposé une procédure inspirée des corrections pour tests multiples utilisées en statistique univariée qui vise à déterminer le seuil d’importance minimal au delà duquel la grande majorité des variables peuvent être considérées comme pertinentes. Cette procédure sera comparée à d’autres méthodes similaires sur des données artificielles et des données réelles d’expression issues de puces à ADN.



Jean Michel Poggi

    On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits "standards" que pour ceux dits de "grande dimension" (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables.

Il s'agit d'un travail en collaboration avec R. Genuer et C. Tuleau.



Paola Bermolen

De nombreux problèmes dans les réseaux de télécommunications peuvent être abordés avec une perspective probabiliste ou statistique.

Dans une première partie nous présenterons d’une manière générale quelques exemples liés à ces problématiques. Nous traiterons à titre d’exemple le problème de la garantie de qualité de service des applications multimédias. Ces applications exigent des hautes performances telles que délai faible et pertes minimales, non supportées par les réseaux actuelles.

Dans une seconde partie nous nous concentrerons sur deux problématiques assez différentes: la prédiction de la charge sur un lien et la classification des applications paires a paires utilisées pour la distribution de TV. Pour ce faire nous appliquerons des techniques d’apprentissage statistique, en particulier les machines à vecteurs de support (SVM).

Denis Allard

Une classe de champs aléatoires dissymétriques, les "skew-normal random fields": propriété, simulation, estimation et une application en climatologie.

Travail en collaboration avec Philippe Naveau (CNRS, LSCE)  et Cédric Flecher  (INRA (Agroclim) et CEA (LSCE))

Dans cet exposé, je commence par motiver la nécessité de disposer de lois multivariées disymétriques, mais possédant de bonnes propriétés mathématique pour les applications en environnement. La classe des "skew-normal distribution", proposée par Azzalini et Dalla Valle (1996) puis généralisée par Dominguez-Molina et al. (2001) répond à ces critères. Je montre comment celles-ci offrent un cadre pour construire des champs aléatoires disymétriques, faciles à  simuler et permettant l'estimation des paramètres de covariance spatiale.
Je termine en illustrant leur utilisation dans un cadre temporel pour la construction d'un générateur climatique.



F.X. Jallois

Données ordinales et modèles de mélange en classification non-supervisée :

La classification d’un ensemble d’objets d´ecrits par un ensemble de variables ordinales est souvent abordée en considérant ces variables soit continues soit
nominales. Dans les deux cas, cela représente souvent des inconvénients.
Dans cet exposé nous traitons la classification des données ordinales sous l’approche modèle de mélange. Nous utilisons un modèle de mélange multinomial contraint respectant le caractère ordinal des modalités.
L’estimation des paramètres est réalisée par la maximisation de la vraisemblance à l’aide de l’algorithme EM. Nous considérons aussi une version stochastique et une
version classifiante basée sur la maximisation d’une vraisemblance classifiante.
Des modèles parcimonieux conduisant, sous l’approche classifiante, à des critères métriques sont décrits. De plus, nous traitons la classification hiérarchique
des données ordinales sous cette approche.




R. Giorgi

Analyse de Survie en Présence de Risques Compétitifs

 

    En épidémiologie, les données de survie en présence de risques concurrents sont fréquentes. L'étude du délai jusqu'au premier évènement (récidive ou décès) chez des patients ayant eu un traitement est également une situation où les risques de récidive et de décès sont en concurrence.

    Nous présentons les principales méthodes d’analyse statistique utilisées dans le cadre particulier des risques concurrents : d’une part la méthode d'estimation de la probabilité d'évènement (fonction d'incidence cumulée), et d’autre part les méthodes pour estimer l’effet de covariables, basées sur la fonction de risque cause-spécifique ou sur la fonction de risque de sous-répartition. La théorie statistique de ces méthodes est présentée ainsi qu'un exemple d'application avec le logiciel statistique R sur les données d'un essai clinique randomisé chez des patients atteints d'un cancer de la prostate et pour lesquels le décès est renseigné selon différentes causes.

 

Jairo Cugliari

Une approche fonctionnelle pour la prévision de séries temporelles.

    On considère une suite de variables aléatoires à valeurs dans un espace de Hilbert. Sous une structure de processus ARH(1), le problème de prévision du processus a été étudié dans la littérature. Or, il arrive souvent que des phénomènes réels ne puissent pas être modélisés par telle structure.
    Sous des hypothèses raisonnables sur une série temporelle observée, Antoniadis et al proposent une prévision obtenue à l’aide d’une régression par noyau dans le cas d’un processus fonctionnel stationnaire.
    Malgré le fait d’obtenir une modélisation plus la flexible, cette approche n’est pas encore satisafaisante pour l’appliquer au cas de la consommation d’électricité. On a donc adapté la méthode pour pouvoir l’appliquer à des conditions plus générales. Des résultats encourageant sont obtenus pour la prévision de la demande d’électricité chez EDF.


Ricardo Fraiman

Estimating boundary measures of general sets


Antonio Cuevas(a), Ricardo Fraiman (b) and Laszlo Gyor(c)
(a) Department of Mathematics, Universidad Autonoma de Madrid, Spain
(b) Departamento de Matematica, Universidad de San Andres, Buenos Aires, Argentina and Universidad de la Republica, Montevideo, Uruguay
(c) Department of Computer Science and Information Theory, Budapest University of Technology and Economics, Hungary

We deal with a subject in the interplay between nonparametric statistics and geometric measure theory. The measure of the boundary L0(G) of a set G in Rd can be formally defined, via a simple limit, by the so-called Minkowski content. We study the estimation of L0(G) from a sample random points inside and outside G. The sample design assumes that, for each sample point, we know (without error) whether or not that point belongs to G. Under this design we suggest a simple nonparametric estimator and investigate its consistency properties. The main emphasis in this paper is on generality. So we are especially concerned with proving the consistency of our estimator under minimal assumptions on the set G. In particular, we establish a very mild shape condition on G under which the proposed
estimator is consistent in L2 and almost surely. Roughly speaking, such condition establishes that the set of "very spiky" points at the boundary
of G must be "small". This condition is carefully analyzed, providing some equivalent statements as well as some sufficient and necessary conditions for
it. Several examples are discussed.