Institut de Mathématiques de Luminy

MÉTHODES MATHÉMATIQUES POUR LA GÉNOMIQUE

Vous pouvez également obtenir une autre présentation des activités dans le :
Rapport scientifique 2003-2006
(à 4 ans)

Thèmes de recherche


L'équipe MMG développe des recherches méthodologiques pour l'étude de questions biologiques en Classification fonctionnelle des protéines, Modélisation des réseaux de régulation cellulaire, Génomique comparative. Les domaines mathématiques et informatiques concernés sont les Mathématiques discrètes, les Probabilités / Statistiques et l'Algorithmique combinatoire. Les problèmes en cours d'étude sont :

1 - Partitionnement et représentation de graphes

Nous intéressons aux réseaux d'interactions directes entre protéines (graphes simples), dans le but de prédire leurs fonctions. Par des méthodes combinatoires nous partitionnons un graphe donné en classes possédant une densité d'arêtes supérieure à celle du graphe.

- Méthodes d'optimisation combinatoire
Pour construire de telles classes, on cherche à optimiser un critère sur l'ensemble des partitions en classes connexes des sommets d'un graphe et à mesurer des critères de qualité des classes, éventuellement chevauchantes.

- Comparaison des partitions d'un ensemble
L'évaluation des performances et la comparaison des algorithmes de partitionnement nous a amené à étudier la distance entres deux partitions P et Q définie comme le plus petit nombre d'éléments qu'il faut déplacer d'une classe dans une autre, éventuellement vide, pour transformer P en Q. Et en particulier, les valeurs maximales de cette distance entre deux partitions de type fixé.

2 - Modélisation de réseaux de régulation génétiques

Les biologistes utilisent des systèmes dynamiques pour représenter les réseaux de régulation ; les gènes ou leurs produits sont associés aux sommets du graphe et leurs interactions sont représentées par les arcs signés, positivement dans le cas d'une activation, et négativement dans le cas d'une inhibition. Un des objectifs est de caractériser des liens entre des propriétés structurelles ou topologiques du réseau de régulation et des propriétés dynamiques du système (points stationnaires, stables/instables, cycles limites, bassins d'attraction). Deux formalismes sont étudiés dans le cadre d'un projet "Jeunes chercheurs ANR" :

(i) Un formalisme multivalué discret qui associe à chaque élément du réseau une variable discrète multivaluée représentant de façon qualitative ses différents niveaux d'expression, et des fonctions qui représentent son niveau de synthèse.

(ii) Un formalisme à base de réseaux de Petri qui permet de traiter les problèmes combinatoires liés à l'accroissement des réseaux de gènes au-delà de quelques dizaines d'éléments.
Une proposition de réécriture systématique de réseaux logiques en réseaux de Petri ouvre la voie vers une grande classe d'outils algébriques à exploiter.

3 - Génomique comparative

Avec le séquençage des génomes complets (plusieurs centaines) les problèmes de comparaisons de séquences et de phylogénie se posent à une nouvelle échelle car les grands remaniements de fragments (retournements, translocations) doivent être pris en compte.

3.1 Phylogénie des génomes bactériens complets
Nous étudions les propriétés évolutives des distances qui évitent d'aligneer les génomes. En particulier une distance basée sur les MSMs (Mots Maximum Significatifs), calculable en temps linéaire. Ceci nous conduit à étudier les méthodes de comparaison d’arbres

3.2      Alignement 'généralisé'
Nous proposons une méthode de comparaison de séquences permettant de prendre en compte des événements évolutifs plus généraux que les techniques d'alignement classiques qui sont limitées à des évolutions de types substitutions-insertions-délétions. L'approche est asymétrique et permet à partir d'un score de substitution classique de mettre en évidence des segments homologues entre deux séquences même dans le cas où ceux-ci apparaissent dans des ordres différents, ou encore répétés. Enfin elle est applicable à la comparaison de génomes entiers.



(version décembre 2008)

 

Dernière mise à jour le 10 décembre 2008, EL