UNIVERSITE DE LA MEDITERRANEE
Maîtrise d'Informatique
Faculté des Sciences de Luminy
Année 2003--2004
Département d'Informatique
Option Biologie Moléculaire II
Michel VAN CANEGHEM ( Michel.Van.Caneghem@lidil.univ-mrs.fr)
MAISON TURING COMPLEXITE BIO I BIO II VIDEO
Dimanche 16 mai 2004

Nouvelles
- L'oral de l'Option Biologie moléculaire aura lieu le Mardi 18 Mai 2004 de 13h à 16
- La nouvelle version des transparents de Mr Blasco est en ligne.
- La nouvelle version du cours de Mme Granon est en ligne

  Présentation
  Emploi du Temps
  Cours
  TP
  Matériel Supplément.
Arrow
TER
  Cours 2002-2003
  Option Bio Licence

Université de
la Méditerranée
Faculté
des Sciences
de Luminy
Département
de Biologie
Département
d'Informatique
Laboratoire
d'Informatique
Fondamentale

Proposition de TER à coloration Bio

Ce sont des sujets de TER d'Informatique qui vont être faits dans ou avec la participation des labos de Biologie. Voici une première liste - si vous êtes intéressés envoyez moi un mail

Les oraux auront lieu Mardi 18 Mai de 13h à 16h

Table des matières


TER 1 : Extension de GINsim pour définir des réseaux génétiques intercellulaires
prérequis : aucun, Option bio maitrise conseillée
Proposé par: Denis Thieffry Bioinformatique des reseaux de regulation du developpement, LGPD Denis Thieffry
Encadré par : Aitor González et Claudine Chaouiya -- Contact : Michel Van Caneghem
  Au sein de l'équipe de Bioinformatique des Réseaux Régulateurs du Développement du LGPD, nous nous intéressons à la modélisation dynamique des réseaux génétiques de régulation, qui contrôlent de nombreux processus biologiques. Dans ce contexte, nous utilisons une interface écrite en Java permettant de lire et/ou générer des fichiers XML spécifiant la structure de réseaux génétiques dans une cellule. Ces fichiers sont utilisés comme données d'un logiciel de simulation et d'analyse dynamiques du réseau.
Dans le cadre de ce sujet de TER, nous proposons d'étendre le moteur de simulation pour qu'il prenne en considération les interactions intercellulaires. Cela passe par une extension du format XML (GINML), via la définition d'un schéma en remplacement de la DTD existante. Il s'agira en outre d'ajouter les éléments nécessaires pour la spécification des relations de voisinage entre cellules, et des interactions intercellulaires (via des récepteurs et ligands attachés aux cellules).
L'interface graphique de GIN-sim sera ensuite modifiée pour prendre en compte le remaniement de GINML et permettre la définition de graphes intercellulaires.
Références :
Rapport de projet GINsim2 par Cordeil et al., DESS Info 2004.
binômes :
  1. Chauvin Benoit () et Sébastien Gay-Para ()

TER 2 : Comparaison de classifications de gènes
prérequis : Option bio maitrise conseillée
Proposé par: Yves Collettes (Laboratoire de Cancérologie Expérimentale -- INSERM Unité 119)
Encadré par : Yves Collettes (U119), Denis Thieffry (LGPD), Michel Van Caneghem (LIF)
  Le vrai titre : Analyse de données de transcriptome pour tester une hypothèse de co-régulation de groupes de gènes de la famille TNF co-localisés sur les génomes murin et humain.
Les gènes de la famille du TNF (Tumor Necrosis factor) sont issus de duplications en bloc de régions chromosomiques paralogues du complexe majeur d'histocompatibilité (CMH) chez l'homme (chromosomes 1, 6, 9 et 19). Ainsi, sur les 19 membres connus chez l'homme, 11 gènes sont répartis sous forme de clusters (3 x 3 gènes et 1 x 2 gènes) sur les 4 régions paralogues , les autres TNF étant répartis par groupes de 2 gènes sur 4 autres régions paralogues (chromosomes X, 3, 13 et 17). Les relations phylogénétiques de ces membres et leur regroupement fonctionnel évoquent fortement l'existence d'une régulation coordonnée de leur expression par des régions régulatrices de la transcription type "Locus control region" ou LCR, comme décrit pour le locus de la b-globine et, plus récemment, le locus de cytokines Th2 (IL-4, -5 et -13) sur le chromosome 5. Pour tester l'hypothèse d'une régulation coordonnée de l'expression des gène regroupés au sein de ces clusters, nous proposons d'analyser en TER leur expression à l'aide de plusieurs jeux de données d'expression à grande échelle (puces à ADN). Il s'agira de comparer les distances entre les gènes de chaque cluster au sein d'arbres de classification des données d'expression (regroupements hiérarchiques) avec leur proximité chromosomique.
Référence:
Collette Y, Gilles A, Pontarotti P, Olive D (2003). A co-evolution perspective of the TNFSF and TNFRSF families in the immune system. Trends Immunol 24(7): 387-94.
binômes :
  1. Dominique JEANNIN () et ???

TER 345 : Comparaison de chromosomes entiers
prérequis : Pour les 2 premiers note correcte au devoir 3 de mon cours, pour le dernier Option bio maitrise conseillée
Proposé par: David Martin (LGPD)
Encadré par : David Martin et Michel Van Caneghem (LIF)
  Depuis quelques années, de paire avec l'évolution des techniques de séquençage, plusieurs génomes Eucaryotes complets ont été rendus publics. La disponibilité de ces données a suscité chez les biologistes un intérêt croissant pour les méthodes de comparaison de séquences génomiques, afin de comparer l'organisation et la conservation des gènes dans les différents génomes. D'autre part, les méthodes classiques d'alignement global de séquences (Needleman-Wunsch) ont trouvé leur limite dans la résolution de cette problématique, car elles ne sont pas adaptées à la comparaison de séquences de plusieurs mégabases. De nouveaux algorithmes d'alignement de séquences ont ainsi vu le jour très récemment sous l'appellation de 'fast global alignement methods'.
Il existe déjà un certain nombre de programmes qui font ce travail (AVID, MUMmer,...). Le but de ce TER est d'en écrire un nouveau en java qui devra utiliser des algorithmes plus simples. Ce travail est assez compliqué, mais il se découpe bien en trois étapes. C'est pourquoi cela fait l'objet de 3 TER. On peut décrire la méthode de la manière suivante :
  • [TER3] La première étape commune à tous ces nouveaux algorithmes, consiste à retrouver toutes les sous-chaînes communes aux deux séquences à aligner. Comme les chaînes sont très grande (100 Mb) , il faut un algorithme très efficace. Nous vous proposon soit d'utiliser las arbres suffixes (O(n)), soit les tables suffixes (O(n log n)) - mais plus facile a implanter. [Ce TER, demande de bonne connaissances en algorithmique et peu en Biologie]
  • [TER4] La deuxième étape consiste à partir des résultats précédents (couples de chaines maximales communes a 2 séquences), de donner un ordre a ces couples de telles manière qu'il n'y ait ni croisement ni chevauchement entre ces couples. On obtient ainsi des sortes d'ancres qui permettent de construire l'alignement final [même remarque pour le TER précédent].
  • [TER5] La dernière étape consiste a s'occuper de ce qu'il y a entre les ancres et soit de faire un alignement classique si l'espace inter-ancres est petit, soit a relancer tout le processus, si l'espace inter-ancres est trop grand. Une fois que l'alignement est fini, il faut trouver un moyen astucieux d'afficher les résultats (il ne s'agit pas d'imprimer 10 millions de caraxtères!). Ceux qui s'occuperont de ce dernier TER seront également chargé de faire des tests et de comparer avec les autres programmes existants. [il faut ici plus de connaissances en bio]
Si un binôme prend ce sujet cela sera le TER 3, si deux binomes prennent ce sujet cela sera les TER 3 et 4 et si trois ... vous avez compris. Les trois binômes travailleront ensemble pour interfacer leurs programmes ainsi que pour les tests et la compréhension du problème.
Référence:
AVID : http://baboon.math.berkeley.edu/avid_supplementary/. Je vous conseille de regard le papier : AVID paper, il ne fait que 6 pages.
MUMmer : http://www.tigr.org/software/mummer/. De même regardez le dernier papier sur MUMmer 3, a la fin de la page web, un peu plus gros, il fait 9 pages!!. Ce logiciel est Open-Source et tous les sources sont distribués : c'est un bon moyen de faire des comparaisons. Ceci dit comme les algorithmes sont compliqués, il vaut mieux repartir a zéro.
binômes :
  1. TER3 : Costanza Damien () et Ducloux Victor()
  2. TER4 Philippe BEAMONTE () et Frédéric REINIER ()

TER 6 : Aide pour l'adjonction d'annotations a une base de données biologique : Wormbase
prérequis : Option bio maitrise fortement conseillée
Proposé par: Jonathan Ewbank (CIML)
Encadré par : Jonathan Ewbank (CIML) et Michel Van Caneghem (LIF)
  Notre projet TER consiste à la mise en place d'un interface plus simple pour l'entrée de 'third party annotations' dans la base de données Wormbase. Une description complète de ce projet se trouve à : http://www.ciml.univ-mrs.fr/EWBANK_jonathan/Bioinf/Projet_infoTER.html
Pour ce TER, il faut un binôme ayant une grande autonomie. Ces étudiants devront discuter avec les biologistes pour bien comprendre ce qu'ils souhaitent, en suite préciser le cahier des charges et enfin le réaliser.
Peut-être des idées ici : http://www.alphaworks.ibm.com/tech/biowbi?Open&ca=daw-flnt-040804
binômes :

TER 7 : Extraction automatique d'information concernant des interactions entre gènes, à partir de textes
prérequis : Option bio ou langue naturelle maitrise conseillée
Proposé par: Bernard Jacq (LGPD)
Encadré par : Elisabeth Godbert (LIF), Jean Royauté (LIF) et Bernard Jacq (LGPD)
 
Les bases de données biologiques contiennent de très nombreux documents sous la forme de textes. La lecture et l'étude, par un biologiste, de tous ces documents étant impossible, nous nous intéressons à la réalisation d'un dispositif pour l'extraction automatique, dans ces textes, de certains types d'information. Plus précisément, le travail proposé ici est la détection automatique de phrases parlant d'interactions entre gènes, dans un corpus de textes étiquetés fourni par un laboratoire de biologie. Pour cela, vous utiliserez et comparerez plusieurs méthodes de classification qui permettent de mettre en oeuvre des techniques d'apprentissage.
binômes :
  1. AGREBI Brahim () et BONNARDEL Marie()

TER 8 : à venir
prérequis : Option bio maitrise conseillée
Proposé par:  
Encadré par : Michel Van Caneghem (LIF)
   
binômes :

TER 9 : à venir
prérequis : Option bio maitrise conseillée
Proposé par:  
Encadré par : Michel Van Caneghem (LIF)
   
binômes :

©2004 Michel Van Caneghem

Ce document a été traduit de LATEX par HEVEA.