Commandes UNIX - miniTP

Auteurs : Jeanne Cheneby, Laurent Tichit

En ligne de commande :

  1. Créez un répertoire nommé poulet
  2. Téléchargez dans ce répertoire un fichier à l’adresse “http://tagc.univ-mrs.fr/remap/download/remapR/ReMap2_allPeaks_100000lines_alexey.bed.gz” (commande wget).
  3. Décompressez le fichier avec le programme gunzip. Le fichier décompressé est un fichier au format bed (voir informations ci-dessous).
  4. Affichez le contenu du fichier dans le terminal.
  5. Affichez les 20 dernières lignes du fichier.
  6. Affichez le nombres de lignes du fichier.
  7. Affichez les lignes des expériences réalisées dans la lignées cellulaire “mcf7”. Puis affichez le nombre de lignes de cette lignée cellulaire ( “|”, pipe).
  8. Affichez toutes les lignes issues des expériences réalisées dans “mcf7” et ne provenant PAS d’ENCODE.
  9. Créez deux fichiers. L’un contenant toutes les expériences réalisées dans le lignées cellulaire “mcf7”, l’autre dans la lignée cellulaire “k562”.
  10. Concaténez les deux fichiers précédents dans un nouveau fichier.
  11. Supprimez les deux anciens fichiers.
  12. Dans ce nouveau fichier ajoutez les lignes issues des expériences réalisées dans la lignée cellulaire “hela”.
  13. Affichez uniquement les colonnes 1, 4 et 7.
  14. Créez un fichier ne contenant que les informations sur l’expérience (colonne 4).
  15. Créez un nouveau répertoire “experience” et déplacez le fichier nouvellement créé dans ce nouveau répertoire.
  16. N’affichez que les lignes uniques de ce fichier (indice : il faut d’abord les trier).
_info format bed:_

C'est un fichier texte au format bed qui est un format très utilisé en biologie. Ils permettent de lister des positions chromosomiques d’intérêt et de les annoter. 
Les fichiers bed sont des fichiers composés de colones séparées par des tabulations (aussi écrites "\t" ).
Ici le fichier bed contient les régions de fixation de la protéine CTCF sur le génome humain. Ces régions sont issus de plusieurs expériences ChIP-seq.
Dans le fichier téléchargé chaque colonnes correspondent à différentes informations dont les plus indispensables sont: 

 1. Chromosome
 2. position de départ
 3. position de fin
 4. Expérience d'où provient l'information dont la structure est la suivante <IDENTIFIANT_SERIE>.<FACTEUR_TRANSCRIPTION>.<LIGNEE_CELLULAIRE>. (Identifiant commence par "ENCSR" s'il provient d'ENCODE et "GSE" s'il provient de GEO).
 7. Début du pic
 8. Fin du pic

Pour plus d'information regarder le site UCSC.
(https://genome.ucsc.edu/FAQ/FAQformat.html#format1).