UE
Séquençage et analyse de séquences
Description
L’UE vise à familiariser les étudiant-e-s aux concepts, ressources et outils de base utilisés en bioinformatique. Elle couvre la structuration de l'information biologique ainsi que les méthodes et programmes incontournables en analyse de séquences. A l’issue de l’enseignement, les étudiant-e-s doivent être en mesure de choisir une ressource adaptée à une question biologique simple, à mesurer les limites des outils utilisés et à interpréter les résultats en mobilisant des connaissances pluri-disciplinaires.
Les thèmes abordés sont :
- Principales méthodes de séquençage avec leurs forces et faiblesses (rappel séquençage 1ère génération, Illumina, PacBio, Oxford nanopore)
- Banques de données biologiques : présentation des principales banques de séquences et banques apparentées, organisation et standardisation de l'information biologique, ontologie
- Comparaison de 2 séquences : systèmes de score, alignements optimaux de 2 séquences
- Recherches de similarité basées sur la recherche de mots (alignment-free) et sur les alignements (BLAST, BLAT)
- Alignement multiple : principaux algorithmes et programmes couramment utilisés, qualité d’un alignement, applications de l’alignement multiple, motifs et profils
- Phylogénie moléculaire : terminologie, exemples d'applications de la phylogénie, méthodes de construction d’arbres, estimation de la robustesse d’un arbre, outils et ressources web.
Ces différentes notions sont d'abord présentées en cours puis illustrées par des exercices en salle de ressource informatique afin de développer les compétences pratiques des étudiants. Au cours de ces séances, les étudiants pratiqueront :
- Contrôle qualité et pré-traitement de données NGS avec utilisation de Galaxy
- Recherche d’information dans les principales banques de séquences et ressources apparentées
- Comparaisons de séquences deux à deux avec les outils de la plateforme EMBOSS
- Recherche de similarité (utilisation des serveurs BLAST du NCBI et BLAT de l’UCSC)
- Utilisation d’API et de lignes de commandes (interrogation de banques de séquences, création d’une banque BLAST, utilisation locale de BLAST)
- Construction, édition et analyse d’alignements multiples
- Construction et interprétation d’arbres phylogénétiques avec différents programmes
Compétences visées
- Connaitre les principales méthodes de séquençage, leurs avantages et limites
- Comprendre la représentation des données de séquences et des métadonnées afférentes
- Etre capable d’extraire des données pertinentes des banques de données biologiques
- Comprendre les algorithmes majeurs utilisés en comparaison de séquences
- Maitriser les ressources et outils de base de l'analyse de séquences et être capable de les utiliser en ligne de commande
- Etre capable d’extraire de la connaissance d’une recherche de similarité, d’un alignement multiple, d’un arbre phylogénétique
- Mettre en oeuvre des connaissances et compétences pluridisciplinaires
Discipline(s)
- Biochimie et biologie moléculaire