Module
Analyse de données
Description
-
Collecte de données à partir du web : développement de programmes pour télécharger, analyser la structure hiérarchique et extraire le contenu textuel principal de pages HTML.
-
Traitement de données avec la bibliothèque pandas : nettoyage et prétraitement des données, analyse univariée, analyse bivariée, visualisation.
Vectorisation de textes : décomposition des textes en unités, normalisation et autres prétraitements, visualisations, pondération tf-idf.
Compétences visées
-
Collecter des corpus de textes à partir du web.
-
Nettoyer, prétraiter, analyser et visualiser des données tabulées.
-
Traiter des données textuelles pour obtenir des représentations vectorielles.
-
Développer des programmes informatiques dédiés au Traitement automatique de la langue
-
Développer des programmes informatiques pour l’analyse, la structuration des données (analyse statistique, méthodes de représentation graphique)
-
Utiliser des outils d’annotation automatique simples (étiqueteurs, analyseurs syntaxiques)
-
Collecter et organiser des données linguistiques, les formaliser, les représenter dans un format normalisé
-
Exploiter des données linguistiques avec des outils spécialisés (outils de traitement statistique)
Discipline(s)
- Informatique
Informations complémentaires
-
Responsable pédagogique Delphine Bernhard
-
Email dbernhard@unistra.fr