Site Unistra - Accueil
Faire un don

Description

  • Collecte de données à partir du web : développement de programmes pour télécharger, analyser la structure hiérarchique et extraire le contenu textuel principal de pages HTML.

  • Traitement de données avec la bibliothèque pandas : nettoyage et prétraitement des données, analyse univariée, analyse bivariée, visualisation.

Vectorisation de textes : décomposition des textes en unités, normalisation et autres prétraitements, visualisations, pondération tf-idf.

Compétences visées

  • Collecter des corpus de textes à partir du web.

  • Nettoyer, prétraiter, analyser et visualiser des données tabulées.

  • Traiter des données textuelles pour obtenir des représentations vectorielles.

  • Développer des programmes informatiques dédiés au Traitement automatique de la langue

  • Développer des programmes informatiques pour l’analyse, la structuration des données (analyse statistique, méthodes de représentation graphique)

  • Utiliser des outils d’annotation automatique simples (étiqueteurs, analyseurs syntaxiques)

  • Collecter et organiser des données linguistiques, les formaliser, les représenter dans un format normalisé

  • Exploiter des données linguistiques avec des outils spécialisés (outils de traitement statistique)

Discipline(s)

  • Informatique

Informations complémentaires

  • Responsable pédagogique Delphine Bernhard

  • Email dbernhard@unistra.fr 

Contact

Responsable pédagogique
Delphine Bernhard : dbernhard@unistra.fr