EC
Initiation à la science des données
Description
Dans un contexte scientifique, sociétal et économique où stockage, archivage, traitement et valorisation des données sont devenus des enjeux majeurs, cette U.E. permettra de découvrir les bases de la science des données, c’est-à-dire les méthodes et outils, théoriques et pratiques, pour comprendre les données : analyse, visualisation, apprentissage de modèles… Les cours seront faits en salle informatique, avec un poste de travail par étudiant et des manipulations fréquentes sur des exemples. Toutes les notions du cours seront illustrées à partir d’une base de données sur le cinéma.
Inscription S5 : Pré-inscription sur la page Moodle du cours (attention le nombre de places est limités chaque semestre, vous recevrez une confirmation d'inscription par mail)
Compétences requises
Ce cours est proposé aux étudiants de licence 3.
Il n'y a aucun prérequis en termes d'informatique et de programmation, il suffit de savoir manipuler un navigateur web et d'avoir un certain intérêt pour la matière.
Compétences visées
Objectifs en termes de connaissances:
- Contrôler la qualité, la cohérence, la fiabilité, la représentativité des données à traiter.
- Savoir transformer des données pour les rendre utilisables par un algorithme de traitement de données.
- Expliquer et interpréter un jeu de données à partir des résultats fournis par les outils de prédiction, covariance, etc.
- Résumer et expliquer un jeu de données à ses pairs.
Compétences disciplinaires :
- Lire des données statistiques sous différentes formes, interpréter un tableau croisé, pour produire un document de synthèse de données statistiques.
- Se servir aisément des outils et méthodes de recueil, de traitement et d’analyse des données pour observer et analyser les phénomènes et/ou les comportements du sous domaine.
- Concevoir le traitement informatisé d’informations de différentes natures, telles que des données, des images et des textes.
- Exploiter des logiciels d’acquisition et d’analyse de données avec un esprit critique.
- Mettre en œuvre des techniques de programmation, par l’exemple, notamment pour développer des applications simples d’acquisition et de traitements de données.
- Analyser et interpréter les résultats produits par l'exécution d'un programme.
- Mobiliser les outils mathématiques nécessaires à la modélisation.
- Valider un modèle par comparaison de ses prévisions aux résultats expérimentaux et apprécier les limites de validité.
Compétences transversales :
- Analyser et synthétiser des données en vue de leur exploitation. Développer une argumentation avec esprit critique
Modalités d'organisation et de suivi
Les séances de cours auront lieu le mercredi de 17h30 à 19h30 en salle T11 du bâtiment de l'UFR de mathématique et informatique.
Discipline(s)
- Informatique
Informations complémentaires
Bibliographie
Webographie :
- Jeux de données et challenges : https://www.kaggle.com
- Package Python dédié à la science des données : http://scikit-learn.org et https://pandas.pydata.org
- Package Python dédié à la visualisation des données : https://seaborn.pydata.org
Bibliographie :
- Data science : fondamentaux et études de cas. Machine learning avec Python et R, Eric Biernat et Michel Lutz, Eyrolles;
- Big data et machine learning - Le concept et les outils de la data science, 2ème édition, Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaelli, Dunod.