EC
Images, Signaux et Science des Données
Compétences requises
Statistiques de lycée, base de programmation python
--
High school statistics, python programming base
Compétences visées
Ce cours de traitement de données vise à fournir les outils de base et les bonnes pratiques à avoir face à un ensemble de données. Ces données peuvent être de natures différentes, de très grande taille, ou présenter des relations de dépendance entre elles. Le rôle du traiteur de données (ou data scientist) est d’extraire et synthétiser les informations cachées et d’en donner une représentation graphique ou numérique claire et concise.
Les points suivants seront évalués dans le notebook du projet ainsi que dans la présentation :
- Savoir utiliser de manière adéquates les différents prétraitements d’un jeu de données avant
toute analyse. - Savoir choisir et varier les représentations graphiques en fonction de l’information que l’on
cherche à mettre en évidence. - Savoir utiliser les représentations numériques de manière opportune et savoir critiquer les valeurs obtenues.
- Savoir justifier le choix des transformations éventuelles de variables qualitatives.
- Savoir mener une analyse générale du jeu de données pour mettre en évidence un certain nombre d’informations "haut niveau" en combinant astucieusement les différentes variables à disposition.
- Être capable de mettre en œuvre au moins une régression linéaire pour décrire une relation linéaire entre deux variables du jeu de données.
- Faire appel à des connaissances externes/a priori sur les données (ou l’environnement des données) pour expliquer certaines analyses.
Enfin deux compétences transversales doivent être validées à l’issue de cet enseignement :
- Savoir communiquer sur sa démarche d’analyse.
- Savoir critiquer les résultats obtenus.
--
This data processing course aims to provide the basic tools and best practices to deal with a set of data. These data can be of different natures, very large, or have dependencies between them. The role of the data processor (or data scientist) is to extract and synthesize the hidden information and give a clear and concise graphic or numerical representation of it.
The following points will be evaluated in the project notebook and in the presentation:
- Knowing how to use the different pre-processing of a dataset adequately before
any analysis. - Knowing how to choose and vary graphic representations according to the information you need.
seeks to highlight. - To know how to use numerical representations in a timely manner and to know how to criticize the values obtained.
- To know how to justify the choice of possible transformations of qualitative variables.
- To be able to carry out a general analysis of the data set in order to highlight a certain amount of "high-level" information by cleverly combining the different variables available.
- Be able to implement at least one linear regression to describe a linear relationship between two variables in the dataset.
- Use external/a priori knowledge of the data (or the data environment) to explain certain analyses.
Finally, two transversal skills must be validated at the end of this course:
- Knowing how to communicate on your analysis approach.
- Knowing how to criticize the results obtained.
Syllabus
Cet enseignement d’ouverture démarre des séances de cours intégrés autour du traitement des données suivi d’un projet encadré dans lequel des compléments de cours seront apportés en fonction des demandes pour le projet. Lors de la dernière séance de projet, une présentation orale sera faite par les étudiants seuls ou en binôme et pourra donner lieu selon le sujet du projet à un data challenge entre les groupes.
Plan du cours :
- Introduction – les différents types de données
- Représentations numériques et graphiques
- Prétraitement des données
- Régression
L’ensemble du cours est axé sur un exemple : une base de données de plus de 4000 films avec des informations diverses (titre, budget, réalisateur, année, public ciblé, etc), permettant l’application des différents outils étudiés, les séances de cours et de projets devront avoir lieu en salle informatique afin que les étudiants aient accès en permanences aux notebooks python qui contiennent les rappels de cours + la mise en œuvres des outils décrits dans le cours sur la base de films.
--
This introductory teaching starts integrated course sessions around data processing followed by a supervised project in which additional courses will be provided according to the demands of the project. During the last project session, an oral presentation will be made by the students alone or in pairs and may lead to a data challenge between the groups, depending on the project subject.
Course outline :
- Introduction - the different types of data
- Numerical and graphical representations
- Data pre-processing
- Regression
The whole course is based on an example: a database of more than 4000 films with various information (title, budget, director, year, target audience, etc), allowing the application of the different tools studied, the class and project sessions will have to take place in a computer room so that students have permanent access to python notebooks containing the course reminders + the implementation of the tools described in the course on the basis of films.