Matière
Données complexes
Description
Cet enseignement aborde la problématique de la Sciences des données et de l’Intelligence artificielle d’un point de vue des données plutôt que de méthodes. Pour chaque type de données seront ainsi présentés les particularités, les défis qu’elles présentent et les méthodes qui leur sont dédiées.
Compétences requises
À l'entrée de cet enseignement, un étudiant devrait savoir :
- Connaître les principes de base de l’apprentissage automatique et les méthodes d’évaluation associées
- Écrire des programmes simples en Python
Compétences visées
À l'issue de cet enseignement un étudiant saura :
- Mettre en évidence les particularités des données qu’il est amené à manipuler et les mettre en forme pour les rendre opérables
- Identifier parmi les méthodes existantes celles qui sont applicables et choisir les plus pertinentes pour le problème d’analyse à résoudre
- Mettre en œuvre des solutions informatiques pour différentes catégories d’applications liées au texte, au séries temporelles, aux graphes, aux données de l’environnement, aux données de l’industrie 4.0 (*).
- Comprendre les concepts et les principaux algorithmes de recherche de motifs dans un texte ou une base de données.
- Comprendre les défis et solutions proposées pour l’analyse de séries temporelles, en particulier la classification supervisée ou non.
- Mettre en œuvre des chaînes de traitement linguistique et des techniques de recherche d’information.
- Modéliser des données sous forme de graphes et les analyser (recherche de motifs fréquents, recherche de cliques, …).
- Dans un jeu de données complexes, identifier et interpréter les méta-données utiles, évaluer la complétude et la cohérence des données et tenir compte de l’expertise disponible.
- Comprendre les défis industriels en lien avec l’industrie 4.0 et 5.0 et implémenter des solutions d’analyse de données pour traiter des cas d’étude.
(*) : Cette UE regroupe différentes thématiques dont la liste exacte pourra varier d’une année à l’autre en fonction des avancées scientifiques et technologiques dans les différents domaines ainsi que de la disponibilité des intervenants.
Discipline(s)
- Informatique
Syllabus
Les principaux thèmes étudiés sont :
- Mots particuliers : mots de Fibonacci, mots et graphe de de Bruijn.
- Algorithmes d'alignement de motifs : distance et graphe d'édition, algorithme d'alignement global, algorithme du plus long sous-mot commun.
- Algorithmes pour la recherche approchée de motifs : motifs à jokers, motifs avec distance, motifs avec inégalités.
- Méthodes de traitement automatique des langues (TAL/NLP) : notions de base, niveaux d’analyse linguistique et chaînes de traitement, apprentissage automatique (dont réseaux de neurones), représentation de documents et de mots (plongements/embeddings)
- Recherche d’information (RI) : recherche d’information ad-hoc, modèles de recherche (ex : tf-idf, BM25, booléen, neuronal), évaluation en RI, recherche neuronale (ex : Sentence Transformers)
- Motifs séquentiels fréquents : concepts et méthodes
- Mesures de similarité et méthode par représentation de séries temporelles
- Algorithmes de classification supervisés ou non-supervisés et détection d’anomalies de séries temporelles
- Modélisation de l’information par différents types de graphes (graphe, multi-graphe, graphe spatio-temporel, graphe de connaissance, etc.)
- Fouille de graphe (recherche de cliques, sous graphes, …) et modèle d’apprentissage (HMM, GNN, …)
- Pré-traitement des données : complétude, agrégation, discrétisation
- Introduction aux différents concepts de l’industrie 4.0 et 5.0 et ses différents cas d’étude (maintenance prévisionnelle, analyse de qualité des produits, système cyber-physique).
- Introduction aux techniques de fouille de données avancées pour le traitement de cas d’étude de l’industrie (Fouille de motifs riches, LLMs, etc).
Bibliographie
- Gusfield, D. (1997). Algorithms on stings, trees, and sequences: Computer science and computational biology. Acm Sigact News, 28(4), 41-60.
- Cryer, J. D., Chan, K. S., & Kung-Sik. Chan. (2008). Time series analysis: with applications in R (Vol. 2). New York: Springer.
- Jurafsky, D., & Martin, J. H. (2024). Speech and Language Processing (3rd ed. draft), https://web.stanford.edu/~jurafsky/slp3/
- Grac, C., Braud, A., Gançarski, P., Herrmann, A., & Le Ber, F. (2022). Comparing the physico-chemistry dynamics of running waters (North-East of France) based on sequence clustering. Ecological Informatics, 72, 101921.
- Hamdan, A. and Harraf, A. and Buallay, A. and Arora, P. and Alsabatin, H From Industry 4.0 to Industry 5.0: Mapping the Transitions. (2023). Germany: Springer Nature Switzerland.