NLP

Durée : 2 jours

Niveau : ⦿⦿⦾

Les données textuelles sont omniprésentes et représentent une véritable mine d'or pour les modèles d'Intelligence Artificielle. Cependant, la nature non structurée de ces données nécessite un traitement particulier avant de pouvoir appliquer des algorithmes de Machine Learning. Dans cette formation, nous verrons comment nettoyer, préparer et transformer ces données. Nous examinerons ensuite des exemples d’applications concrets avec des algorithmes de Machine Learning.

PROGRAMME DE LA FORMATION

  • Introduction
  • Prétraitements textuels
    • Nettoyage et préparation
    • Normalisation (lémmatisation, stemmatisation)
    • Tokenisation (mots vides, mots discriminants)
    • L'analyse syntaxique et grammaticale (POS tagging)
    • L'analyse sémantique (WordNet, Word Embeddings)
  • Représentation des données textuelles
    • Sac de Mots (booléen, fréquence, tf-idf)
    • Word Embeddings (Word2Vec)
  • NLP et Machine Learning
    • Cas supervisé : catégorisation de textes (SVM)
    • Cas non supervisé : Topic Modeling (LDA)