Text Mining

Data Value

Voir des formations similaires

Public admis

Salarié en poste

Demandeur d'emploi

Entreprise

Étudiant

Modalités

En ligne En présentiel

Durée

Nous contacter

Prix

Nous contacter

Localité

En ligne

Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.

En présentiel

Découvrez les localités disponibles pour suivre cette formation en présentiel.

Objectifs

Découvrir comment décrire, comparer, classer, analyser des ensembles de textes.
Il peut s'agir de textes littéraires, scientifiques (bibliométrie, recherche documentaire), économiques, sociologiques (réponses aux questions ouvertes dans des enquêtes socio-économiques, entretiens divers en marketing, psychologie appliquée, pédagogie, médecine), de textes historiques, politiques…

Programme

- Introduction

Présentation de l'analyse statistique textuelle
Domaines d'application
Exemples d'utilisation
Présentation du logiciel de traitement

- Importation des données

Les diverses natures et sources de données textuelles utilisables
Procédures d'importation selon la nature des données
Exemples d'importation

- Codification : du texte brut au tableau statistique

Données textuelles et données contextuelles
Création du tableau lexical : la création des documents
Prétraitement des données textuelles (mise en forme, lemmatisation)
Dictionnaire des termes

-Analyse descriptive

Calcul de la fréquence de mots : identifier les termes ou concepts les plus récurrents
Bilan lexical par document, par variable de contexte
Table de dissimilarité entre documents ou entre modalités de variable contexte
Spécificités : termes sur- ou sous-représentés dans une modalité d'une variable de contexte
Co-occurrences : termes spécifiques des documents qui contiennent un terme donné.
Contexte dans lequel un mot est cité, permet d'éclairer le sens du texte
Nuage de mots (« word_cloud »)

- Analyse multidimensionnelle

Permet de révéler le sens profond des données textuelles et de synthétiser l'information contenue dans les données
Analyse factorielle des correspondances (Examen multidimensionnel du lien des termes entre eux, avec les documents et avec les variables de contexte)
Classification ascendante hiérarchique des documents en groupes homogènes au regard des termes et des variables de contexte

- Traitement complet d'un exemple réel