Dans cet article, nous allons explorer l’utilisation de l’algorithme K-Means pour effectuer des clusters à partir d’analyses textuelles. Une fois vos données préparées, vous pourrez tester l’algorithme et interpréter les résultats à l’aide de diverses visualisations. K-Means est un algorithme de clustering non supervisé largement utilisé pour partitionner un ensemble...
L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle
Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...
TF*IDF avec la librairie scikit-learn
Voici la partie 2, consacrée à l’application du test TF × IDF suite à l’extraction d’environ 1725 messages depuis YouTube et au prétraitement du corpus. L’analyse des commentaires YouTube est judicieuse puisque chaque commentaire est considéré comme un document distinct. Cependant, le langage employé dans ces commentaires ne facilite pas toujours le prétraitement des...