Archives des Statistique - Code and Cortex

CHD et AFC à partir d’un serveur HugginFace

5 mois ago

9 Min Read

L’enjeu ici est de développer, sur un serveur distant, un script permettant de réaliser une CHD, une AFC et d’autres tests, tels que l’analyse des entités nommées (NER) et l’analyse de cooccurrences. J’avais déjà développé, dans un article précédent, la mise en œuvre du package rainette développé par Julien Barnier. C’est à partir de cette base que j’ai transposé le script en application sur le...

Lire

Réaliser une AFCM avec Orange Data Mining

Par Stéphane Meurisse

8 mois ago

7 Min Read

Ajouter un commentaire

Ici, le but de cet article est de décrire le workflow d’une AFCM réalisée avec le logiciel Orange Data Mining (free, gratuit, gratos!) et de le comparer à un script R utilisant le package FactoMineR. Autant le dire tout de suite : l’AFCM dans Orange Data Mining est très facile à mettre en œuvre, mais le résultat est décevant en raison de la faible quantité d’informations que l’on peut exporter...

Lire

Analyse factorielle des correspondances sur un corpus de texte

Par Stéphane Meurisse

29 septembre 2024

11 Min Read

5 Comments

L’Analayse Factorielle des Correspondance (AFC), développée dans les années 1960 par le statisticien français Jean-Paul Benzécri, est une méthode statistique qui permet de réduire la dimensionnalité des données tout en mettant en évidence les relations entre les variables d’un tableau de contingence. À titre d’exemple, on peut citer le travail de Pascal Marchand (LERASS...

Lire

Analyse textuelle avec K-Means

Par Stéphane Meurisse

10 août 2024

22 Min Read

4 Comments

Dans cet article, nous allons explorer l’utilisation de l’algorithme K-Means pour effectuer des clusters à partir d’analyses textuelles. Une fois vos données préparées, vous pourrez tester l’algorithme et interpréter les résultats à l’aide de diverses visualisations. K-Means est un algorithme de clustering non supervisé largement utilisé pour partitionner un ensemble...

Lire

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

Par Stéphane Meurisse

26 mars 2024

14 Min Read

3 Comments

Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...

Lire

TF*IDF avec la librairie scikit-learn

Par Stéphane Meurisse

7 mars 2024

13 Min Read

2 Comments

Voici la partie 2, consacrée à l’application du test TF × IDF suite à l’extraction d’environ 1725 messages depuis YouTube et au prétraitement du corpus. L’analyse des commentaires YouTube est judicieuse puisque chaque commentaire est considéré comme un document distinct. Cependant, le langage employé dans ces commentaires ne facilite pas toujours le prétraitement des...

Lire

CatégorieStatistique

CHD et AFC à partir d’un serveur HugginFace

Réaliser une AFCM avec Orange Data Mining

Analyse factorielle des correspondances sur un corpus de texte

Analyse textuelle avec K-Means

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

TF*IDF avec la librairie scikit-learn

Stephane Admin