Julien Barnier est le créateur de la librairie Rainette, un outil conçu pour implémenter, dans le langage R, une Classification Hiérarchique Descendante (CHD). Cette approche statistique a été initialement développée par Max Reinert en 1983 et popularisée à travers le logiciel bien connu Alceste. La méthode de Reinert (CHD) est également accessible via le logiciel libre IRaMuTEQ. 1. La...
Transformer les fichiers texte Europresse en CSV
Ce script R permet de convertir un fichier texte d’articles, issu du site Europresse et déjà formaté pour le logiciel IRaMuTeQ, en un fichier CSV (txtTOcsv). On fait donc un petit retour en arrière : on délaisse le format texte brut avec ses variables étoilées pour revenir à un encodage (mieux) structuré, où chaque variable est encodée dans une une colonne. Lors de la création de mon script...
Analyse factorielle des correspondances sur un corpus de texte
L’Analayse Factorielle des Correspondance (AFC), développée dans les années 1960 par le statisticien français Jean-Paul Benzécri, est une méthode statistique qui permet de réduire la dimensionnalité des données tout en mettant en évidence les relations entre les variables d’un tableau de contingence. À titre d’exemple, on peut citer le travail de Pascal Marchand (LERASS...