CatégorieOutils NLP – Python – R

Découverte de LM Studio

Qu’est-ce que LM Studio ? LM Studio est une application (gratuite) qui permet d’exécuter des modèles de langage localement sur votre Mac (et Windows), sans nécessiter de connexion internet une fois les modèles téléchargés. C’est une solution idéale si vous êtes en déplacement, que ce soit en avion, en train ou dans un environnement sans accès stable au réseau. En téléchargeant à l’avance les...

Comprendre TF-IDF : approche théorique

Le concept TF-IDF (Term Frequency – Inverse Document Frequency) a émergé dans les années 1970 dans le champ de la recherche d’information, notamment grâce aux travaux de Karen Spärck Jones, chercheuse britannique. Elle a posé les bases de l’idée que les termes rares à l’échelle d’un corpus ont plus de valeur discriminante que les termes fréquents, en particulier pour classer des documents...

Scraper les sites touristiques pour analyse TF-IDF

L’objectif de ce script est d’extraire automatiquement les textes présents sur les pages d’accueil (ce script se limite à la homepage) de sites web touristiques (ou autres), afin de constituer un corpus exploitable pour l’analyse textuelle. Une fois ces textes collectés et nettoyés, on pourra réaliser plusieurs types d’analyses, notamment : Analyse de fréquence des termes : bon, là je vous...

Extraction de données sur Reddit

Reddit est un réseau social d’origine américaine fondé en 2005, qui se distingue des plateformes comme Facebook, X ou Instagram… par son fonctionnement communautaire et thématique. Structuré autour de “subreddits” (forums dédiés à des sujets spécifiques), Reddit permet aux utilisateurs de publier, commenter et voter des contenus textuels, visuels. Si Reddit occupe une...

BERT – Attention et embeddings pour l’analyse textuelle

Lorsqu’on parle des LLM (Large Language Models) comme BERT, on pense souvent à leur utilisation dans des chatbots ou des systèmes d’IA conversationnelle. L’objectif classique est alors d’entraîner ces modèles à générer des réponses optimales en ajustant les probabilités de succession des mots pour maximiser la cohérence des phrases. Ici, nous exploitons un “Large Language Model...

Extraction et correction des NER avec SpaCy et JSON

Puisque nous nous situons dans le champ des sciences humaines et sociales (SHS), voici une brève description du corpus utilisé : il est composé de 23 articles de presse portant sur la déclaration de Gérald Darmanin dénonçant « un ratage » dans le suivi psychiatrique d’un suspect. Ce corpus a été formaté pour répondre aux exigences du logiciel IRaMuTEQ, car il me sert également de test dans le...

Classification Hiérarchique Descendante avec Rainette

Julien Barnier est le créateur de la librairie Rainette, un outil conçu pour implémenter, dans le langage R, une Classification Hiérarchique Descendante (CHD). Cette approche statistique a été initialement développée par Max Reinert en 1983 et popularisée à travers le logiciel bien connu Alceste. La méthode de Reinert (CHD) est également accessible via le logiciel libre IRaMuTEQ. 1. La...

Stephane Admin