Reinert CHD whisper IRAMUTEQ avec Python

Prétraitement et normalisation du texte

10 mois ago

13 Min Read

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Lire

Propriétés des données textuelles – La loi de Zipf

Par Stéphane Meurisse

10 mois ago

9 Min Read

Ajouter un commentaire

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. L’application no code pour tester : Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse...

Lire

Analyse globale des cooccurrences dans un corpus

Par Stéphane Meurisse

10 mois ago

6 Min Read

Ajouter un commentaire

Le script présenté ici diffère d’une analyse “classique” de cooccurrences centrée sur un mot pivot. No Code : Lorsque vous vous connectez à Streamlit Cloud, l’application est (souvent) en veille : il faut la réactiver, ce qui peut prendre une trentaine de secondes… Le code source : Github Au lieu de partir d’un terme choisi à l’avance et d’observer ses associations dans le...

Lire

Analyse des cooccurrences autour d’un mot pivot

Par Stéphane Meurisse

10 mois ago

7 Min Read

Ajouter un commentaire

Dans cet article, nous allons développer l’approche de l’analyse des cooccurrences à partir d’un mot pivot. Vous pouvez retrouver dans un autre article l’analyse des cooccurrences “complètes” d’un corpus (sans mot pivot). No code : Github : Dans un texte, il est possible de compter les associations entre deux termes. Ces associations entre mots sont appelées cooccurrences : deux...

Lire

Interprétation des classes d’une CHD assistée par un LLM

Par Stéphane Meurisse

11 mois ago

11 Min Read

Ajouter un commentaire

Il ne faut pas s’attendre à un miracle !Penser qu’un LLM est en capacité de réaliser une analyse fine d’une CHD, c’est un peu comme croire à son horoscope. Le script sur Github Ce script s’inscrit dans une démarche expérimentale et constitue un exercice purement technique. Il convient de rappeler également qu’un modèle de langage (LLM) n’a aucune capacité cognitive : il ne comprend rien, ne pense...

Lire

Comprendre TF-IDF : approche théorique

Par Stéphane Meurisse

12 mois ago

7 Min Read

Ajouter un commentaire

Le concept TF-IDF (Term Frequency – Inverse Document Frequency) a émergé dans les années 1970 dans le champ de la recherche d’information, notamment grâce aux travaux de Karen Spärck Jones, chercheuse britannique. Elle a posé les bases de l’idée que les termes rares à l’échelle d’un corpus ont plus de valeur discriminante que les termes fréquents, en particulier pour classer des documents...

Lire

Scraper les sites touristiques pour analyse TF-IDF

Par Stéphane Meurisse

12 juillet 2025

5 Min Read

Ajouter un commentaire

L’objectif de ce script est d’extraire automatiquement les textes présents sur les pages d’accueil (ce script se limite à la homepage) de sites web touristiques (ou autres), afin de constituer un corpus exploitable pour l’analyse textuelle. Une fois ces textes collectés et nettoyés, on pourra réaliser plusieurs types d’analyses, notamment : Analyse de fréquence des termes : bon, là je vous...

Lire

Analyser les réseaux de vidéos YouTube

Par Stéphane Meurisse

1 juillet 2025

8 Min Read

Ajouter un commentaire

Mesurer l’impact des vidéos d’influenceurs (par exemple) sur YouTube reste un exercice complexe. Il est tentant d’imaginer qu’une vidéo qui accumule des vues, des likes et des commentaires puisse mécaniquement entraîner une hausse des réservations touristiques dans une destination. Mais établir une relation de cause à effet entre visibilité en ligne et comportements de consommation réels — comme...

Lire

Gérer les quotas de l’API YouTube Data v3

Par Stéphane Meurisse

29 juin 2025

2 Min Read

Ajouter un commentaire

L’API YouTube Data v3 présente un certain intérêt, notamment parce qu’elle permet d’effectuer gratuitement un nombre limité de requêtes quotidiennes grâce à un quota journalier. Lors de mes tests de développement de scripts d’analyse de vidéos YouTube à l’aide de graphes, j’ai rapidement constaté les limites imposées par ce quota. Il est bien sûr possible de contourner cette...

Lire

Analyse quantitative d’une vidéo YouTube

Par Stéphane Meurisse

1 juin 2025

8 Min Read

Ajouter un commentaire

Avant tout, ce script constitue une approche quantitative pour mesurer la popularité d’une vidéo ciblée sur une chaîne YouTube donnée. Il s’appuie sur trois indicateurs principaux : le nombre de vues, de likes et de commentaires. L’objectif n’est pas d’apporter une mesure définitive ou automatisée des anomalies, mais plutôt d’offrir un cadre d’observation, permettant par exemple de repérer...

Lire

CatégoriePython

Prétraitement et normalisation du texte

Propriétés des données textuelles – La loi de Zipf

Analyse globale des cooccurrences dans un corpus

Analyse des cooccurrences autour d’un mot pivot

Interprétation des classes d’une CHD assistée par un LLM

Comprendre TF-IDF : approche théorique

Scraper les sites touristiques pour analyse TF-IDF

Analyser les réseaux de vidéos YouTube

Gérer les quotas de l’API YouTube Data v3

Analyse quantitative d’une vidéo YouTube

Stephane Admin