CatégorieISTHIA

Prétraitement et normalisation du texte

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Propriétés des données textuelles – La loi de Zipf

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse, tweets,..), on est souvent frappé par...

Analyse globale des cooccurrences dans un corpus

Le script présenté ici diffère d’une analyse “classique” de cooccurrences centrée sur un mot pivot. No Code : Lorsque vous vous connectez à Streamlit Cloud, l’application est (souvent) en veille : il faut la réactiver, ce qui peut prendre une trentaine de secondes… Le code source : Github Au lieu de partir d’un terme choisi à l’avance et d’observer ses associations dans le...

Analyse des cooccurrences autour d’un mot pivot

Dans cet article, nous allons développer l’approche de l’analyse des cooccurrences à partir d’un mot pivot. Vous pouvez retrouver dans un autre article l’analyse des cooccurrences “complètes” d’un corpus (sans mot pivot). No code : Github : Dans un texte, il est possible de compter les associations entre deux termes. Ces associations entre mots sont appelées cooccurrences : deux...

Stephane Admin