CatégorieISTHIA

Construire un chatbot avec RapidFuzz et un fichier JSON

RapidFuzz est une bibliothèque Python conçue pour effectuer de la correspondance de chaînes de caractères, ce qui signifie qu’elle compare des textes et évalue à quel point ils sont similaires, même si des fautes de frappe ou des différences existent. L’objectif de cet article est de simuler un chatbot utilisant la librairie RapidFuzz afin de tester la pertinence des réponses par rapport au...

Prétraitement – No code ! avec le logiciel Orange Data Mining

ORANGE DATA MINING est un logiciel libre et gratuit dédié à l’analyse de données et au text mining. Il se distingue par son interface simple et visuelle qui repose sur un système de widgets qu’il suffit de glisser / déposer et paramétrer pour construire un flux de traitement. Cette approche modulaire permet de construire un workflow/pipeline sans avoir à écrire du code Python. Chaque noeud...

Prétraitement et normalisation du texte

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Propriétés des données textuelles – La loi de Zipf

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. L’application no code pour tester : Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse...

Analyse globale des cooccurrences dans un corpus

Le script présenté ici diffère d’une analyse “classique” de cooccurrences centrée sur un mot pivot. No Code : Lorsque vous vous connectez à Streamlit Cloud, l’application est (souvent) en veille : il faut la réactiver, ce qui peut prendre une trentaine de secondes… Le code source : Github Au lieu de partir d’un terme choisi à l’avance et d’observer ses associations dans le...

Analyse des cooccurrences autour d’un mot pivot

Dans cet article, nous allons développer l’approche de l’analyse des cooccurrences à partir d’un mot pivot. Vous pouvez retrouver dans un autre article l’analyse des cooccurrences “complètes” d’un corpus (sans mot pivot). No code : Github : Dans un texte, il est possible de compter les associations entre deux termes. Ces associations entre mots sont appelées cooccurrences : deux...

Stephane Admin