Archives des ISTHIA - Code and Cortex

Construire un chatbot avec RapidFuzz et un fichier JSON

6 mois ago

8 Min Read

RapidFuzz est une bibliothèque Python conçue pour effectuer de la correspondance de chaînes de caractères, ce qui signifie qu’elle compare des textes et évalue à quel point ils sont similaires, même si des fautes de frappe ou des différences existent. L’objectif de cet article est de simuler un chatbot utilisant la librairie RapidFuzz afin de tester la pertinence des réponses par rapport au...

Lire

Prétraitement – No code ! avec le logiciel Orange Data Mining

Par Stéphane Meurisse

6 mois ago

10 Min Read

Ajouter un commentaire

ORANGE DATA MINING est un logiciel libre et gratuit dédié à l’analyse de données et au text mining. Il se distingue par son interface simple et visuelle qui repose sur un système de widgets qu’il suffit de glisser / déposer et paramétrer pour construire un flux de traitement. Cette approche modulaire permet de construire un workflow/pipeline sans avoir à écrire du code Python. Chaque noeud...

Lire

Prétraitement et normalisation du texte

Par Stéphane Meurisse

6 mois ago

13 Min Read

Ajouter un commentaire

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Lire

Propriétés des données textuelles – La loi de Zipf

Par Stéphane Meurisse

6 mois ago

9 Min Read

Ajouter un commentaire

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. L’application no code pour tester : Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse...

Lire

Analyse globale des cooccurrences dans un corpus

Par Stéphane Meurisse

6 mois ago

6 Min Read

Ajouter un commentaire

Le script présenté ici diffère d’une analyse “classique” de cooccurrences centrée sur un mot pivot. No Code : Lorsque vous vous connectez à Streamlit Cloud, l’application est (souvent) en veille : il faut la réactiver, ce qui peut prendre une trentaine de secondes… Le code source : Github Au lieu de partir d’un terme choisi à l’avance et d’observer ses associations dans le...

Lire

Analyse des cooccurrences autour d’un mot pivot

Par Stéphane Meurisse

6 mois ago

7 Min Read

Ajouter un commentaire

Dans cet article, nous allons développer l’approche de l’analyse des cooccurrences à partir d’un mot pivot. Vous pouvez retrouver dans un autre article l’analyse des cooccurrences “complètes” d’un corpus (sans mot pivot). No code : Github : Dans un texte, il est possible de compter les associations entre deux termes. Ces associations entre mots sont appelées cooccurrences : deux...

Lire

CatégorieISTHIA

Construire un chatbot avec RapidFuzz et un fichier JSON

Prétraitement – No code ! avec le logiciel Orange Data Mining

Prétraitement et normalisation du texte

Propriétés des données textuelles – La loi de Zipf

Analyse globale des cooccurrences dans un corpus

Analyse des cooccurrences autour d’un mot pivot

Stephane Admin