CatégoriePython

IRaMuTeQ-lite v0.2 bêta

IRaMuTeQ-lite v0.2 bêta est désormais disponible au téléchargement sous forme d’archive .app pour Mac (uniquement disponible pour Mac). Cette version s’installe sur votre Mac et fonctionne en local (plus rapide que la version précédente d’HuggingFace Space). Disponible en téléchargement en “Releases sur github” Cette version compilée intègre plusieurs nouveautés, dont : un...

IRaMuTeQ-lite : reproductibilité des résultats d’une CHD

Cette application s’inscrit dans une logique de reproductibilité des résultats d’une CHD à partir d’un même corpus texte, en comparaison avec ceux produits par le (vrai) logiciel IRaMuTeQ, (Pierre Ratinaud – Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales (LERASS) – Université Toulouse Jean-Jaurès) – qui reste le logiciel de référence libre dans ce domaine...

CHD et AFC à partir d’un serveur HugginFace

L’enjeu ici est de développer, sur un serveur distant, un script permettant de réaliser une CHD, une AFC et d’autres tests, tels que l’analyse des entités nommées (NER) et l’analyse de cooccurrences. J’avais déjà développé, dans un article précédent, la mise en œuvre du package rainette développé par Julien Barnier. C’est à partir de cette base que j’ai transposé le script en application sur le...

Europresse to IRaMuTeQ v4

Je mets en ligne la version 4 de mon application Streamlit “Europresse to IRaMuTeQ” : . La version 3 reste accessible et je ne reviens pas ici sur les options déjà présentes. Je présente succinctement les nouveautés et j’y reviendrai plus en détail prochainement. Voici également l’historique des articles publiés sur le blog autour de l’application Europresse to IRaMuTeQ. Transformer...

Symbolic Connectors

Symbolic Connectors est une application d’exploration lexicométrique dédiée à l’exploration des “connecteurs” logiques dans les textes générés par des LLM. Le terme Symbolic renvoie au courant symbolique de l’IA (analogie avec la machine et la programmation), en contraste avec l’approche connexionniste (analogie avec le cerveau/neurones), tandis que Connectors désigne l’objectif...

Zero-Shot classification

1. Contexte Je travaille actuellement sur la problématique de la santé mentale et l’usage des LLM (Large Langage Modèles) par les étudiants, en analysant les réponses de LLM sous une approche lexicale. La genèse de cette micro-recherche se situe au croisement d’études sur la santé mentale des jeunes et d’articles montrant que les LLM sont devenus les confidents de nombreux étudiants. Cette...

Construire un chatbot avec RapidFuzz et un fichier JSON

RapidFuzz est une bibliothèque Python conçue pour effectuer de la correspondance de chaînes de caractères, ce qui signifie qu’elle compare des textes et évalue à quel point ils sont similaires, même si des fautes de frappe ou des différences existent. L’objectif de cet article est de simuler un chatbot utilisant la librairie RapidFuzz afin de tester la pertinence des réponses par rapport au...

Prétraitement – No code ! avec le logiciel Orange Data Mining

ORANGE DATA MINING est un logiciel libre et gratuit dédié à l’analyse de données et au text mining. Il se distingue par son interface simple et visuelle qui repose sur un système de widgets qu’il suffit de glisser / déposer et paramétrer pour construire un flux de traitement. Cette approche modulaire permet de construire un workflow/pipeline sans avoir à écrire du code Python. Chaque noeud...

Prétraitement et normalisation du texte

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Propriétés des données textuelles – La loi de Zipf

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. L’application no code pour tester : Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse...

Stephane Admin