Dans cet article, je vais explorer le rôle de l’intelligence artificielle (IA) dans la prédiction et la détection des injonctions paradoxales. J’aurais pu intituler cet article « Détecter les injonctions paradoxales avec l’intelligence artificielle », mais le verbe « prédire » définit mieux le rôle de l’IA. Prenons l’exemple classique utilisé par tous les...
Comprendre les bases du Traitement du Langage Naturel (NLP)
Introduction au Traitement du Langage Naturel (NLP) Dans cet article, je vais aborder de façon théorique les différentes phases du processus de traitement du langage naturel (NLP). Dans la continuité de ce premier article, j’appliquerai ce processus de traitement du langage naturel à un large corpus. Il est en effet trop fréquent de voir des exemples limités à deux ou trois phrases. Il est...
Analyser les cooccurrences d’un mot clé
Introduction La fouille de texte est une méthode essentielle pour extraire des informations précieuses à partir de vastes corpus de texte. Un aspect fondamental de cette analyse est l’étude des cooccurrences à partir d’un mot clé, qui peut révéler des relations sémantiques importantes et des tendances dans le texte. Cet article, propose un script Python conçu pour analyser les...
Compiler un script Python avec auto-py-to-exe
Compilation Après avoir testé plusieurs bibliothèques Python pour compiler mon script, et constaté que certaines étaient parfois inefficaces, j’ai découvert l’interface graphique d’auto-py-to-exe pour compiler mes scripts. Je débute un peu dans ce domaine… L’idée de la compilation est bien entendu de permettre aux utilisateurs de se passer de l’environnement...
Optimiser l’analyse de corpus Europresse : Un script de détection de doublons
Introduction L’objectif de cet article est de vous proposer un script Python (avec une interface tkinter) visant à rechercher les articles en doublons et les articles trop courts dans un corpus Europresse. Si vous traitez souvent des corpus d’articles provenant de la base de données Europresse pour vos analyses dans IRaMuTeQ, vous êtes confronté au problème des doublons ou...
Extraire les commentaires Meta avec Sélénium
Introduction L’objectif de cet article est de montrer comment se connecter à Méta avec la bibliothèque Selenium pour exporter les commentaires. Autant l’annoncer tout de suite, le script fonctionne et récupère l’article qui fait le buzz en générant des commentaires, mais je n’ai pas réussi à extraire les commentaires. La balise « commentaire » dans le code source de Méta...
Extraction de commentaires Facebook : Test et avis sur Export Comments
Introduction Dans cet article, je vais partager mon expérience avec une application qui permet d’extraire des commentaires sur Facebook, et plus généralement sur divers réseaux sociaux. Bon… la page d’accueil du site Export Comment ressemble à « rien », c’est plutôt moche, plutôt épuré (même mes scripts python avec une interface Tkinter sont plus jolis 😉 ). La plateforme...
Extraction de la retranscription textuelle d’une vidéo YouTube avec YouTubeTranscript
Introduction L’extraction d’un fichier audio en texte via Google Speech-to-Text est au final relativement contraignante du fait que les vidéos dépassant 60 secondes doivent être déposées sur Google Cloud. Il existe donc une autre technique visant à extraire la retranscription grâce à la librairie YouTube Transcript. Cette librairie va tout simplement scraper le texte retranscrit par...
L’Effet Eliza : Quand l’intelligence artificielle passe pour humaine
Introduction L’effet Eliza est un concept issu d’une expérience en intelligence artificielle datant des années 1960, conçu par le professeur Joseph Weizenbaum du MIT. Il a créé un programme informatique nommé ELIZA capable d’imiter une conversation en utilisant un traitement de texte très simple. Ce programme, souvent considéré comme l’un des premiers exemples de chatbot...
L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle
Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...