CatégorieAnalyse Multimodale

Prototype d’entretien en ligne multimodale

Voici un prototype d’application d’entretien à distance conçu pour les Sciences Humaines. L’objectif n’est pas de proposer une énième solution de visioconférence, mais de construire un dispositif de production de données multimodales (texte/audio/vidéo). Le lien github de l’appli : L’enquêteur pilote directement l’application sur son Mac ou son PC, sans recourir à une plateforme tierce. Il...

Vers une anthropologie numérique

Au départ, on peut citer les travaux de Gregory Bateson et de Margaret Mead. Durant cette période, Gregory Bateson met en évidence le concept de double bind (double contrainte, double lien, injonction paradoxale), issu d’un processus d’analyse d’images (chronophotographie) et d’observation de terrain. L’analyse ne se limite pas à des contenus isolés, mais repose sur l’inscription du...

Transformer une vidéo en stop motion : un outil d’analyse visuelle

Dans le cadre de l’analyse multimodale en Sciences Humaines et Sociales, ce script Python propose une méthode pour transformer une vidéo (YouTube ou en local .mp4) en stop motion (animation image par image). Que ce soit depuis un lien YouTube ou un fichier vidéo local au format .mp4, l’utilisateur peut générer une nouvelle version de la vidéo où les images sont extraites à une fréquence...

Amplitude sonore et mouvements – version 2

J’apporte ici des modifications sur le script précédent portant surl’analyse de l’amplitude sonore et du flux optique. Rappelons le cette double approche permet non seulement d’identifier les instants forts du discours d’un locuteur (en se basant sur l’amplitude sonore), mais aussi de visualiser la “dynamique gestuelle” qui accompagne le propos, ouvrant la voie à une...

Extraction multimédia à partir de YouTube

Streamlit Cloud est une solution particulièrement intéressante pour héberger gratuitement des applications Python. Simple à utiliser, directement connecté à GitHub, il permet de mettre en production très rapidement des projets basés sur l’interface graphique de Streamlit. Les dépendances sont directement installée et indiquée depuis un fichier requirements.txt. Pour l’utilisateur...

Analyse amplitude sonore & mouvements

Ce script s’inscrit dans une approche multimodale, croisant les variations de l’amplitude sonore (les “pics sonores”) avec les mouvements détectés dans l’image grâce à l’analyse du flux optique. L’objectif est d’explorer les corrélations entre ce que l’on entend et ce que l’on voit, dans des unités temporelles extrêmement brèves — centrées autour de trois instants clés : t−1, t et t+1...

Rendre audible l’inaudible

Cet article, dense, se déploie en deux temps : d’abord une exploration théorique du signal audio, puis une réflexion sur une méthode pour analyser, restituer et rendre ces données intelligibles. Il s’agit d’une approche multimodale, croisant audio et texte. Les données textuelles restent au cœur de l’analyse en SHS, mais elles peuvent aujourd’hui être parasitées par des contenus uniformisés...

Décrypter le discours : Approche par le débit de parole

L’objectif de cet article est de présenter un script “expérimental” destiné à l’évaluation du débit de parole. Le script utilise la transcription automatique fournie par le modèle Whisper d’OpenAI pour découper l’audio en segments et mesurer la vitesse d’élocution à partir des timestamps associés. Toutefois, bien que le script soit opérationnel, il n’est pas encore dans sa version...

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

En développant un modèle de reconnaissance des émotions par la voix (SER, pour Speech Emotion Recognition), je n’ai pas choisi la voie la plus simple pour me familiariser avec les modèles de deep learning et l’intégration de la couche de traitement “audio” dans une approche multimodale. Pourquoi ? Parce que, comparée à des domaines comme la reconnaissance faciale, la précision des...

Speech Emotion Recognition (SER) avec le dataset RAVDESS

L’objectif de cet article est de construire un modèle pour réaliser une détection des émotions à partir de la voix (SER – Speech Emotion Recognition) afin d’analyser des segments audio spécifiques, comme par exemple un discours politique de Donald Trump. La première étape consiste à concevoir et entraîner un modèle pour réaliser cette analyse émotionnelle.   Cette article...

Stephane Admin