Analyse multimodale : texte, audio, image et vidéo

Prototype d’entretien en ligne multimodale

2 mois ago

4 Min Read

Voici un prototype d’application d’entretien à distance conçu pour les Sciences Humaines. L’objectif n’est pas de proposer une énième solution de visioconférence, mais de construire un dispositif de production de données multimodales (texte/audio/vidéo). Le lien github de l’appli : L’enquêteur pilote directement l’application sur son Mac ou son PC, sans recourir à une plateforme tierce. Il...

Lire

Vers une anthropologie numérique

Par Stéphane Meurisse

2 mois ago

6 Min Read

Ajouter un commentaire

Au départ, on peut citer les travaux de Gregory Bateson et de Margaret Mead. Durant cette période, Gregory Bateson met en évidence le concept de double bind (double contrainte, double lien, injonction paradoxale), issu d’un processus d’analyse d’images (chronophotographie) et d’observation de terrain. L’analyse ne se limite pas à des contenus isolés, mais repose sur l’inscription du...

Lire

Transformer une vidéo en stop motion : un outil d’analyse visuelle

Par Stéphane Meurisse

13 mai 2025

6 Min Read

Ajouter un commentaire

Dans le cadre de l’analyse multimodale en Sciences Humaines et Sociales, ce script Python propose une méthode pour transformer une vidéo (YouTube ou en local .mp4) en stop motion (animation image par image). Que ce soit depuis un lien YouTube ou un fichier vidéo local au format .mp4, l’utilisateur peut générer une nouvelle version de la vidéo où les images sont extraites à une fréquence...

Lire

Amplitude sonore et mouvements – version 2

Par Stéphane Meurisse

7 mai 2025

15 Min Read

Ajouter un commentaire

J’apporte ici des modifications sur le script précédent portant surl’analyse de l’amplitude sonore et du flux optique. Rappelons le cette double approche permet non seulement d’identifier les instants forts du discours d’un locuteur (en se basant sur l’amplitude sonore), mais aussi de visualiser la “dynamique gestuelle” qui accompagne le propos, ouvrant la voie à une...

Lire

Extraction multimédia à partir de YouTube

Par Stéphane Meurisse

29 avril 2025

8 Min Read

Ajouter un commentaire

Streamlit Cloud est une solution particulièrement intéressante pour héberger gratuitement des applications Python. Simple à utiliser, directement connecté à GitHub, il permet de mettre en production très rapidement des projets basés sur l’interface graphique de Streamlit. Les dépendances sont directement installée et indiquée depuis un fichier requirements.txt. Pour l’utilisateur...

Lire

Analyse amplitude sonore & mouvements

Par Stéphane Meurisse

26 avril 2025

8 Min Read

Ajouter un commentaire

Ce script s’inscrit dans une approche multimodale, croisant les variations de l’amplitude sonore (les “pics sonores”) avec les mouvements détectés dans l’image grâce à l’analyse du flux optique. L’objectif est d’explorer les corrélations entre ce que l’on entend et ce que l’on voit, dans des unités temporelles extrêmement brèves — centrées autour de trois instants clés : t−1, t et t+1...

Lire

Rendre audible l’inaudible

Par Stéphane Meurisse

19 avril 2025

10 Min Read

Ajouter un commentaire

Cet article, dense, se déploie en deux temps : d’abord une exploration théorique du signal audio, puis une réflexion sur une méthode pour analyser, restituer et rendre ces données intelligibles. Il s’agit d’une approche multimodale, croisant audio et texte. Les données textuelles restent au cœur de l’analyse en SHS, mais elles peuvent aujourd’hui être parasitées par des contenus uniformisés...

Lire

Décrypter le discours : Approche par le débit de parole

Par Stéphane Meurisse

9 avril 2025

6 Min Read

Ajouter un commentaire

L’objectif de cet article est de présenter un script “expérimental” destiné à l’évaluation du débit de parole. Le script utilise la transcription automatique fournie par le modèle Whisper d’OpenAI pour découper l’audio en segments et mesurer la vitesse d’élocution à partir des timestamps associés. Toutefois, bien que le script soit opérationnel, il n’est pas encore dans sa version...

Lire

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

Par Stéphane Meurisse

15 décembre 2024

8 Min Read

3 Comments

En développant un modèle de reconnaissance des émotions par la voix (SER, pour Speech Emotion Recognition), je n’ai pas choisi la voie la plus simple pour me familiariser avec les modèles de deep learning et l’intégration de la couche de traitement “audio” dans une approche multimodale. Pourquoi ? Parce que, comparée à des domaines comme la reconnaissance faciale, la précision des...

Lire

Speech Emotion Recognition (SER) avec le dataset RAVDESS

Par Stéphane Meurisse

12 décembre 2024

13 Min Read

1 Commentaire

L’objectif de cet article est de construire un modèle pour réaliser une détection des émotions à partir de la voix (SER – Speech Emotion Recognition) afin d’analyser des segments audio spécifiques, comme par exemple un discours politique de Donald Trump. La première étape consiste à concevoir et entraîner un modèle pour réaliser cette analyse émotionnelle. Cette article...

Lire

CatégorieAnalyse Multimodale

Prototype d’entretien en ligne multimodale

Vers une anthropologie numérique

Transformer une vidéo en stop motion : un outil d’analyse visuelle

Amplitude sonore et mouvements – version 2

Extraction multimédia à partir de YouTube

Analyse amplitude sonore & mouvements

Rendre audible l’inaudible

Décrypter le discours : Approche par le débit de parole

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

Speech Emotion Recognition (SER) avec le dataset RAVDESS

Stephane Admin