CatégorieAnalyse Multimodale

Transformer une vidéo en stop motion : un outil d’analyse visuelle

Dans le cadre de l’analyse multimodale en Sciences Humaines et Sociales, ce script Python propose une méthode pour transformer une vidéo (YouTube ou en local .mp4) en stop motion (animation image par image). Que ce soit depuis un lien YouTube ou un fichier vidéo local au format .mp4, l’utilisateur peut générer une nouvelle version de la vidéo où les images sont extraites à une fréquence...

Amplitude sonore et mouvements – version 2

J’apporte ici des modifications sur le script précédent portant surl’analyse de l’amplitude sonore et du flux optique. Rappelons le cette double approche permet non seulement d’identifier les instants forts du discours d’un locuteur (en se basant sur l’amplitude sonore), mais aussi de visualiser la “dynamique gestuelle” qui accompagne le propos, ouvrant la voie à une...

Extraction multimédia à partir de YouTube

Streamlit Cloud est une solution particulièrement intéressante pour héberger gratuitement des applications Python. Simple à utiliser, directement connecté à GitHub, il permet de mettre en production très rapidement des projets basés sur l’interface graphique de Streamlit. Les dépendances sont directement installée et indiquée depuis un fichier requirements.txt. Pour l’utilisateur...

Analyse amplitude sonore & mouvements

Ce script s’inscrit dans une approche multimodale, croisant les variations de l’amplitude sonore (les “pics sonores”) avec les mouvements détectés dans l’image grâce à l’analyse du flux optique. L’objectif est d’explorer les corrélations entre ce que l’on entend et ce que l’on voit, dans des unités temporelles extrêmement brèves — centrées autour de trois instants clés : t−1, t et t+1...

Rendre audible l’inaudible

Cet article, dense, se déploie en deux temps : d’abord une exploration théorique du signal audio, puis une réflexion sur une méthode pour analyser, restituer et rendre ces données intelligibles. Il s’agit d’une approche multimodale, croisant audio et texte. Les données textuelles restent au cœur de l’analyse en SHS, mais elles peuvent aujourd’hui être parasitées par des contenus uniformisés...

Décrypter le discours : Approche par le débit de parole

L’objectif de cet article est de présenter un script “expérimental” destiné à l’évaluation du débit de parole. Le script utilise la transcription automatique fournie par le modèle Whisper d’OpenAI pour découper l’audio en segments et mesurer la vitesse d’élocution à partir des timestamps associés. Toutefois, bien que le script soit opérationnel, il n’est pas encore dans sa version...

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

En développant un modèle de reconnaissance des émotions par la voix (SER, pour Speech Emotion Recognition), je n’ai pas choisi la voie la plus simple pour me familiariser avec les modèles de deep learning et l’intégration de la couche de traitement “audio” dans une approche multimodale. Pourquoi ? Parce que, comparée à des domaines comme la reconnaissance faciale, la précision des...

Speech Emotion Recognition (SER) avec le dataset RAVDESS

L’objectif de cet article est de construire un modèle pour réaliser une détection des émotions à partir de la voix (SER – Speech Emotion Recognition) afin d’analyser des segments audio spécifiques, comme par exemple un discours politique de Donald Trump. La première étape consiste à concevoir et entraîner un modèle pour réaliser cette analyse émotionnelle.   Cette article...

Limites des DataSets basés sur les émotions universelles de Paul Ekman

La reconnaissance automatique des émotions via le Speech Emotion Recognition (SER = audio) et la Facial Emotion Recognition (FER = image) repose souvent sur des jeux de données labellisés avec les émotions dites “universelles” de Paul Ekman : joie, tristesse, colère, peur, surprise, et dégoût. Bien que ces émotions soient utiles pour des analyses générales (dans le marketing par...

DeepFace : Comparatif des modèles de détection faciale et des backends

1. La genèse de DeepFace et ses applications courantes DeepFace est un outil de reconnaissance faciale développé par Facebook en 2014, dont l’objectif initial était d’améliorer la précision de la reconnaissance faciale en ligne, en permettant aux utilisateurs de taguer des visages dans les photos afin d’encourager l’identification dans les photos. À l’époque de son...

Stephane Admin