Voici un prototype d’application d’entretien à distance conçu pour les Sciences Humaines. L’objectif n’est pas de proposer une énième solution de visioconférence, mais de construire un dispositif de production de données multimodales (texte/audio/vidéo).
Le lien github de l’appli : https://github.com/stephane1109/visio_multimodale/tree/main
L’enquêteur pilote directement l’application sur son Mac ou son PC, sans recourir à une plateforme tierce. Il l’exécute localement, ce qui lui permet de maîtriser le cadre technique, le flux de données et les conditions d’enregistrement.
1. Prérequis
LiveKit assure la communication en temps réel entre l’enquêteur et le participant. Il s’agit d’une infrastructure “légère” dédiée à la visioconférence, qui permet de gérer les flux audio et vidéo.

L’usage d’une clé API est nécessaire pour authentifier la session et établir la connexion. Le script s’appuie sur les composants fournis par LiveKit Components pour gérer l’interface et les flux de communication en temps réel.

Ngrok intervient à un autre niveau. Puisque l’application est lancée en local, il faut rendre cette instance accessible depuis “l’extérieur”. Ngrok permet de fournir une URL publique de la salle de visio.

Enfin, la capture et la structuration des données reposent sur ffmpeg et whisper-fast. Vous pouvez installer whisper-fast à partir du fichier requirements.txt. FFmpeg doit être installé directement sur votre Mac.
FFmpeg permet d’enregistrer et de convertir les flux audio et vidéo. Whisper-fast assure la transcription textuelle horodatée de l’entretien.
2. Fonctionnement
2.1 Lancement de l’application
Lorsque vous aurez créé vos comptes ngrok et LiveKit, vous pourrez récupérer les clés nécessaires et lancer l’application.
Une fois les dépendances installées et les clés API configurées, “l’enquêteur” exécute le script de démarrage adapté à son environnement.
Sous macOS, il suffit de lancer le fichier “Lancer.command”. Sous Windows, le démarrage s’effectue via le fichier “start_windows.bat”. Ces scripts initialisent le serveur local, activent le tunnel ngrok et configurent la session LiveKit.
L’URL générée est ensuite transmise au participant, qui peut rejoindre l’entretien sans installation préalable.
Le dispositif repose ainsi sur une asymétrie assumée : la charge technique est du côté de l’enquêteur, tandis que l’accès est simplifié pour l’enquêté.
2.2 Génération de l’url pour le participant
L’URL générée est transmise au participant par l’enquêteur, ce dernier peut rejoindre la salle de visio sans installation préalable (il doit toutefois disposer d’une webcam).

2.3 La salle de visioconférence
Rien de particulier, vous pouvez paramétrer l’activation du micro, de la webcam… comme dans un flux classique de visio.
Si vous ne disposez pas de deux Mac/Pc, vous pouvez essayer d’envoyer le lien participant sur votre smartphone afin de tester le dispositif.
2.4 Consentement du participant
Même si l’enquêté est très certainement prévenu en amont de la démarche, il doit néanmoins valider dans l’interface son accord pour l’enregistrement de l’entretien.
L’application ne déclenche l’enregistrement qu’après validation explicite par le participant. Elle trace le consentement dans un fichier JSON.

Cette contrainte inscrit le dispositif dans un cadre éthique explicite.
2.5 L’enregistrement
À l’issue de l’enregistrement, vous obtiendrez le Graal !!! Le fichier texte indiquant qui prend la parole et les timestamps de chaque segment de texte.
Whisper-fast (modèle small ou medium) réalise la retranscription ; ce n’est pas le meilleur modèle de Whisper, vous devrez donc certainement reprendre votre fichier et corriger la retranscription.
Enfin, dans une perspective multimodale, vous aurez les fichiers mp4 et mp3 du participant (également le mp3 de l’enquêteur). Vous pourrez ainsi faire l’extraction des données de ces flux afin de réaliser une analyse multimodale.
Conclusion
Ce dispositif reste à l’état de prototype. Il fonctionne dans son périmètre actuel, mais demande encore des tests approfondis, notamment sur des entretiens de longue durée. Envisagez-le comme une base de travail, qui évoluera en fonction des usages et des contraintes propres aux recherches en sciences humaines.



