OpenAI Whisper est un modèle de reconnaissance vocale gratuit et open source qui convertit l’audio parlé en texte écrit dans 99 langues. Pour l’exécuter, vous avez besoin de Python installé sur votre ordinateur, d’au moins une bibliothèque supplémentaire appelée ffmpeg, et de 150 Mo à 3 Go d’espace disque libre selon le niveau de qualité souhaité. Il ne transcrit pas en temps réel. Ce sont les faits que la couverture haletante des newsletters a tendance à passer sous silence.

Priya gère les partenariats dans une entreprise fintech à Singapour. Début 2026, elle a lu que Whisper pouvait égaler une « précision de transcription de niveau humain » et qu’il était totalement gratuit. Elle a trouvé la page GitHub, parcouru les instructions et a ressenti l’optimisme de quelqu’un qui n’a pas encore rencontré l’expression « pip install ffmpeg ». Trois heures plus tard, elle avait une erreur de compatibilité CUDA cryptique, aucun transcript, et avait pris le reste des notes de réunion à la main. L’outil est vraiment excellent. Il a simplement été conçu pour une autre personne que Priya.

Whisper a été conçu pour les développeurs et les chercheurs. Cela n’en fait pas un mauvais outil — cela en fait le mauvais outil pour les personnes qui veulent simplement transcrire l’appel de stand-up de jeudi en mandarin sans écrire une seule ligne de code.

Cet article explique comment OpenAI Whisper fonctionne réellement en termes simples, ce qu’il fait bien, ce qu’il ne peut fondamentalement pas faire, et quelles options ont plus de sens si vous avez besoin aujourd’hui d’une transcription de réunion en direct.

Points clés

Qu’est-ce qu’OpenAI Whisper ?

OpenAI Whisper est un modèle de reconnaissance vocale publié en open source en septembre 2022. OpenAI l’a entraîné sur 680 000 heures d’audio collectées sur Internet — conférences, podcasts, interviews, vidéos YouTube, livres audio — dans des dizaines de langues. L’ampleur de ces données d’entraînement explique en grande partie pourquoi sa précision est si bonne.

Il peut faire deux choses : la transcription, qui convertit l’audio en texte dans la même langue, et la traduction, qui convertit un audio dans une langue étrangère en texte anglais. Notez qu’il ne traduit que vers l’anglais, et non entre des paires de langues arbitraires.

Vous pouvez accéder à Whisper de deux façons. D’abord, vous pouvez télécharger gratuitement les poids du modèle depuis GitHub et l’exécuter sur votre propre matériel — pas de coûts d’API, pas de limites de débit, mais vous faites la configuration. Ensuite, vous pouvez appeler l’API OpenAI Whisper à 0,006 $ par minute d’audio, ce qui supprime la majeure partie de la configuration mais traite toujours l’audio comme un fichier à téléverser plutôt que comme un flux en direct.

Si vous avez besoin de quelque chose qui fonctionne sans ligne de commande, passez à la section des options sans code. Si vous voulez comprendre pourquoi Whisper fonctionne comme il le fait, continuez — c’est important pour savoir ce qu’il peut et ne peut pas faire.

Comment fonctionne OpenAI Whisper — Explication simple

Vous n’avez pas besoin de comprendre les mathématiques pour utiliser Whisper efficacement. Mais comprendre les quatre étapes qu’il suit aide à expliquer pourquoi il a les limites qu’il a.

Étape 1 : l’audio entre sous forme de fichier

Vous fournissez à Whisper un fichier audio enregistré — MP3, WAV, M4A ou la plupart des autres formats courants. Il ne peut pas lire un flux de microphone en direct par défaut. L’audio reste sur votre disque en attente de traitement.

Étape 2 : Whisper convertit le son en empreinte visuelle

Whisper transforme la forme d’onde audio en un spectrogramme mel — imaginez une carte thermique du son, où l’axe horizontal représente le temps et l’axe vertical indique quelles fréquences sont présentes à chaque instant. La parole a un aspect différent de la musique, qui a un aspect différent du bruit de fond. Cette représentation visuelle est ce que l’IA lit réellement.

Étape 3 : un modèle d’IA lit l’empreinte et prédit les mots

Un modèle transformer — le même type d’architecture qui sous-tend GPT — lit le spectrogramme et prédit la séquence de mots la plus probable. Une partie du modèle encode le motif sonore ; une autre le décode en texte, un jeton à la fois. Le décodeur utilise le contexte des parties précédentes de l’audio pour faire de meilleures prédictions au fur et à mesure.

Étape 4 : le texte sort, avec ponctuation et majuscules

Whisper produit un texte formaté avec la ponctuation et les majuscules déjà appliquées. Vous obtenez un transcript exploitable, pas un mur de mots en minuscules.

La fenêtre de 30 secondes — et pourquoi elle compte. Whisper divise votre audio en segments de 30 secondes et les traite séquentiellement. Cette approche par blocs est la raison principale pour laquelle Whisper ne peut pas diffuser de sous-titres en direct. Il n’y a pas de résultat partiel après chaque mot. Il n’y a qu’un bloc terminé après la fin du traitement de chaque segment de 30 secondes. Pour une réunion de 60 minutes, cela signifie que vous recevez votre premier transcript partiel 30 secondes après la fin de l’appel — et le transcript complet seulement lorsque tous les segments sont terminés.

Ce que Whisper fait bien

Dans les limites de sa conception, Whisper est vraiment impressionnant.

Si votre priorité est la précision après enregistrement sur un fichier audio sauvegardé, Whisper est difficile à battre. C’est le bon outil pour transcrire des interviews enregistrées, des épisodes de podcast, des conférences ou tout audio que vous avez déjà capturé.

Ce que Whisper ne peut pas faire — La partie que personne n’explique

La plupart des articles sur Whisper sont écrits par des développeurs pour des développeurs. Ils mentionnent les limites en passant. Ici, elles reçoivent l’attention qu’elles méritent.

Il ne transcrit pas en temps réel

Si vous lancez un appel Zoom et pointez Whisper dessus, vous recevrez un transcript une fois l’appel terminé — pas pendant qu’il se déroule. Le délai entre la parole et l’apparition du texte va de quelques secondes pour de courts extraits à plusieurs minutes pour une longue réunion, selon votre matériel et la taille du modèle.

Ce n’est pas un bug. C’est un choix de conception. La précision de Whisper vient en partie du traitement de chaque segment audio avec un contexte complet. La transcription en direct exige d’envoyer immédiatement des résultats partiels, avant que le contexte soit disponible. Les deux approches impliquent un compromis fondamental, et Whisper a été conçu pour maximiser la précision plutôt que minimiser la latence.

Il ne peut pas dire qui parle

Par défaut, Whisper produit un transcript plat, sans étiquettes. Chaque phrase apparaît dans un bloc continu sans indication de quel participant a dit quoi. Dans un appel commercial à deux, vous ne saurez pas quelles lignes étaient les vôtres et lesquelles étaient celles de votre prospect. Dans un stand-up à dix personnes, la sortie n’est attribuée à personne.

Il existe des modules complémentaires open source (pyannote.audio est le plus courant) qui ajoutent la diarisation des locuteurs par-dessus Whisper. Ils fonctionnent raisonnablement bien mais nécessitent des paquets Python supplémentaires, des téléchargements de modèles et de la configuration. Le temps de mise en place double à peu près.

Son exécution locale nécessite une configuration technique

Pour utiliser Whisper sur votre propre ordinateur, vous avez besoin de :

Miguel dirige une équipe de 12 personnes chargée de la réussite client dans une startup de Barcelone. Son équipe gère des appels en espagnol, en catalan et en anglais. En janvier 2026, il a demandé à son développeur principal de « mettre Whisper en place pour l’équipe ». Le développeur a passé tout un week-end à installer les dépendances, a rencontré un conflit de version CUDA qui a pris quatre heures à résoudre, puis a créé une petite interface de téléversement pour que les collègues puissent envoyer des enregistrements sans toucher au terminal. Temps total de mise en place : environ 14 heures de travail d’ingénierie. L’outil fonctionne maintenant bien. Miguel est reconnaissant. Il reconnaît aussi que la plupart des équipes n’ont pas un développeur avec un week-end libre à y consacrer.

L’API OpenAI est plus simple — mais toujours pas en direct

L’API OpenAI Whisper supprime le problème d’installation locale. Vous envoyez un fichier audio aux serveurs d’OpenAI via une simple requête HTTP et recevez le transcript en retour, généralement en quelques secondes pour de courts extraits. Le coût est de 0,006 $ par minute — un transcript de réunion de 60 minutes coûte environ 0,36 $.

Cela abaisse considérablement la barrière technique. Mais l’API reste un modèle de téléversement de fichier, pas un flux en direct. Vous envoyez l’enregistrement terminé après la fin de l’appel. Le transcript arrive peu après. Si votre objectif est de lire des sous-titres pendant que quelqu’un parle encore, l’API ne change pas la contrainte sous-jacente.

Les tailles de modèles Whisper en un coup d’œil

Whisper existe en cinq niveaux de qualité. Les modèles plus grands sont plus précis mais plus lents et plus lourds. Sur un ordinateur portable grand public sans GPU, le modèle « small » est généralement le plafond pratique en termes de vitesse.

Modèle Taille du fichier Vitesse CPU (vs audio) Idéal pour
tiny 75 Mo ~10× plus rapide Tests rapides, démonstrations
base 150 Mo ~7× plus rapide Usage occasionnel, itération rapide
medium 1,5 Go ~2× plus rapide Précision supérieure, GPU recommandé
large-v3 3 Go ~1× (temps réel sur GPU) Précision maximale, GPU requis pour un usage pratique

Commencez par « small » si vous testez sur un ordinateur portable. Passez à « large-v3 » si vous avez un GPU NVIDIA compatible et avez besoin de la meilleure précision sur de l’audio non anglais. Le saut de précision entre small et large-v3 est notable. Le saut de temps de traitement sur CPU est sévère.

Comment utiliser Whisper sans écrire de code

Trois options pratiques existent pour les non-développeurs, chacune faisant un compromis différent entre effort, coût et timing.

Option 1 : l’API OpenAI Whisper

Téléversez votre fichier audio via l’interface d’OpenAI ou via un client HTTP sans code comme Postman. Vous recevez un transcript propre en quelques secondes à quelques minutes selon la durée. Coût : 0,006 $/minute. C’est l’option la moins contraignante si vous avez des enregistrements occasionnels et ne voulez rien installer. Inconvénient : vous traitez toujours les enregistrements après coup, et non la parole en direct.

Option 2 : des applications de bureau basées sur Whisper

Plusieurs développeurs ont intégré Whisper dans une interface cliquable. MacWhisper (Mac uniquement) et Buzz (multiplateforme, gratuit) vous permettent de glisser un fichier audio et d’obtenir un transcript sans ouvrir de terminal. Ce sont de vrais outils utiles pour la transcription après appel. Ils partagent la même contrainte architecturale — pas de sous-titres en direct, pas d’étiquettes de locuteur sans configuration supplémentaire.

Option 3 : des outils de streaming dans le navigateur pour les réunions en direct

Si votre objectif est de lire des sous-titres pendant qu’une conversation a lieu — et non de récupérer un transcript après coup — vous avez besoin d’une approche entièrement différente. Les outils basés sur le navigateur qui utilisent la reconnaissance vocale en streaming capturent l’audio de votre microphone ou de l’onglet du navigateur et envoient des résultats partiels mot par mot pendant que les gens parlent. Pas d’installation, pas de Python, pas d’attente de post-traitement.

Cette catégorie inclut des outils comme des alternatives à Whisper conçues pour les utilisateurs non techniques, qui échangent une partie de la précision a posteriori de Whisper contre l’immédiateté qu’exigent les conversations en direct. Le choix entre eux ne consiste pas à savoir lequel est « meilleur » — il s’agit de savoir si vous avez besoin d’une transcription d’une réunion ou pendant celle-ci.

Whisper vs transcription de réunion en direct — Deux architectures différentes

Comprendre pourquoi Whisper ne peut pas diffuser de sous-titres en direct nécessite de comprendre la différence entre la reconnaissance vocale par lot et en streaming.

Whisper est un modèle par lot. Il attend un segment audio complet, le traite avec tout le contexte, puis renvoie un résultat. L’avantage en précision vient de ce contexte complet : le modèle peut voir la fin d’une phrase avant de confirmer ce qu’a dit le début. C’est comme relire un paragraphe deux fois avant de le résumer.

La reconnaissance vocale en streaming fonctionne différemment. Elle envoie des résultats partiels dès l’arrivée de chaque mot, puis s’auto-corrige à mesure que le contexte s’accumule. Des outils comme MirrorCaption, construits sur notre propre moteur STT en streaming, peuvent fournir le premier mot d’un sous-titre en 300 à 500 millisecondes après qu’une personne l’a prononcé. Le compromis est une légère perte de précision sur les mots ambigus que le traitement par lot aurait pu corriger a posteriori.

Ce n’est pas une comparaison de qualité. Whisper est sans doute plus précis sur l’audio enregistré précisément parce qu’il traite davantage de contexte. La reconnaissance vocale en streaming accepte une petite pénalité de précision en échange de l’immédiateté. Pour les réunions en direct, l’immédiateté est tout le produit.

Kenji travaille à Tokyo pour un fabricant qui vend à des clients européens. Ses appels du jeudi avec une équipe de Munich reposaient autrefois sur un collègue bilingue pour interpréter les phrases clés. Lorsque ce collègue est parti, Kenji a commencé à utiliser un outil de transcription en streaming dans le navigateur. Il lit les sous-titres allemands en temps réel pendant l’appel. Pas de téléchargements, pas de Python, pas d’attente d’un transcript après la fin de la réunion. La différence avec Whisper n’est pas la précision. C’est la capacité d’entendre quelque chose, de le comprendre et de répondre — le tout au cours du même appel de 60 minutes.

Besoin de sous-titres en direct, pas de transcripts après appel ? MirrorCaption diffuse la transcription et la traduction dans n’importe quel navigateur, pendant votre réunion. Aucune installation requise.

Essayer gratuitement →

Foire aux questions

OpenAI Whisper est-il gratuit ?

Oui. Les poids du modèle Whisper sont gratuits à télécharger et à utiliser sous licence MIT, qui autorise les applications commerciales. Exécuter Whisper en local ne coûte rien au-delà de votre matériel et de votre électricité. L’API OpenAI Whisper facture 0,006 $ par minute d’audio — un transcript de réunion de 60 minutes coûte environ 0,36 $.

Whisper peut-il transcrire un appel Zoom en temps réel ?

Non. Whisper traite l’audio par segments de 30 secondes après sa capture. Il ne peut pas fournir des sous-titres mot par mot pendant que quelqu’un parle. Si vous enregistrez un appel Zoom puis exécutez Whisper sur le fichier sauvegardé, vous obtiendrez un transcript propre — mais seulement après la fin de la réunion. Pour des sous-titres Zoom en direct, il vous faut un outil de reconnaissance vocale en streaming, pas Whisper. Notre comparatif des logiciels de reconnaissance vocale compare les options en temps réel et après réunion selon les flux de travail courants.

Quelle est la précision d’OpenAI Whisper ?

Whisper large-v3 atteint environ 2 à 3 % de taux d’erreur sur le benchmark standard LibriSpeech pour l’anglais, ce qui est comparable à une transcription humaine professionnelle sur un audio propre. La précision baisse en cas de bruit de fond important, de locuteurs qui se chevauchent, de parole très rapide ou de microphones de mauvaise qualité. Les langues non anglaises affichent en moyenne des taux d’erreur plus élevés que l’anglais, bien qu’elles surpassent encore de nombreux anciens modèles régionaux. Pour un aperçu plus large des compromis de précision en transcription, consultez nos benchmarks de précision de traduction en temps réel.

Whisper prend-il en charge le chinois et le japonais ?

Oui. Whisper couvre 99 langues, dont le chinois mandarin, le cantonais, le japonais, le coréen, l’arabe, l’hindi et toutes les principales langues européennes. Pour le mandarin et le cantonais, le grand modèle de Whisper fonctionne bien sur un audio clairement prononcé, bien qu’il ait plus de difficultés avec les accents régionaux marqués et le mélange de codes entre le chinois et l’anglais dans une même phrase. Pour une comparaison plus large des outils multilingues disponibles aujourd’hui, consultez notre comparatif des logiciels de reconnaissance vocale.

Existe-t-il une alternative à Whisper basée sur le navigateur et adaptée aux réunions en direct ?

Oui. Des outils basés sur le navigateur comme MirrorCaption utilisent la reconnaissance vocale en streaming pour transcrire et traduire en temps réel pendant votre réunion — pas de Python, pas d’installation, pas d’attente de la fin de l’appel. Ils fonctionnent dans Chrome, Safari ou Edge sur n’importe quel appareil. Le compromis par rapport à Whisper est que la précision a posteriori sur un enregistrement sauvegardé peut être légèrement inférieure, mais pour les conversations en direct, l’immédiateté est l’essentiel. Commencez avec 1 heure gratuite, une seule fois sur mirrorcaption.com/app.

En résumé

OpenAI Whisper est l’un des systèmes de reconnaissance vocale les plus précis jamais rendus publics. C’est aussi l’un des moins accessibles pour les personnes qui en bénéficieraient le plus.

Si vous avez un fichier audio sauvegardé et la patience nécessaire pour une certaine configuration, Whisper — surtout via l’API OpenAI — offre une précision de transcription proche de celle d’un humain dans 99 langues pour presque rien. C’est une réalisation d’ingénierie remarquable.

Si vous devez lire ce que quelqu’un dit pendant qu’il le dit — pendant une réunion, et non après — l’architecture de Whisper n’est pas adaptée. Les outils de reconnaissance vocale en streaming existent précisément pour ce cas d’usage. Ils fonctionnent dans un onglet de navigateur, démarrent en quelques secondes et ne nécessitent pas de ligne de commande.

La question n’est pas de savoir quel outil est meilleur. La question est de savoir quel outil correspond à votre contrainte de timing. Pour les meilleurs outils de reconnaissance vocale en 2026 dans tous les cas d’usage, notre comparatif complet couvre le paysage.

Transcription de réunion en direct, sans configuration requise

MirrorCaption diffuse la transcription et la traduction mot par mot pendant votre appel. Fonctionne dans n’importe quel navigateur sur n’importe quelle plateforme d’appel vidéo. 2 heures gratuites chaque mois, sans carte bancaire.

Essayer MirrorCaption gratuitement