OpenAI Whisper è un modello gratuito e open-source di speech-to-text che converte l’audio parlato in testo scritto in 99 lingue. Per eseguirlo, devi avere Python installato sul computer, almeno un’altra libreria chiamata ffmpeg e tra 150 MB e 3 GB di spazio libero su disco, a seconda del livello di qualità che desideri. Non trascrive in tempo reale. Questi sono i fatti che la copertura entusiastica delle newsletter tende a tralasciare.
Priya gestisce le partnership in un’azienda fintech a Singapore. All’inizio del 2026, ha letto che Whisper poteva eguagliare una “precisione di trascrizione a livello umano” ed era completamente gratuito. Ha trovato la pagina GitHub, ha dato un’occhiata alle istruzioni e ha provato l’ottimismo di chi non ha ancora incontrato la frase “pip install ffmpeg”. Tre ore dopo aveva un criptico errore di compatibilità CUDA, nessuna trascrizione e aveva preso a mano il resto degli appunti della riunione. Lo strumento è davvero eccellente. Semplicemente era stato costruito per una persona diversa da Priya.
Whisper è stato progettato per sviluppatori e ricercatori. Questo non lo rende un cattivo strumento — lo rende lo strumento sbagliato per chi vuole semplicemente trascrivere la call del meeting del giovedì in mandarino senza scrivere una sola riga di codice.
Questo articolo spiega come funziona davvero OpenAI Whisper in parole semplici, cosa sa fare bene, cosa non può fare in modo fondamentale e quali opzioni hanno più senso se oggi ti serve la trascrizione live delle riunioni.
- OpenAI Whisper è un modello gratuito e open-source di speech-to-text rilasciato nel settembre 2022, addestrato su 680.000 ore di audio dal web.
- Supporta 99 lingue e raggiunge una precisione quasi umana in inglese — circa un tasso di errore delle parole del 2–3% su registrazioni pulite.
- Whisper non funziona in tempo reale. Elabora l’audio in blocchi di 30 secondi dopo che una registrazione è completa, non mentre qualcuno sta parlando.
- Eseguirlo localmente richiede Python 3.9+, ffmpeg e un file del modello tra 75 MB e 3 GB. Precisione e velocità crescono insieme.
- Per la trascrizione live delle riunioni senza programmare, serve uno streaming speech-to-text — un’architettura diversa che Whisper non è stato progettato per offrire.
Che cos’è OpenAI Whisper?
OpenAI Whisper è un modello di riconoscimento vocale rilasciato come open-source nel settembre 2022. OpenAI lo ha addestrato su 680.000 ore di audio raccolte da internet — lezioni, podcast, interviste, video YouTube, audiolibri — in decine di lingue. La scala di quei dati di addestramento è una parte importante del motivo per cui la sua precisione è così alta.
Può fare due cose: trascrizione, che converte l’audio in testo nella stessa lingua, e traduzione, che converte l’audio in una lingua straniera in testo inglese. Nota che traduce solo in inglese, non tra coppie di lingue arbitrarie.
Puoi accedere a Whisper in due modi. Primo, puoi scaricare gratuitamente i pesi del modello da GitHub ed eseguirlo sul tuo hardware — nessun costo API, nessun limite di velocità, ma devi occuparti della configurazione. Secondo, puoi chiamare la OpenAI Whisper API a $0.006 al minuto di audio, che elimina gran parte del lavoro di setup ma elabora comunque l’audio come caricamento di un file anziché come stream live.
Se ti serve qualcosa che funzioni senza riga di comando, vai direttamente alla sezione sulle opzioni no-code. Se vuoi capire perché Whisper funziona nel modo in cui funziona, continua a leggere — è importante per sapere cosa può e non può fare.
Come funziona OpenAI Whisper — spiegazione in parole semplici
Non devi capire la matematica per usare Whisper in modo efficace. Ma comprendere i quattro passaggi che compie aiuta a spiegare perché abbia i limiti che ha.
Passaggio 1: l’audio entra come file
Gli dai un file audio registrato — MP3, WAV, M4A o la maggior parte degli altri formati comuni. Per impostazione predefinita non può leggere uno stream live dal microfono. L’audio resta sul disco in attesa di essere elaborato.
Passaggio 2: Whisper converte il suono in un’impronta visiva
Whisper trasforma la forma d’onda audio in uno spettrogramma mel — immaginalo come una mappa termica del suono, in cui l’asse orizzontale è il tempo e quello verticale mostra quali frequenze sono presenti in ogni momento. Il parlato appare diverso dalla musica, che appare diversa dal rumore di fondo. Questa rappresentazione visiva è ciò che l’IA legge davvero.
Passaggio 3: un modello di IA legge l’impronta e prevede le parole
Un modello transformer — lo stesso tipo di architettura alla base di GPT — legge lo spettrogramma e prevede la sequenza di parole più probabile. Una parte del modello codifica il pattern sonoro; un’altra lo decodifica in testo, un token alla volta. Il decoder usa il contesto dell’audio precedente per fare previsioni migliori man mano che procede.
Passaggio 4: il testo esce, con punteggiatura e maiuscole
Whisper restituisce testo formattato con punteggiatura e maiuscole già applicate in modo appropriato alla frase. Ottieni una trascrizione utilizzabile, non un muro di parole tutte minuscole.
La finestra di 30 secondi — e perché conta. Whisper divide l’audio in segmenti di 30 secondi e li elabora in sequenza. Questo approccio a blocchi è il motivo principale per cui Whisper non può trasmettere sottotitoli live. Non c’è un risultato parziale dopo ogni parola. C’è solo un blocco completato dopo che ogni segmento di 30 secondi ha finito di essere elaborato. Per una riunione di 60 minuti, significa che ricevi la prima trascrizione parziale 30 secondi dopo la fine della call — e la trascrizione completa solo quando tutti i blocchi sono terminati.
Cosa fa bene Whisper
Entro i limiti del suo design, Whisper è davvero impressionante.
- Precisione quasi umana in inglese. Il modello large-v3 raggiunge circa un tasso di errore delle parole del 2–3% sui benchmark standard — paragonabile a trascrittori umani professionisti su audio pulito. Per riferimento, i vecchi sistemi di riconoscimento vocale consumer avevano in media tassi di errore del 10–15%.
- 99 lingue. Mandarino, cantonese, giapponese, coreano, arabo, hindi, russo, portoghese, spagnolo, tedesco, francese e molte altre. Il README GitHub di Whisper elenca l’intero set di lingue con benchmark di precisione per ciascuna lingua.
- Ottima tolleranza agli accenti. Poiché è stato addestrato su audio web del mondo reale e non su parlato di qualità da studio, Whisper gestisce meglio gli accenti non nativi rispetto a molti sistemi ASR più vecchi tarati su dataset ristretti.
- Punteggiatura automatica. Virgole, punti e maiuscole sono inclusi. La maggior parte degli strumenti batch concorrenti richiede un passaggio separato di post-elaborazione per questo.
- Vocabolario tecnico. Whisper gestisce meglio della riconoscimento vocale consumer generico la terminologia specifica di settore — medica, legale, termini di programmazione.
- Completamente gratuito da usare. I pesi del modello sono rilasciati con licenza MIT, che consente l’uso commerciale. Puoi elaborare tutte le registrazioni che il tuo hardware consente senza alcun costo marginale.
Se la tua priorità è la precisione dopo la registrazione su un file audio salvato, Whisper è difficile da battere. È lo strumento giusto per trascrivere interviste registrate, episodi di podcast, lezioni o qualsiasi audio che hai già acquisito.
Cosa non può fare Whisper — la parte che nessuno spiega
La maggior parte degli articoli su Whisper è scritta da sviluppatori per sviluppatori. Citano i limiti di sfuggita. Qui ricevono l’attenzione che meritano.
Non trascrive in tempo reale
Se avvii una call Zoom e punti Whisper verso di essa, riceverai una trascrizione quando la call sarà finita — non mentre sta avvenendo. Il ritardo tra il momento in cui si parla e quello in cui compare il testo va da pochi secondi per clip brevi a diversi minuti per una riunione lunga, a seconda dell’hardware e della dimensione del modello.
Non è un bug. È una scelta di progettazione. La precisione di Whisper deriva in parte dall’elaborazione di ogni blocco audio con contesto completo. La trascrizione live richiede di inviare subito risultati parziali, prima che il contesto sia disponibile. I due approcci implicano un compromesso fondamentale, e Whisper è stato costruito per massimizzare la precisione piuttosto che minimizzare la latenza.
Non può dire chi sta parlando
Per impostazione predefinita, Whisper produce una trascrizione piatta e non etichettata. Ogni frase appare in un blocco continuo senza alcuna indicazione di quale partecipante abbia detto cosa. In una call di vendita tra due persone, non saprai quali righe erano tue e quali del prospect. In uno standup con dieci persone, l’output è completamente privo di attribuzione.
Esistono add-on open-source (pyannote.audio è il più comune) che aggiungono la diarizzazione dei parlanti sopra Whisper. Funzionano in modo ragionevole, ma richiedono pacchetti Python aggiuntivi, download di modelli e configurazione. I tempi di setup raddoppiano circa.
Eseguirlo localmente richiede una configurazione tecnica
Per usare Whisper sul tuo computer, ti servono:
- Python 3.9 o superiore installato correttamente
- La libreria audio ffmpeg (un’installazione separata sulla maggior parte dei sistemi operativi)
- Il file dei pesi del modello: 75 MB per "tiny", 1.5 GB per "medium", 3 GB per "large-v3"
- Una GPU moderna se vuoi una velocità ragionevole — il modello large impiega 20–40 minuti per elaborare un’ora di audio su una CPU tipica di laptop
Miguel guida un team di customer success di 12 persone in una startup di Barcellona. Il suo team gestisce chiamate in spagnolo, catalano e inglese. Nel gennaio 2026, ha chiesto al suo lead developer di “configurare Whisper per il team”. Lo sviluppatore ha passato un intero weekend a installare dipendenze, si è imbattuto in un conflitto di versioni CUDA che ha richiesto quattro ore per essere risolto, poi ha costruito una piccola interfaccia di upload così che i colleghi potessero inviare registrazioni senza toccare il terminale. Tempo totale di setup: circa 14 ore di lavoro di engineering. Ora lo strumento funziona bene. Miguel è grato. Riconosce anche che la maggior parte dei team non ha uno sviluppatore con un weekend libero da dedicargli.
L’API OpenAI è più semplice — ma comunque non live
L’API OpenAI Whisper elimina il problema dell’installazione locale. Invi un file audio ai server di OpenAI tramite una semplice richiesta HTTP e ricevi la trascrizione indietro, in genere entro pochi secondi per clip brevi. Il costo è $0.006 al minuto — la trascrizione di una riunione di 60 minuti costa circa $0.36.
Questo abbassa notevolmente la barriera tecnica. Ma l’API è comunque un modello di caricamento file, non uno stream live. Invi la registrazione finita dopo che la call è terminata. La trascrizione arriva poco dopo. Se il tuo obiettivo è leggere i sottotitoli mentre qualcuno sta ancora parlando, l’API non cambia il vincolo di fondo.
Dimensioni dei modelli Whisper a colpo d’occhio
Whisper è disponibile in cinque livelli di qualità. I modelli più grandi sono più accurati ma più lenti e pesanti. Su un tipico laptop consumer senza GPU, il modello "small" è di solito il limite pratico per la velocità.
| Model | File size | CPU speed (vs audio) | Best for |
|---|---|---|---|
| tiny | 75 MB | ~10× faster | Quick tests, demos |
| base | 150 MB | ~7× faster | Casual use, fast iteration |
| small ★ | 490 MB | ~4× faster | Good quality/speed balance on laptops |
| medium | 1.5 GB | ~2× faster | Higher accuracy, GPU recommended |
| large-v3 | 3 GB | ~1× (real time on GPU) | Maximum accuracy, GPU required for practical use |
Inizia con "small" se stai facendo test su un laptop. Passa a "large-v3" se hai una GPU NVIDIA compatibile e ti serve la massima precisione sull’audio non inglese. Il salto di precisione da small a large-v3 è evidente. Il salto nei tempi di elaborazione su CPU è severo.
Come usare Whisper senza scrivere codice
Esistono tre opzioni pratiche per chi non è sviluppatore, ognuna con un diverso compromesso tra sforzo, costo e tempistiche.
Opzione 1: l’API OpenAI Whisper
Carica il tuo file audio tramite l’interfaccia di OpenAI o tramite un client HTTP no-code come Postman. Ricevi una trascrizione pulita in pochi secondi o minuti, a seconda della durata. Costo: $0.006/minuto. È il percorso con meno attrito se hai registrazioni occasionali e non vuoi installare nulla. Lo svantaggio: stai comunque elaborando registrazioni dopo il fatto, non catturando il parlato live.
Opzione 2: applicazioni desktop basate su Whisper
Alcuni sviluppatori hanno incapsulato Whisper in un’interfaccia cliccabile. MacWhisper (solo Mac) e Buzz (multipiattaforma, gratuito) ti permettono di trascinare un file audio e ottenere una trascrizione senza aprire un terminale. Sono davvero utili per la trascrizione dopo la chiamata. Condividono lo stesso vincolo architetturale — niente sottotitoli live, niente etichette dei parlanti senza configurazione aggiuntiva.
Opzione 3: strumenti browser-based in streaming per riunioni live
Se il tuo obiettivo è leggere i sottotitoli mentre una conversazione sta avvenendo — non recuperare una trascrizione dopo la fine — ti serve un approccio completamente diverso. Gli strumenti browser-based che usano lo streaming speech-to-text catturano l’audio dal microfono o dalla scheda del browser e inviano risultati parziali parola per parola mentre le persone parlano. Nessuna installazione, niente Python, niente attesa di post-elaborazione.
Questa categoria include strumenti come alternative a Whisper pensate per utenti non tecnici, che scambiano parte della precisione post-hoc di Whisper con l’immediatezza richiesta dalle conversazioni live. La scelta tra loro non riguarda quale sia “migliore” — riguarda se ti serve la trascrizione di una riunione o durante una riunione.
Whisper vs. trascrizione live delle riunioni — due architetture diverse
Capire perché Whisper non può trasmettere sottotitoli live richiede capire la differenza tra batch e streaming speech-to-text.
Whisper è un modello batch. Attende un blocco audio completo, lo elabora con contesto pieno e restituisce un risultato. Il vantaggio in termini di precisione deriva proprio da quel contesto completo: il modello può vedere la fine di una frase prima di confermare ciò che ha detto l’inizio. È come leggere un paragrafo due volte prima di riassumerlo.
Lo streaming speech-to-text funziona in modo diverso. Invia risultati parziali nel momento in cui arriva ogni parola, poi si autocorregge man mano che il contesto si accumula. Strumenti come MirrorCaption, costruiti sul nostro motore STT in streaming, possono consegnare la prima parola di un sottotitolo entro 300–500 millisecondi da quando viene pronunciata. Il compromesso è una certa perdita di precisione sulle parole ambigue che l’elaborazione batch coglierebbe col senno di poi.
Non si tratta di un confronto di qualità. Whisper è probabilmente più preciso sull’audio registrato proprio perché elabora più contesto. Lo streaming STT accetta una piccola penalizzazione di precisione in cambio dell’immediatezza. Per le riunioni live, l’immediatezza è l’intero prodotto.
Kenji lavora a Tokyo per un produttore che vende a clienti europei. Le sue call del giovedì con un team di Monaco si affidavano prima a un collega bilingue per interpretare le frasi chiave. Quando quel collega se n’è andato, Kenji ha iniziato a usare uno strumento di trascrizione in streaming basato su browser. Legge i sottotitoli in tedesco in tempo reale durante la call. Nessun download, niente Python, nessuna attesa che una trascrizione appaia dopo la fine della riunione. La differenza rispetto a Whisper non è la precisione. È la capacità di sentire qualcosa, capirlo e rispondere — tutto all’interno della stessa call di 60 minuti.
Ti servono sottotitoli live, non trascrizioni dopo la call? MirrorCaption trasmette trascrizione e traduzione in qualsiasi browser, durante la riunione. Nessuna installazione richiesta.
Try Free →Domande frequenti
OpenAI Whisper è gratuito?
Sì. I pesi del modello Whisper sono gratuiti da scaricare e usare con licenza MIT, che consente applicazioni commerciali. Eseguire Whisper localmente non costa nulla oltre al tuo hardware e all’elettricità. L’OpenAI Whisper API costa $0.006 al minuto di audio — la trascrizione di una riunione di 60 minuti costa circa $0.36.
Whisper può trascrivere una call Zoom in tempo reale?
No. Whisper elabora l’audio in blocchi di 30 secondi dopo che l’audio è stato acquisito. Non può fornire sottotitoli parola per parola mentre qualcuno sta parlando. Se registri una call Zoom e poi esegui Whisper sul file salvato, otterrai una trascrizione pulita — ma solo dopo che la riunione è terminata. Per i sottotitoli live su Zoom, serve uno strumento speech-to-text in streaming, non Whisper. Il nostro riepilogo dei software speech-to-text confronta opzioni in tempo reale e post-riunione nei flussi di lavoro più comuni.
Quanto è accurato OpenAI Whisper?
Whisper large-v3 raggiunge circa un tasso di errore delle parole del 2–3% sul benchmark standard LibriSpeech per l’inglese, paragonabile alla trascrizione umana professionale su audio pulito. La precisione cala con forte rumore di fondo, parlanti sovrapposti, parlato molto veloce o microfoni di bassa qualità. Le lingue non inglesi hanno in media tassi di errore più alti dell’inglese, anche se superano comunque molti modelli più vecchi specifici per area geografica. Per uno sguardo più ampio ai compromessi nella precisione della trascrizione, vedi i nostri benchmark di precisione della traduzione in tempo reale.
Whisper supporta cinese e giapponese?
Sì. Whisper copre 99 lingue, tra cui cinese mandarino, cantonese, giapponese, coreano, arabo, hindi e tutte le principali lingue europee. Per mandarino e cantonese, il modello grande di Whisper funziona bene su audio parlato chiaramente, anche se fatica con forti accenti regionali e con il code-switching tra cinese e inglese nella stessa frase. Per un confronto più ampio degli strumenti multilingue disponibili oggi, vedi il nostro riepilogo dei software speech-to-text.
Esiste un’alternativa a Whisper basata su browser che funzioni per le riunioni live?
Sì. Strumenti basati su browser come MirrorCaption usano lo streaming speech-to-text per trascrivere e tradurre in tempo reale durante la riunione — niente Python, niente installazione, niente attesa della fine della call. Funzionano in Chrome, Safari o Edge su qualsiasi dispositivo. Il compromesso rispetto a Whisper è che la precisione post-hoc su una registrazione salvata può essere leggermente inferiore, ma per le conversazioni live l’immediatezza è il punto. Inizia con 1 ora gratuita, una tantum su mirrorcaption.com/app.
In sintesi
OpenAI Whisper è uno dei sistemi speech-to-text più accurati mai resi disponibili al pubblico. È anche uno dei meno accessibili per le persone che ne trarrebbero il massimo beneficio.
Se hai un file audio salvato e la pazienza per un po’ di configurazione, Whisper — soprattutto tramite l’API OpenAI — offre una precisione di trascrizione quasi umana in 99 lingue a un costo quasi nullo. È un risultato ingegneristico notevole.
Se devi leggere ciò che qualcuno sta dicendo mentre lo sta dicendo — durante una riunione, non dopo — l’architettura di Whisper non è adatta. Gli strumenti di streaming speech-to-text esistono esattamente per questo caso d’uso. Funzionano in una scheda del browser, si avviano in pochi secondi e non richiedono una riga di comando.
La domanda non è quale strumento sia migliore. La domanda è quale strumento corrisponda al tuo requisito di tempistica. Per i migliori strumenti speech-to-text del 2026 in tutti i casi d’uso, il nostro riepilogo completo copre l’intero panorama.
Trascrizione live delle riunioni, senza configurazione richiesta
MirrorCaption trasmette trascrizione e traduzione parola per parola durante la tua call. Funziona in qualsiasi browser su qualsiasi piattaforma di videochiamata. 2 ore gratuite ogni mese, senza carta di credito.
Try MirrorCaption Free