আপনি যদি এমন একটি OpenAI Whisper বিকল্প খুঁজছেন যা Python ইনস্টল না করেই কাজ করে, তাহলে MirrorCaption হলো ব্রাউজার-ভিত্তিক বিকল্প — 500ms-এরও কম সময়ে রিয়েল-টাইম স্ট্রিমিং ট্রান্সক্রিপশন, 60+ ভাষায় অনুবাদ, কোনো কমান্ড লাইন দরকার নেই।

Whisper সত্যিই অসাধারণ একটি প্রযুক্তি। OpenAI-এর ওপেন-সোর্স ASR মডেল 2022 সালে চালু হওয়ার সময় নির্ভুলতার মানদণ্ড স্থাপন করেছিল, এবং এর large-v3 ভ্যারিয়েন্ট এখনও উপলভ্য সবচেয়ে সক্ষম স্পিচ রিকগনিশন মডেলগুলোর মধ্যে অন্যতম। কিন্তু অসাধারণ নির্ভুলতা আর লাইভ মিটিংয়ের জন্য ব্যবহারিক সুবিধা—এ দুটো এক জিনিস নয়।

প্রিয়ার গল্প: তিনি সিঙ্গাপুরের একটি লজিস্টিকস প্রতিষ্ঠানের প্রজেক্ট ম্যানেজার, যার টিম জার্মানি ও ব্রাজিলজুড়ে বিস্তৃত। মার্চে, একটি প্রশংসাসূচক ব্লগ পোস্ট পড়ে তিনি GitHub-এ Whisper খুঁজে পান। তিনি ইনস্টল গাইড অনুসরণ করলেন: Python — হয়ে গেল। pip install — 12 মিনিট। তারপর ffmpeg। তারপর তার Windows ল্যাপটপে CUDA ড্রাইভার চালু করতে 45 মিনিট লেগে গেল। তবু তিনি কখনও ট্রান্সক্রিপ্ট পেলেন না। 35 মিনিটের মধ্যে তার ফ্রাঙ্কফুর্ট টিমের সঙ্গে কল ছিল। শেষ পর্যন্ত তিনি কলের মাঝখানে আলাদা আলাদা বাক্যাংশের জন্য Google Translate ব্যবহার করলেন, আর অর্ধেক সূক্ষ্মতা মিস করলেন।

“দারুণ মডেল” আর “আপনার পরের মিটিংয়েই কাজ করে” — এই ব্যবধানটাই এই পৃষ্ঠার বিষয়। আমরা দেখব Whisper কী ভালো করে, লাইভ ব্যবহারে কোথায় এটি পিছিয়ে পড়ে, এবং কেন কোডিং ছাড়া Whisper বিকল্প আপনার জন্য সঠিক পছন্দ হতে পারে।

মূল বিষয়গুলো

OpenAI Whisper আসলে কী করে — আর কী করে না

Whisper হলো একটি automatic speech recognition (ASR) মডেল। আপনি এতে একটি অডিও ফাইল দেন — MP3, WAV, MP4, FLAC — আর এটি একটি ট্রান্সক্রিপ্ট ফেরত দেয়। large-v3 মডেল পরিষ্কার ইংরেজি বক্তৃতায় প্রায় 2.7% word error rate অর্জন করে, যা চমৎকার। এটি ট্রান্সক্রিপশনের জন্য 99টি ভাষা সমর্থন করে এবং GitHub-এ self-host করা বিনামূল্যে।

Whisper যা করে না, নকশাগতভাবেই:

Whisper একটি ব্যাচ প্রসেসর, লাইভ ট্রান্সক্রিপশন টুল নয়

Whisper ইনপুট হিসেবে একটি সম্পূর্ণ অডিও ফাইল নেয়। এটি মাইক্রোফোনে সংযুক্ত হয়ে রিয়েল টাইমে ট্রান্সক্রাইব করতে পারে না। প্রক্রিয়াটি হলো: অডিও রেকর্ড করুন, ফাইল সেভ করুন, Whisper চালান, ট্রান্সক্রিপ্ট পড়ুন। এক ঘণ্টার মিটিংয়ের ক্ষেত্রে, কথোপকথন শেষ হওয়া থেকে চূড়ান্ত টেক্সট পাওয়া পর্যন্ত কয়েক মিনিট থেকে কয়েক ঘণ্টা পর্যন্ত ব্যবধান হতে পারে।

ডেভেলপাররা chunked-streaming-এর আনুমানিক পদ্ধতি বানিয়েছেন — 5-সেকেন্ডের অডিও স্লাইসে Whisper চালিয়ে — কিন্তু এতে নির্ভুলতার সমস্যা আসে (Whisper পূর্ণ দৈর্ঘ্যের রেকর্ডিংয়ে প্রশিক্ষিত, ছোট অংশে নয়) এবং তবুও প্রতি chunk-এ কয়েক সেকেন্ডের বিলম্ব থাকে। লাইভ কথোপকথনের জন্য কোনো ব্যবহারিক অর্থে এটি রিয়েল টাইম নয়। আরও বিস্তৃতভাবে কোনো ইনস্টল ছাড়া ব্যবহারযোগ্য বিকল্প দেখতে চাইলে, আমাদের কোডিং ছাড়া Whisper বিকল্পের গাইড দেখুন।

ইনস্টল করতে সাতটি পূর্বশর্ত ধাপ লাগে

অফিসিয়াল Whisper GitHub README-তে আপনার প্রথম ট্রান্সক্রিপশন চালানোর আগে এগুলো দরকার:

  1. Python 3.8 বা তার বেশি
  2. pip (Python package manager)
  3. ffmpeg (সিস্টেম-লেভেলের মিডিয়া লাইব্রেরি, Python থেকে আলাদাভাবে ইনস্টল করা হয়)
  4. CUDA toolkit (GPU ব্যবহার করলে — বড় মডেলগুলোর জন্য সুপারিশকৃত)
  5. পর্যাপ্ত VRAM-সহ একটি GPU (large-v3-এর জন্য 8 GB+)
  6. মডেল ওজন ডাউনলোড (~1.5 GB for large-v3)
  7. ট্রান্সক্রিপশন কমান্ড চালাতে কমান্ড-লাইন পরিচিতি

একজন সফটওয়্যার ইঞ্জিনিয়ারের জন্য এগুলোর কিছুই অযৌক্তিক নয়। কিন্তু একজন প্রজেক্ট ম্যানেজার, সেলস রিপ, বা শিক্ষক, যিনি পরের 20 মিনিটের মধ্যে একটি মিটিং বুঝতে চান, তার জন্য এটি একটি বড় বাধা। তৃতীয়-পক্ষের GUI আছে — Buzz (macOS), Whisper Web — কিন্তু প্রতিটিই নিজস্ব ইনস্টলেশন জটিলতা যোগ করে। সিদ্ধান্ত নেওয়ার আগে যদি আপনি কোনো ইনস্টল ছাড়া বিকল্পগুলো তুলনা করতে চান, আমাদের কোডিং ছাড়া Whisper বিকল্পের গাইড প্রধান ট্রেড-অফগুলো পরিষ্কারভাবে ব্যাখ্যা করে।

Whisper-এর “translate” মোড কেবল ইংরেজি আউটপুট দেয়

Whisper-এর দুটি task mode আছে: “transcribe” (কথিত ভাষাতেই আউটপুট) এবং “translate” (উৎস ভাষা যাই হোক, ইংরেজিতে আউটপুট)। যদি আপনাকে জাপানি ক্লায়েন্টের কথা ফরাসিভাষী সহকর্মীর জন্য ফরাসিতে দরকার হয় — বা চীনা → স্প্যানিশ, সীমান্ত-পারাপারের সেলস কলের জন্য — Whisper তা সরাসরি করতে পারে না। আপনাকে আলাদা একটি translation API জুড়ে দিতে হবে, যা latency ও জটিলতা বাড়ায়।

Whisper বিকল্প খোঁজার ছয়টি কারণ

  1. রিয়েল টাইম অপরিহার্য। তাদের কলের সময় পড়তে হবে, পরে নয়। Whisper-এর ব্যাচ পাইপলাইন মানে মিটিং শেষ হয়ে যাওয়ার পর ট্রান্সক্রিপ্ট আসে।
  2. ইনস্টল তাদের আটকে দিয়েছে। Python environment conflict, Windows-এ ffmpeg, CUDA driver সমস্যা — প্রতিটি ধাপই non-developer-দের জন্য সম্ভাব্য বাধা।
  3. GPU নেই। CPU-তে large model প্রায় প্রতি মিনিট প্রসেসিং সময়ে 1 মিনিট অডিও ট্রান্সক্রাইব করে। tiny/base model দ্রুত চলে, কিন্তু উচ্চারণভেদী বক্তৃতা ও প্রযুক্তিগত শব্দভাণ্ডারে নির্ভুলতা কমে যায়।
  4. তাদের ট্রান্সক্রিপশন নয়, অনুবাদ দরকার। Whisper-এর translate task ইংরেজি দেয়। অন্য যেকোনো আউটপুট দিকের জন্য ব্যবহারকারীদের ভিন্ন সমাধান দরকার।
  5. মিটিং-নির্দিষ্ট ফিচার অনুপস্থিত। স্পিকার লেবেল নেই, লাইভ UI নেই, সার্চযোগ্য ট্রান্সক্রিপ্ট নেই, AI মিটিং সারাংশ নেই। বেস আউটপুট একটি সাধারণ টেক্সট ফাইল।
  6. হোস্টেড API নিয়ে গোপনীয়তার উদ্বেগ। whisper-1 API endpoint অডিও OpenAI-এর সার্ভারে পাঠায়। HIPAA, GDPR, বা অভ্যন্তরীণ ডেটা-হ্যান্ডলিং নীতির অধীনে থাকা প্রতিষ্ঠানগুলো প্রায়ই এটি ব্যবহার করতে পারে না। Self-hosting এটি সমাধান করে, কিন্তু ইনস্টল জটিলতা আবার ফিরে আসে।
কোনো ইনস্টল ছাড়া পথটি চেষ্টা করতে চান? আপনার ব্রাউজারে MirrorCaption খুলুন — 1টি ফ্রি ঘণ্টা, একবারের জন্য, কোনো ক্রেডিট কার্ড নয়।

MirrorCaption বনাম OpenAI Whisper — পাশাপাশি তুলনা

ফিচার MirrorCaption OpenAI Whisper
প্রয়োজনীয় সেটআপ একটি ব্রাউজার ট্যাব খুলুন Python + pip + ffmpeg + GPU
প্রসেসিং মোড রিয়েল-টাইম স্ট্রিমিং ব্যাচ (ফাইল থেকে ট্রান্সক্রিপ্ট)
আউটপুট ল্যাটেন্সি শব্দে-শব্দে 500ms-এর কম কয়েক মিনিট থেকে কয়েক ঘণ্টা
লাইভ মাইক + মিটিং অডিও ✓ ডুয়াল-সোর্স ক্যাপচার ✗ শুধু ফাইল আপলোড
অনুবাদ ✓ 60+ ভাষা জোড়া শুধু ইংরেজি আউটপুট
স্পিকার শনাক্তকরণ ✓ বিল্ট-ইন ✗ অন্তর্ভুক্ত নয়
মিটিং UI ✓ সার্চ, এক্সপোর্ট, সারাংশ ✗ CLI টেক্সট আউটপুট
গোপনীয়তা অডিও কখনও সার্ভার-সাইডে সংরক্ষিত হয় না অডিও OpenAI-তে পাঠানো হয় (API)
খরচ ✓ €49 একবার (200 ঘণ্টা) $0.006/min via API
কার জন্য সবার জন্য ডেভেলপারদের জন্য

টেবিলটি গল্পের বেশিরভাগই বলে, তবে একটি সারি আলাদা করে ব্যাখ্যা করা দরকার: processing mode। Whisper-এর ব্যাচ আর্কিটেকচার মানে আগে অডিও সংগ্রহ করুন, তারপর ট্রান্সক্রাইব করুন। MirrorCaption-এর WebSocket streaming STT 500ms-এর কম সময়ে আংশিক শব্দ-স্তরের ফলাফল দেয় — এতটাই দ্রুত যে বক্তা পরের ভাবনা শেষ করার আগেই আপনি অনূদিত বাক্য পড়ে ফেলতে পারেন। এটি গতির একটি ধাপে ধাপে উন্নতি নয়। এটি কথোপকথনের সঙ্গে একেবারে ভিন্ন সম্পর্ক।

MirrorCaption বিনামূল্যে চেষ্টা করুন

1টি ফ্রি ঘণ্টা (একবারের জন্য)। কোনো ক্রেডিট কার্ড নয়। কোনো ইনস্টল নয়। Zoom, Teams, Meet, এবং যেকোনো ব্রাউজার-ভিত্তিক কলে কাজ করে।

আপনার ব্রাউজারে MirrorCaption খুলুন

Whisper এখনও কোথায় সঠিক পছন্দ

Whisper সত্যিই চমৎকার সফটওয়্যার। এখানে এটি একটি concession section পাওয়ার যোগ্য, কারণ “OpenAI Whisper alternative” খুঁজছেন এমন মানুষরা এটিকে সম্মান করেন — এবং করা উচিত। Whisper (অথবা Faster-Whisper বা whisper.cpp-এর মতো দ্রুততর fork) ব্যবহার করুন যখন:

মার্কাসের গল্প: তিনি বার্লিনে একটি পডকাস্ট প্রোডাকশন এজেন্সি চালান। প্রতি সপ্তাহে তার টিম ক্লায়েন্টদের জন্য 30+ ঘণ্টার রেকর্ড করা ইন্টারভিউ প্রসেস করে। তিনি A100 GPU-সহ একটি সার্ভারে Faster-Whisper ব্যবহার করেন — মোট মাসিক ক্লাউড কম্পিউট খরচ: প্রায় €40। ট্রান্সক্রিপ্ট মিনিটের মধ্যে ফিরে আসে এবং সরাসরি তার এডিটিং ওয়ার্কফ্লোতে চলে যায়। Whisper তার জন্য একেবারে সঠিক টুল। MirrorCaption সেটি প্রতিস্থাপন করার চেষ্টা করছে না।

সিদ্ধান্তটি সহজ: যদি আপনার প্রধান প্রয়োজন হয় পরে ব্যবহারের জন্য অডিও ফাইল প্রসেস করা, তাহলে Whisper শক্তিশালী। যদি আপনার প্রধান প্রয়োজন হয় যা বলা হচ্ছে তা বলা চলাকালীনই পড়া — লাইভ মিটিংয়ে, অন্য ভাষায়, যেকোনো ডিভাইসে — তাহলে Whisper অন্য সমস্যার জন্য তৈরি হয়েছিল।

MirrorCaption কোথায় জেতে

লাইভ মিটিং — বক্তা এখনও কথা বলছেন, আর আপনি পড়ছেন

MirrorCaption আপনার ব্রাউজার ট্যাব থেকে (Zoom, Google Meet, Teams, Webex — যেকোনো প্ল্যাটফর্ম) এবং একই সঙ্গে আপনার মাইক্রোফোন থেকে অডিও ক্যাপচার করে, ব্রাউজারের getDisplayMedia API-এর মাধ্যমে। কোনো বট কল-এ যোগ দেয় না। কাউকে কোনো নোটিফিকেশনও যায় না। ট্রান্সক্রিপ্ট 500ms-এর কম সময়ে শব্দে-শব্দে স্ট্রিম হয়।

এই 500ms সীমা গুরুত্বপূর্ণ, কারণ এটি কথোপকথন-পাঠযোগ্যতার স্তরে পৌঁছে যায়। আপনি একটি অনূদিত বাক্য পড়ে বক্তা পরের ভাবনা শেষ করার আগেই উত্তর দিতে পারেন। Whisper-এর chunked-streaming আনুমানিক পদ্ধতিগুলোও প্রতি chunk-এ 3-8 সেকেন্ড বিলম্ব দেয়, যা নোট নেওয়ার জন্য উপকারী, কিন্তু সক্রিয় অংশগ্রহণের জন্য নয়। বহুভাষিক যোগাযোগের ওপর নির্ভরশীল টিমগুলোর জন্য, পার্থক্যটি হলো রিমোট টিমের জন্য রিয়েল-টাইম অনুবাদ ওয়ার্কফ্লো বনাম মিটিং-পরবর্তী পড়ার অনুশীলন।

কোনো ইনস্টল নয়, যেকোনো ডিভাইস, যেকোনো প্ল্যাটফর্ম

MirrorCaption একটি Progressive Web App। এটি ডেস্কটপ ও মোবাইলে Chrome, Edge, Safari, এবং Firefox-এ চলে। URL খুলুন — সেটাই ইনস্টল। আপনার MacBook, Windows laptop, Android phone, ধার করা iPad-এ কাজ করে। IT-র অনুমোদনের কিছু নেই, কারণ MirrorCaption কখনও সরাসরি মিটিং প্ল্যাটফর্মে স্পর্শ করে না; এটি আপনার স্থানীয় ডিভাইসে ব্রাউজার অডিও ক্যাপচার করে।

অ-প্রযুক্তিগত ব্যবহারকারীদের জন্য তুলনাটি স্পষ্ট: Whisper-এর সাতটি পূর্বশর্ত ধাপ বনাম MirrorCaption-এ একটি URL টাইপ করা।

60+ ভাষায় অনুবাদ, উভয় দিকেই

MirrorCaption 60+ ভাষার মধ্যে অনুবাদ করে — Mandarin, Cantonese, Japanese, Korean, Arabic, Hebrew, Hindi, Spanish, French, German, Portuguese, Russian, এবং আরও অনেক — স্পিকার কনটেক্সটসহ GPT-ভিত্তিক অনুবাদ ব্যবহার করে রিয়েল টাইমে। পাশাপাশি ভিউতে মূল ও অনুবাদ একসঙ্গে দেখা যায়। যেকোনো অনূদিত শব্দে ট্যাপ করলে তার পেছনের উৎস শব্দটি দেখা যায়। Whisper-এর translate মোড ইংরেজি আউটপুট দেয়। এতটুকুই।

এলেনার গল্প: তিনি একটি সেমিকন্ডাক্টর প্রতিষ্ঠানের সেলস ইঞ্জিনিয়ার, যার ক্লায়েন্ট কলগুলো জাপানি, কোরিয়ান, এবং ইংরেজির মধ্যে পালা করে। MirrorCaption-এর আগে, তিনি Google Translate-এ একটি ব্রাউজার ট্যাব খোলা রাখতেন এবং কলের মাঝখানে হাতে হাতে বাক্য টাইপ করতেন — অস্বস্তিকর ও ধীর। এখন তিনি প্রতিটি কলের আগে MirrorCaption খোলেন। জাপানি কথা ভেসে আসে, আর ইংরেজি তার পাশে অর্ধ সেকেন্ডেরও কম সময়ে স্ট্রিম হয়। এক কল-এ তিনি ক্লায়েন্টের বাক্যগঠনের একটি সূক্ষ্মতা ধরতে পেরেছিলেন — এমন একটি বাক্যাংশ যা আক্ষরিক অর্থে “চলুন এটা নিয়ে ভাবি” অনুবাদ হয়, কিন্তু ব্যবসায়িক প্রেক্ষাপটে গুরুতর দ্বিধা বোঝায় — এবং মিটিং শেষ হওয়ার আগেই তার পিচ সামঞ্জস্য করেছিলেন। সেই ধরতে পারা এসেছে লাইভ অনুবাদ পড়ে, মিটিং-পরবর্তী সারাংশ থেকে নয়।

খরচ: Whisper API বনাম MirrorCaption Lifetime

Whisper API মূল্য: প্রতি মিনিটে $0.006 ($0.36 প্রতি ঘণ্টা)। বিভিন্ন ব্যবহারের স্তরে এটি কেমন দেখায়:

মাসিক ব্যবহার Whisper API খরচ/মাস Whisper API খরচ/বছর
10 ঘণ্টা (600 min) $3.60 $43.20
20 ঘণ্টা (1,200 min) $7.20 $86.40
40 ঘণ্টা (2,400 min) $14.40 $172.80

এটি শুধু API খরচ — কোনো UI তৈরি, authentication সামলানো, বা infrastructure পরিচালনার আগেই। Whisper-এ একটি পণ্য বানানো ডেভেলপারের জন্য, এই খরচগুলো বৃহত্তর engineering budget-এর অংশ। শুধু মিটিং ট্রান্সক্রিপশন দরকার এমন একজন ব্যক্তির জন্য, এগুলো এমন চলমান ব্যয়, যার বিনিময়ে দেখানোর মতো কোনো UI নেই।

MirrorCaption মূল্য:

€49 Lifetime-এ আপনি 200 ঘণ্টা পান, অর্থাৎ €0.245/ঘণ্টা — Whisper API-এর $0.36/ঘণ্টার চেয়েও কম, সঙ্গে পূর্ণ মিটিং UI, স্পিকার শনাক্তকরণ, রিয়েল-টাইম অনুবাদ, এবং AI সারাংশ অন্তর্ভুক্ত। মাসে 20 ঘণ্টা ব্যবহারকারী একজনের ক্ষেত্রে, শুধু API সাশ্রয়ের ভিত্তিতেই প্রথম দুই মাসে Lifetime প্ল্যান নিজের খরচ তুলে ফেলে। সম্পূর্ণ প্ল্যানের বিবরণ দেখুন MirrorCaption pricing-এ।

প্রায়শই জিজ্ঞাসিত প্রশ্ন

OpenAI Whisper-এর কোনো ফ্রি বিকল্প আছে কি?

MirrorCaption-এ 1 ঘণ্টার ফ্রি ট্রান্সক্রিপশন ও অনুবাদ অন্তর্ভুক্ত আছে (একবারের জন্য, মাসিক রিসেট নয়), কোনো ক্রেডিট কার্ড দরকার নেই। Whisper-এর self-hosted সংস্করণও ফ্রি, কিন্তু এতে GPU এবং Python সেটআপ লাগে। যাদের কোনো ইনস্টল ছাড়া, ফ্রি শুরু করার পথ দরকার, তাদের জন্য MirrorCaption সহজতর। আরও বিকল্পের জন্য আমাদের 2026 সালের সেরা speech-to-text সফটওয়্যার-এর পূর্ণ তালিকা দেখুন।

কোডিং ছাড়া কি Whisper ব্যবহার করতে পারি?

অফিসিয়াল OpenAI রিলিজে নয় — এতে Python, ffmpeg, এবং command-line অপারেশন দরকার। Buzz (macOS) এবং Whisper Web-এর মতো তৃতীয়-পক্ষের GUI ইন্টারফেস দেয়, কিন্তু তবুও লোকাল ইনস্টলেশন এবং মডেল ওজনের জন্য উল্লেখযোগ্য স্টোরেজ লাগে। MirrorCaption-এ কোনো ইনস্টল দরকার নেই: একটি ব্রাউজার খুলুন, আপনার মিটিং শুরু করুন। আমাদের কোডিং ছাড়া Whisper বিকল্পের গাইড প্রতিটি ইনস্টল-ছাড়া বিকল্প বিস্তারিতভাবে কভার করে।

MirrorCaption কি Zoom, Teams, এবং Google Meet-এর সঙ্গে কাজ করে?

হ্যাঁ। MirrorCaption ব্রাউজারের getDisplayMedia API ব্যবহার করে যেকোনো ট্যাব থেকে ব্রাউজার অডিও ক্যাপচার করে, তাই এটি Zoom, Google Meet, Microsoft Teams, Webex, Slack Huddles, বা যেকোনো ব্রাউজার-ভিত্তিক কলের সঙ্গে কাজ করে — বট হিসেবে মিটিংয়ে যোগ না দিয়েই। IT অনুমোদনের দরকার নেই, কারণ MirrorCaption কখনও সরাসরি মিটিং প্ল্যাটফর্মে স্পর্শ করে না।

MirrorCaption কি Whisper-এর মতো রিয়েল-টাইম, নাকি ব্যাচ?

রিয়েল-টাইম। MirrorCaption আমাদের WebSocket streaming STT ব্যবহার করে 500ms-এর কম সময়ে শব্দে-শব্দে ট্রান্সক্রিপশন দেয় — এত দ্রুত যে কেউ কথা বলার সময়ই আপনি পড়তে পারেন। Whisper সম্পূর্ণ অডিও ফাইল প্রসেস করে এবং এর বেস ফর্মে লাইভ অডিও স্ট্রিম করতে পারে না। লাইভ মিটিংয়ের ক্ষেত্রে, এটাই দু’টি টুলের মধ্যে নির্ধারক পার্থক্য।

MirrorCaption কোন কোন ভাষা সমর্থন করে?

MirrorCaption 60+ ভাষায় ট্রান্সক্রাইব ও অনুবাদ করে, যার মধ্যে Mandarin, Cantonese, Japanese, Korean, Arabic, Hebrew, Hindi, Spanish, French, German, Portuguese, Russian, Italian, এবং আরও অনেক রয়েছে — যেকোনো জোড়ার মধ্যে দ্বিমুখী অনুবাদসহ। Whisper-এর “translate” task উৎস ভাষা যাই হোক, কেবল ইংরেজিতে আউটপুট দেয়।

ট্রান্সক্রিপ্টের জন্য অপেক্ষা বন্ধ করুন

MirrorCaption খুলুন এবং আপনার পরের মিটিং রিয়েল টাইমে পড়ুন। 1টি ফ্রি ঘণ্টা, একবারের জন্য। কোনো ক্রেডিট কার্ড নয়। কোনো ইনস্টল নয়।

MirrorCaption বিনামূল্যে চেষ্টা করুন

Whisper এখন পর্যন্ত তৈরি সেরা ASR মডেলগুলোর একটি — নির্ভুল, ওপেন-সোর্স, এবং নিজের হার্ডওয়্যারে চালাতে ফ্রি। আপনি যদি পরে ব্যবহারের জন্য অডিও ফাইল প্রসেস করেন, এটি আপনার টুলকিটে থাকা উচিত।

কিন্তু যদি আপনাকে বলা হচ্ছে এমন কথাই বলা চলাকালীন পড়তে হয় — লাইভ মিটিংয়ে, অন্য ভাষায়, যেকোনো প্ল্যাটফর্মে — তাহলে Whisper-এর আর্কিটেকচার অন্য একটি সমস্যার জন্য তৈরি হয়েছিল। MirrorCaption সেই ফাঁক পূরণ করে। একটি ব্রাউজার ট্যাব খুলুন। আপনার মিটিং শুরু করুন। 500ms-এর কম সময়ে আপনার ভাষায় প্রতিটি শব্দ পড়ুন।