By YU-CHAN WU in AI — 06 Feb 2026

Mistral AI 發布 Voxtral Transcribe 2：次世代即時語音轉文字模型

Mistral AI 發布 Voxtral Transcribe 2，包含批次處理的 Voxtral Mini V2 和即時轉錄的 Voxtral Realtime。以 4% 詞錯誤率、$0.003/分鐘價格和低於 200ms 延遲，挑戰 OpenAI Whisper 和商業 API 市場。Voxtral Realtime 開源於 Apache 2.0，支援邊緣部署和 13 種語言。

核心亮點：語音轉文字技術的新里程碑

2026 年 2 月 4 日，法國 AI 新創 Mistral AI 正式發布 Voxtral Transcribe 2，這是一套包含兩款次世代語音轉文字模型的完整解決方案。這項發布在 Hacker News 上迅速獲得 791 分和 194 則評論的熱烈討論，顯示技術社群對這項突破的高度關注。

Voxtral Transcribe 2 家族包含兩款各有專精的模型：Voxtral Mini Transcribe V2 專注於批次轉錄，而 Voxtral Realtime 則為即時應用場景量身打造。更引人注目的是，Voxtral Realtime 以 Apache 2.0 授權開源，讓開發者能在邊緣裝置上部署，實現真正的隱私優先架構。

三大突破性特點：

業界領先的準確度與價格比：Voxtral Mini Transcribe V2 在 FLEURS 基準測試中達到約 4% 的詞錯誤率（Word Error Rate, WER），價格僅為每分鐘 $0.003，比競品便宜 3-5 倍。
超低延遲即時轉錄：Voxtral Realtime 可配置至低於 200 毫秒的延遲，為語音助理、即時字幕和對話式 AI 開啟全新可能性。
完整的企業級功能：內建說話者辨識（Speaker Diarization）、上下文偏向（Context Biasing）、詞級時間戳記，並支援 13 種語言。

技術突破：從批次處理到即時串流

Voxtral Mini Transcribe V2：批次轉錄的新標竿

Voxtral Mini Transcribe V2 在多個關鍵指標上重新定義語音轉文字的標準。根據 Mistral AI 公布的基準測試數據，該模型在 FLEURS 多語言資料集上達到約 4% 的平均詞錯誤率，這個表現優於 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova。

效能數據比較：

模型	平均 WER (FLEURS)	價格/分鐘	處理速度
Voxtral Mini V2	~4%	$0.003	基準
GPT-4o mini Transcribe	~5-6%	$0.006	N/A
Gemini 2.5 Flash	~5-7%	包含於多模態定價	N/A
ElevenLabs Scribe v2	~4-5%	$0.015	Voxtral 的 1/3
OpenAI Whisper Large V3	~5-6%	開源（自託管）	視硬體而定

Voxtral Mini V2 不僅在準確度上領先，更以約三倍於 ElevenLabs Scribe v2 的處理速度，以及僅五分之一的成本達到同等品質。這樣的效能與價格比對需要大量轉錄的企業來說極具吸引力。

Voxtral Realtime：為低延遲而生的串流架構

有別於傳統將離線模型分塊處理音訊的做法，Voxtral Realtime 採用全新的串流架構（streaming architecture），能在音訊抵達時即時進行轉錄。這個設計選擇帶來巨大的延遲優勢。

延遲與準確度的權衡：

2.4 秒延遲：適合字幕應用，準確度與 Voxtral Mini V2 批次模型相當
480 毫秒延遲：適合語音助理，詞錯誤率僅增加 1-2%，仍保持接近離線的準確度
低於 200 毫秒：可配置的極低延遲，為高互動性語音應用解鎖新的可能性

對照競品，ElevenLabs Scribe v2 Realtime 標榜約 150 毫秒的延遲，但價格是 Voxtral Realtime 的 2.5 倍（$0.015 vs $0.006/分鐘）。OpenAI Whisper 雖然開源，但主要為批次處理設計，延遲表現無法與專為即時設計的模型相比。

技術規格：

模型大小：40 億參數（4B parameters）
語言支援：13 種語言，包括英文、中文、印度語、西班牙語、阿拉伯語、法語、葡萄牙語、俄語、德語、日語、韓語、義大利語、荷蘭語
邊緣運算能力：可在裝置端運行，確保隱私與安全
開源授權：Apache 2.0，已發布於 Hugging Face Hub

開源策略：Apache 2.0 授權的戰略意義

Mistral AI 選擇以 Apache 2.0 授權釋出 Voxtral Realtime，這是一個極具戰略意義的決定。Apache 2.0 是商業友善授權，允許企業在不公開修改的情況下整合進專有產品，這讓 Voxtral Realtime 對商業應用更具吸引力。

為什麼開源很重要？

隱私與主權：企業可在自家基礎設施或邊緣裝置上部署，不必將敏感音訊傳送至外部 API。對醫療、金融、政府等產業尤其關鍵。
成本控制：雖然 Mistral 提供託管 API（$0.006/分鐘），但高使用量的企業可選擇自行部署，只需負擔運算成本，長期來看能大幅降低支出。
客製化能力：開發者可針對特定領域或語言微調模型，或整合進更大的系統架構。
社群驅動創新：開源模型能吸引研究人員和開發者貢獻改進、發現問題、開發周邊工具。

與 OpenAI Whisper 的差異

OpenAI Whisper 自 2022 年開源以來已成為語音轉文字的事實標準，同樣採用 MIT 授權（比 Apache 2.0 更寬鬆）。研究顯示 Whisper Large V3 在許多基準測試中仍表現優異，但其批次處理導向的設計在延遲敏感應用中不佔優勢。

Voxtral Realtime 的出現為需要低延遲 + 開源 + 高準確度的應用場景提供新選擇，特別是對話式 AI 和即時語音分析領域。

企業級功能：從會議轉錄到合規監控

Voxtral Transcribe 2 內建一系列企業級功能，使其不僅是「轉文字工具」，更是完整的語音分析解決方案。

1. Speaker Diarization（說話者辨識）

自動辨識錄音中的不同說話者並標記「誰在什麼時間說了什麼」。Mistral 在五個英語基準（Switchboard、CallHome、AMI-IHM、AMI-SDM、SBCSAE）和 TalkBank 多語言基準上測試，Voxtral 的**平均辨識錯誤率（Diarization Error Rate, DER）**顯著優於競品。

應用場景：

會議記錄：清楚區分與會者發言
客服通話：區分客戶與客服人員
訪談分析：自動歸類受訪者與訪問者

注意事項：當多人同時說話時，模型通常只轉錄其中一人。

2. Context Biasing（上下文偏向）

提供最多 100 個詞彙或短語，引導模型正確拼寫人名、技術術語或領域特定詞彙。通用轉錄模型常在專有名詞上出錯，Context Biasing 能大幅改善這個問題。

範例：

企業會議：提供公司產品名稱、員工姓名
醫療轉錄：提供藥品名稱、醫學術語
法律文件：提供案件編號、法律專有名詞

目前 Context Biasing 針對英語優化，其他語言的支援仍在實驗階段。

3. Word-level Timestamps（詞級時間戳記）

為每個詞提供精確的開始與結束時間，讓開發者能：

生成準確同步的字幕
實現音訊內容搜尋
對齊文字與音訊播放

4. 擴展的語言支援

Voxtral 支援 13 種語言，而且非英語語言的表現明顯超越競品。在 FLEURS 多語言基準測試中，Voxtral 在中文、西班牙語、阿拉伯語等語言的詞錯誤率均優於其他商業 API。

相較之下，ElevenLabs Scribe v2 雖聲稱支援 90+ 語言，但實際表現在非英語語言上的數據披露較少。

5. 雜訊強健性

在充滿挑戰的聲學環境中保持準確度：

工廠車間的機器噪音
繁忙客服中心的背景雜音
戶外錄音的風聲與環境音

6. 長音訊支援

單次請求最多處理 3 小時錄音，減少分段處理的複雜度。

實際應用場景：從 AI 助理到合規監控

Mistral AI 在官方文件中列舉數個 Voxtral 的典型應用場景，這些場景橫跨多個產業，展現語音轉文字技術的廣泛潛力。

會議智能（Meeting Intelligence）

痛點：會議記錄耗時且容易遺漏細節，跨國團隊常需處理多語言會議。

解決方案：

使用 Voxtral Mini V2 轉錄會議錄音
Speaker Diarization 清楚標記誰說了什麼
詞級時間戳記讓團隊快速定位重點片段
多語言支援處理國際會議

價格優勢：以每小時會議僅 $0.18 的成本，企業可批量處理大量會議內容。

語音助理與虛擬客服（Voice Agents）

痛點：對話式 AI 需要極低延遲的語音理解，否則互動會顯得緩慢不自然。

解決方案：

Voxtral Realtime 提供低於 200 毫秒的轉錄延遲
與大型語言模型（LLM）和文字轉語音（TTS）系統串接
建立流暢自然的語音互動體驗

技術堆疊範例：用戶語音 → Voxtral Realtime → LLM 推理 → TTS 生成 → 播放回應

客服中心自動化（Contact Center Automation）

痛點：客服人員需要手動輸入資訊到 CRM 系統，且難以即時分析客戶情緒和意圖。

解決方案：

即時轉錄通話內容
分析情緒和關鍵字觸發建議回應
自動填寫 CRM 欄位
Speaker Diarization 區分客戶與客服人員

媒體與廣播（Media and Broadcast）

痛點：直播節目需要即時產生多語言字幕，專有名詞和技術術語常被轉錯。

解決方案：

Voxtral Realtime 生成低延遲字幕
Context Biasing 確保專有名詞正確
支援 13 種語言的多語言字幕

合規與文件管理（Compliance and Documentation）

痛點：監管法規要求記錄和監控特定互動，需要清晰的說話者歸屬和精確時間戳記。

解決方案：

自動轉錄並封存通話記錄
Speaker Diarization 提供清晰的說話者歸屬
時間戳記支援精確的稽核追蹤
支援 GDPR 和 HIPAA 合規部署（私有雲或本地部署）

市場影響分析：語音 AI 競爭格局的重組

Voxtral Transcribe 2 的發布對語音轉文字市場產生多層次的影響。

開源 vs. 閉源的競爭動態

OpenAI Whisper 自 2022 年開源後成為開發者首選，但其批次處理導向限制了在即時應用的表現。Voxtral Realtime 以更低延遲和原生串流架構直接挑戰這個領域。

商業 API 服務如 Google、Assembly AI、Deepgram 面臨新的壓力。Voxtral Mini V2 以 $0.003/分鐘的價格和領先的準確度，可能迫使這些服務重新評估定價策略。

邊緣運算與隱私優先架構

隨著資料隱私法規（GDPR、CCPA）日益嚴格，以及企業對資料主權的要求增加，能在邊緣裝置或私有基礎設施上運行的開源模型變得更有價值。

Voxtral Realtime 的 40 億參數規模使其能在消費級 GPU 或高階行動裝置上運行，這對醫療、金融等高度監管產業尤具吸引力。

AI 助理與對話式介面的爆發

低延遲語音轉文字是對話式 AI 的基礎建設。研究顯示，超過 300 毫秒的延遲會讓使用者感到明顯卡頓。Voxtral Realtime 將延遲壓到 200 毫秒以下，讓語音助理能提供更自然的互動體驗。

這項技術可能加速以下趨勢：

語音優先介面：更多應用將語音作為主要或輔助輸入
多模態 AI 助理：結合語音、視覺、文字的綜合助理
本地 AI 助理：在裝置端運行，無需網路連線

對 Mistral AI 的戰略意義

Mistral AI 以「開放權重」（open weights）策略與 OpenAI、Anthropic 等閉源大廠競爭。Voxtral Transcribe 2 的發布展現其技術實力不僅限於文字 LLM，更擴展至語音領域。

透過提供開源模型 + 商業 API的雙軌策略，Mistral 能同時吸引社群開發者和企業客戶，建立更廣泛的生態系統。

如何開始使用 Voxtral

Mistral AI 提供多種方式讓開發者和企業體驗 Voxtral Transcribe 2：

1. Mistral Studio Audio Playground

最快的體驗方式是使用 Mistral Studio 的音訊遊樂場。

功能：

一次上傳最多 10 個音訊檔案
切換 Speaker Diarization 開關
選擇時間戳記粒度（詞級或句級）
添加 Context Bias 詞彙
支援 .mp3、.wav、.m4a、.flac、.ogg 格式，單檔最大 1GB

2. Le Chat 整合

Mistral 的對話式 AI 平台 Le Chat 已整合 Voxtral，使用者可直接上傳音訊並獲得轉錄。

3. API 呼叫

Voxtral Mini Transcribe V2：

端點：詳見官方文件
價格：$0.003/分鐘
適用於：批次轉錄、存檔內容分析

Voxtral Realtime：

端點：詳見官方文件
價格：$0.006/分鐘
適用於：即時應用、語音助理

4. 開源自部署

從 Hugging Face 下載 Voxtral Realtime 的模型權重，自行部署在：

私有雲環境
本地伺服器
邊緣裝置（需適當的運算資源）

系統需求：建議至少配備支援 CUDA 的 GPU（如 NVIDIA T4 或更高等級）以達最佳效能。

Mistral AI 發布 Voxtral Transcribe 2：次世代即時語音轉文字模型

核心亮點：語音轉文字技術的新里程碑