「花生什麼事」也能辨識 聯發科開發出比OPEN AI更懂台灣用語的AI語音模型

AI

連「花生什麼事」也知道是什麼意思,聯發科集團轄下的前瞻技術研究單位聯發創新基地(MediaTek Research)發布基於OpenAI Whisper的AI語音辨識開源模型MediaTek Research Breeze ASR 25,比OpenAI的模型更懂台灣人習慣用語。

聯發科軟體也行,模型能辨識台灣人慣用語

聯發科表示,相較於OpenAI Whisper模型,這款MR Breeze ASR 25更加理解台灣用語及口音,同時,在台灣常見的中、英混合的用語情境上,也達到更高的精準度。此外,模型以Apache 2.0條款釋出,以利促進百工百業在各類創意AI領域應用。

聯發創新基地負責人許大山博士表示,開源語音辨識模型雖逐年進步,但對於在地用語及口音的辨識度仍顯不足,例如把「發生什麼事」聽成「花生什麼事」。有鑑於語音辨識是AI應用的關鍵啟動功能,此次特別釋出「聽得懂在地語言」的ASR模型MR Breeze ASR 25。

中英文混雜也行,展示超強語音辨識能力

MR Breeze ASR 25精準度相較於OpenAI的Whisper提升近10%、中英語轉換表現(Code-switching)則增進56%。藉此,聯發創新基地能以完整的繁體中文AI模型,積極推進繁體中文AI的創新並普及模型於地端及裝置端的使用。


聯發創新基地自2025起已陸續開源全套繁體中文AI模型,包含整合視覺功能的語言模型(Visual Large Language Models,V-LLM)、針對台灣口音調整的文字轉語音模型(Text to Speech,TTS)、以及能調用外部資訊的函式呼叫(Function Calling)模型。

中國的語音辨識模型,要能辨識30省的方言

聯發科表示,此次釋出的MR Breeze ASR 25為MR Breeze系列第二代語音辨識開源模型,能即時將語音轉為文字,並透過強化台灣語料及台灣口音,來符合本土應用需求。MR Breeze ASR 25日前已於HuggingFace上架。

各國工程師開發適合當地方言的AI語言辨識模型是全球趨勢,去年中國電信人工智能研究院(TeleAI)發布號稱能同時識別三十種中國各省方言的語音識別大模型「星辰超多方言語音識別大模型」,該大模型能同時識別理解粵語、上海話、溫州話等三十多種方言,是中國支援最多方言的語音辨識大模型。

back to top
navbar logo