台版ChatGPT來了！聯發科、中研院、國教院低調開發宣布完成AI語言生成模型

人工智慧

鄭國強2023-02-23 17:49

台版ChatGPT的誕生不是夢，由聯發科技、中研院、國教院從2022年就開始攜手開發大型語言模型，23日宣布完成並且開放下載（圖為聯發科董事長蔡明介）。（攝影／鄭國強）

台灣在全球AI語音競賽不缺席，美國科技公司OpenAI日前推出聊天機器人「ChatGPT」擁有 1億名用戶、中國百度即將推出簡體中文版ChatGPT，聯發科和中研院、國教院攜手開發大型語言模型23日開放下載，這是全球第一款繁體中文語言模型。

台版繁體字語音AI模型出世，提供外界下載測試

ChatGPT目前的主流使用語言工具都是以英文為主，中國百度開發的AI則是使用簡體中文，隨著「ChatGPT」盛行，國科會表示台灣要開發繁體中文類ChatGPT模型，而由聯發科技集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊，23日宣布完成繁體中文大型語言模型（large language model），並將放在開源網站提供下載測試。

開放原始碼釋出的大型語言模型，目前多數仍以英文為主要優化的對象，繁體中文的語言模型相對不足。為此中央研究院詞庫小組在2019年開發並公開BERT和GPT-2的繁體中文優化版本，但是因為資料量的差距，這些模型與主流的大型語言模型差距越來越大。

防止簡體版AI偏見，產官學聯手開發繁體版AI語音模型

聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點，更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展，此次結合中研院及國教院，成為台灣極少數能訓練大型語言模型的團隊，既發展自主訓練大型人工智慧模型的能力，也讓繁體中文的大型語言模型研究及應用更為普及。」

有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性，在2022年5月，聯發創新基地、中央研究院和國家教育研究院展開合作計畫，使用大型語言模型BLOOM的繁體中文模型再訓練與優化。

去年就開始偷偷練兵，耗時9個月完成語音模型

目前開放系列中第一個有量級跳躍意義的繁體中文語言模型，聯發創新基地也暫備一個手機網頁的介面，供語言模型研究者試用。此模型系列的評量指標，以及參數量更大（176B）的模型，將會陸續開放下載。

這次由聯發科技、中研院、國教院所完成的繁體中文語音模型，比目前開源可用的最大繁體中文模型大1,000倍，所使用的訓練資料也多1,000倍。該模型已公開讓外界下載，可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。

台版ChatGPT來了！聯發科、中研院、國教院低調開發 宣布完成AI語言生成模型

台版ChatGPT的誕生不是夢，由聯發科技、中研院、國教院從2022年就開始攜手開發大型語言模型，23日宣布完成並且開放下載（圖為聯發科董事長蔡明介）。（攝影／鄭國強）

社群評論

台版ChatGPT來了！聯發科、中研院、國教院低調開發宣布完成AI語言生成模型