和碩、長庚、長春、欣興攜手新創AI語言模型 律師考試贏過89%考生

產業動態

「繁體中文專家模型開源專案 Taiwan Mixture of Experts(後簡稱 Project TAME )」在 今(1)日正式發表,號稱全球首創多產業共同孕育的繁中大型語言專家模型,主要由長春集團、和碩聯合科技、長庚醫院、欣興電子、等聯合發起,並與台大資工系、台大資管系及律果科技合作,並在NVIDIA 支持下訓練,身為唯一擁有產業專業知識的開源模型,能以在地化文化及用語,協助台灣產業快速導入生成式AI落地應用。

NVIDIA總監蕭怡祺致詞表示,「外國的和尚不會念台灣的經」,過去做AI需要有資料、算力與模型,單獨企業要做相對困難,即便做出toC,對於產業用的toB,台灣企業都遇到相同問題,不過幸運的是,AI要有國內產業知識,而台灣剛好在醫療、製造業為世界翹楚,藉由業界與學界的自發性合作,讓台灣原本「一盤散沙」從今天開始有機會「聚沙成塔」,讓真正台灣在地模型訓練能夠真正落地,甚至走向全世界。

亞太智能執行長吳柏翰舉例,一般企業如果要從零開始訓練10億參數模型,約需耗資台幣3.8億及耗時576小時,但基於Project TAME 700億參數模型,企業導入只需台幣1,600萬的成本、且短短3.5小時(模型迭代一次)就能訓練企業內部資料,大幅降低導入成本及時間,快速優化企業在運營管理、人員訓練、產品服務、客服等多元AI應用。

打造了解台灣的AI,流行用語、在地文化它更熟悉

台大資工系博士候選人李彥廷針對為何需要有台灣在地化語言模型說明,第一,「避免一言堂」,若台灣沒有可與國外企業匹敵的AI模型技術,難免會造成文化、價值觀、意識形態等集中掌握在歐美公司;另外,也可優化繁體中文以及加強在地文化,讓人工智慧能夠穩定輸出,並且在問答上更加準確。

李彥廷也補充,Project TAME在問答上更加了解台灣文化,例如「很盤」、或更加專業的台灣常見法律用詞「要非難謂」,甚至到問它早餐店何餐點可以「促進腸胃蠕動」,相較於其他國外已推出的問答AI,雖然都使用繁中回應,但Project TAME更正確,也代表其對於台灣在地文化更加了解。

律師第一試贏過89%考生,簡體法律語料將扭曲法律意識

律果科技執行長陳啟桐表示,生成式AI在美國受衝擊最大的就在法律產業,可謂海嘯第一排,ChatGPT-4o考取美國律師考試已經贏過9成學生,並在募資資金研發用於法律運用的生成式AI得到巨大迴響,可見美國相當看好AI於法律應用發展;不過,若以ChatGPT-4o考取台灣律師考試,則連第一試都過不了,主要原因有語言句構差異,法律體系也不一。

並且,陳啟桐指出,中文法律語料少,就算有也以簡體法律語料居多,不如英文之外,也存在標準化問題,例如出現「保肘人」等大陸用語,對於主權AI帶來挑戰,他強調,法律背後代表意識形態、國家制度、人權價值與民主精神,都由法律規定,因此以簡體法律語料為主將會帶來法律意識扭曲跟偏差。

陳啟桐表示,Project TAME已成為世界唯一可通過台灣律師考試第一試(第一試為選擇題)的語言模型,取得分數贏過89%考生,以後將藉由NVIDIA Taipei-1算力提供TAME更多語料,將判決書等乾淨資料提升表現,推出法律專用的大語言模型,可落地,並把公司內部經理資訊、通用法律資訊等結合起來,解決不同公司的法律問題

繁中語言模型建構3階段

而Project TAME又是如何構成?李彥廷分為3階段說明,首先「飽讀詩書」,訓練了近5千億個字(token)開發出此繁中大型語言專家模型,其中困難點在於需要大量的本土資料,並且需要各領域專家確認資料來源、好壞,篩選出乾淨的資料進行訓練,這九是為何要跟各產業合作的原因。

再進入「對話微調」,以便與台灣大眾對答,蒐集中英文學界與產業界等再通用型或知識密集型對話都能夠暢聊;最後則是「使用者偏好微調」,調查台灣使用者較為偏好何種回答方式,投其所好。

此外,Project TAME繁體中文模型已有初步具體顯著成果,在各項繁中相關指標中領先全球模型,連台灣的「大學學測、律師/中醫考試、導遊證照、駕照、台灣在地化測驗」都分數優異,在台39項綜合評測、近三千個題目,Project TAME分數就超過市面上較知名的所有模型,正確率相較第二名的Claude-Opus模型高了6.8%,比GPT-4o甚至高了9.3%。

AI助力醫療,長庚:人力節省2~3倍,運作效率節省10倍

長庚醫療人工智能核心實驗室副主任林器弘分享,ChatGPT現世後,長庚從2023年即決定要自主研發基礎模型,並且要禁止院內資料往外輸出,落地於院區內,目前已經完成5項AI落地應用,不論是在衛教知識或者感控執行,AI皆可給予協助、節省時間,例如當較資淺的護理人員遇到新生兒呼吸窘困,以往需找資深護理師詢問,如今詢問生成式AI,可快速處理緊急情況,同時也讓新進人員壓力減輕。

林器弘也舉例,如新生兒的出生紀錄,若沒有AI協助,恐需要2~3位護理同仁做觀察與紀錄,但結合語音轉文字、大語言模型以及結構化報告等功能,人力可節省2~3倍,運作效率節省10倍以上,「只要講完一次,所有事情通通都完成了」。

back to top
navbar logo