〔記者王憶紅/台北報導〕 IMA 資訊經理人協會(IMA協會) 發起 Taiwan Tongues 台灣通用語料庫計畫,IMA 協會理事長蔡祈岩指出,Taiwan Tongues的目標是讓台灣語言,不只是被保存,更成為全球 AI 模型學習的核心語料,讓世界真正「聽懂」與「理解」台灣。
數位發展部次長林宜敬表示,AI 正重塑世界的語言與價值流動,台灣語言在數位世界的能見度面臨嚴峻挑戰,這也是政府推動「主權 AI」的核心意義,不只是技術路線,更是文化自主與民主深化的戰略選擇。
蔡祈岩說,生成式 AI 正以前所未有的速度改變全球溝通與知識生產,但當主流 AI 模型多以英文與簡體中文為主要訓練基礎,台灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席,導致 AI 難以理解台灣語言與文化,形成新一波數位落差與文化邊緣化。
為翻轉此局面, IMA 推動Taiwan Tongues 計畫,蔡祈岩指出,計畫有三大步驟,就是要打造 AI 的台灣老師,第一步是擴大台灣語料庫(包含台灣華語、台灣台語、台灣客語及原住民語),讓台灣的聲音被全球 AI 所理解。
今年由吳三連獎得主、台語文學作家、 IMA 委員的胡長松帶頭,無償釋出 150 萬字文學作品,並號召更多創作者共襄盛舉,至今已有數十位作家授權,累計超過 500 萬字高品質語料,並已陸續上架 Hugging Face 平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供 AI 訓練與研究使用的開放資料庫。
Taiwan Tongues計畫執行委員會員群聯電子整合 Reward Model 及 RL 微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化 AI 的訓練框架。透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業 AI 能力鏈的建立。
蔡祈岩說,Taiwan Tongues 亦設計專屬測試集,由 IMA 提供語境與語言能力評測標準,並與陽明交通大學教授廖元甫合作,進行模型實證測試。廖教授團隊將 Taiwan Tongues 作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示台語 AI 模型的正確率顯著提昇,顯著提升台語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。
蔡祈岩指出,如果把 AI 當作學生,Taiwan Tongues 提供的不只是課本(語料),更有教案(模型語境訓練框架)與考卷(語境評測),三者結合,才能讓 AI 真正懂台灣。
蔡祈岩強調,Taiwan Tongues 未來將持續募集台灣華語、台語、客語與原住民族語等多語種語料,並與國際大型語言模型平台合作,讓台灣語言成為全球 AI 生態系中不可或缺的一部分。
IMA 協會指出,AI 的發展不僅是科技力的展現,更是文化主體性的實踐。Taiwan Tongues 計畫象徵著台灣在語言數位化上的自我覺醒,未來將持續結合作家、學界與產業界的力量,擴大語料庫建置與應用場域,推動語言成為 AI 世代中台灣最鮮明的文化印記。協會強調,唯有集結更多跨界資源與社會參與,才能讓台灣語言在全球 AI 浪潮中,真正擁有被理解與被尊重的位置。
一手掌握經濟脈動 點我訂閱自由財經Youtube頻道
不用抽 不用搶 現在用APP看新聞 保證天天中獎 點我下載APP 按我看活動辦法