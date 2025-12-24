數位發展部正式對外介紹「臺灣主權AI訓練語料庫」，提供在地化的正體中文資料。（數發部提供）

〔記者邱巧貞／台北報導〕隨著生成式AI快速發展並重塑全球經濟與政府服務，「主權AI」已成為各國競逐的重要數位基礎建設。數位發展部24日正式對外介紹「臺灣主權AI訓練語料庫」，期望透過高品質、在地化的正體中文資料，奠定台灣發展主權AI的關鍵基礎。

數位發展部資料創新司司長莊明芬指出，自生成式AI問世以來，不僅改變國際市場經濟結構，也重塑政府服務樣貌，對民眾日常生活產生深遠影響。在此趨勢下，世界各國皆高度關注AI發展，而「主權AI」更被視為確保國家競爭力與數位自主性的關鍵議題。

莊明芬強調，在主權AI的建構過程中，語料庫是最核心的基礎之一，因為AI模型會依據所接收的資料，形塑其語言理解與價值判斷。她進一步舉例，若詢問「土豆是什麼？」，語料來源的差異將直接導向不同的答案，可能是馬鈴薯，也可能是落花生，顯示出語料在地化對模型回應精準度的關鍵影響。

若詢問AI「土豆是什麼？」，語料來源的差異將直接導向不同的答案。

「我們餵給AI什麼樣的知識，它就會產生什麼樣的回答。」莊明芬強調，主權AI語料庫的目標是提供符合民主社會價值的中文來源，強化AI對正體中文、繁體中文及台灣社會語境的理解至關重要，這不僅關乎語言精準度，更攸關AI是否能理解台灣的政治、經濟與文化脈絡，進而影響整體國家競爭力。

為了建構完整的AI生態系，數發部訂定三大推動策略，包括：

1.建立入口網： 打造「臺灣主權AI訓練語料庫」（https://taic.moda.gov.tw），以好找、清楚、好用為核心，並接軌國際FAIR原則（可被查找Findable、可被存取Accessible、具互通性Interoperable、可再利用Reusable），提供通用的JSON格式供開發者下載。

2.明確授權規範：與經濟部智財局合作推出《臺灣主權AI訓練語料授權條款－第1版》，並推動《促進資料創新利用發展條例》審查，降低行政成本並減少著作權爭議。

3.語料來源擴充：透過公私協力與跨部會輔導，讓語料庫持續成長。此計畫啟動僅兩個多月，已有超過200個政府機關參與，上架逾2,000筆資料集，總量達6億個tokens，這些語料除了強調高品質，必須具備台灣文化觀點、脈絡完整，且經人工創作或審核，絕非AI自動生成的內容。

目前包括像是文化部提供藝術年鑑、教育部整合多語辭典（國、客、台、原民語）、內政部貢獻國家公園研究報告、海委會則提供珍貴的海洋知識。這些來自政府出版品與研究計畫的數據，都成為AI訓練最優質的「在地教材」。

數發部次長侯宜秀特別強調，這項計畫並非定期更新，而是「24小時即時更新」，目標是希望機關帳號開通後，只要有新資料，就可以持續上架，相信未來資料量會相當可觀。

侯宜秀次長會後受訪時也指出，台灣的AI發展是一個國際生態系，無法閉門造車，建立主權語料資料庫的目的，不僅是為了讓下一代使用的AI能精準貼近台灣的語言與價值觀，更是為了應對目前取得的中文資料可能存在的篩選或過濾風險，因此希望提供一個具有民主社會價值的中文語料來源。

