「臺灣主權AI訓練語料庫」自去年底上線以來,已累計上架超過3000筆資料集、逾12億詞元(tokens)。(截自官網)
〔記者邱巧貞/台北報導〕在全球生成式AI競逐日益白熱化之際,數位發展部持續推動本土語料建設,打造具在地特色的AI發展基礎。近期攜手中央研究院,於「臺灣主權AI訓練語料庫」中上架多筆具代表性的研究與科普文本資源,內容橫跨學術研究、政策分析、歷史文化與科普等多元面向,總計超過620萬詞元(tokens),這些語料不僅展現中研院豐沛的研究能量,也為AI模型在專業領域的應用奠定關鍵基礎。
數發部指出,專業領域知識語料不僅能有效提升模型於特定情境及專業領域的應用及理解能力,也有助於提升模型推理能力與回應精準度。例如,建置檢索增強生成(RAG)知識庫、發展專業問答系統、進行模型微調以強化特定領域之理解,以及應用於摘要、分類與知識萃取等任務,進一步促進具深度與專業性的AI應用發展。
此次上架語料內容豐富且具代表性,其中「政策建議書」涵蓋農業、科技及金融改革等多項政策議題,提供前瞻性分析與深度觀點;「研究成果選輯」則匯集我國在人文社會、數理與生命科學等領域的研究亮點,讓AI模型能更精準掌握跨領域知識脈絡。
此外,「研之有物」與「科普專欄」則以淺顯易懂的方式轉譯艱深知識,成為AI學習多元語氣與表達的重要素材;此外,「臺灣史研究所之館藏選粹」補足模型對台灣在地歷史與文化的理解,而「中研誠信電子報」則補充科研倫理與制度面向,提升模型在倫理議題上的判斷與回應能力。
數發部進一步表示,「臺灣主權AI訓練語料庫」自去年底上線以來,已累計上架超過3000筆資料集、逾12億詞元(tokens)。未來也將持續攜手各政府機關與學研單位,擴大釋出具台灣特色與專業價值的文本資料,逐步厚植我國主權AI發展實力,在全球AI競爭中建立更具自主性的關鍵優勢。
一手掌握經濟脈動 點我訂閱自由財經Youtube頻道
不用抽 不用搶 現在用APP看新聞 保證天天中獎 點我下載APP 按我看活動辦法
