財經 > 財經政策

繁中資料量落後簡中不利台AI語言模型

2023/11/05 05:30

國科會推動台版生成式AI，結合產官學研開發「TAIDE」，耗時4個月推出初階成果，投入70億個參數量，幫AI上繁體中文課，前在自動摘要、翻譯文本、寫信、寫文章等都有不錯表現。（資料照，記者吳柏軒攝）國科會推動台版生成式AI，結合產官學研開發「TAIDE」，耗時4個月推出初階成果，投入70億個參數量，幫AI上繁體中文課，前在自動摘要、翻譯文本、寫信、寫文章等都有不錯表現。（資料照，記者吳柏軒攝）

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述

國科會今年6月發表「可信任人工智慧對話引擎」（TAIDE）7B模型。國科會主委吳政忠（左）表示，TAIDE是「打地基」，未來將提供公私部門加值應用，並守住台灣擁有的珍貴繁體中文語料。（中央社資料照）國科會今年6月發表「可信任人工智慧對話引擎」（TAIDE）7B模型。國科會主委吳政忠（左）表示，TAIDE是「打地基」，未來將提供公私部門加值應用，並守住台灣擁有的珍貴繁體中文語料。（中央社資料照）

〔記者歐宇祥／台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣，時而引發對台認知作戰的疑慮，且台灣發展生成式AI（人工智慧）等技術也須留意資料準確性、以免生出不當答案。AI領域專家坦言，目前繁體中文資料量遠少於簡體中文，加上台灣網路社群的知識性分享風氣相對不盛，對我國開發AI大型語言模型相當不利。

台算力、資料資源相對有限

ChatGPT帶動AI軍備競賽，我國政府是由國科會發展「可信任人工智慧對話引擎」（TAIDE）計畫，產官學各自前進；不過發展AI燒錢，台灣算力、資料等資源都相對有限，研究單位資金更緊缺，日前研究經費僅約三十萬的中研院AI語言模型，因出現中國觀點的回應，引起軒然大波。

中研院資通安全專題中心執行長李育杰指出，生成式AI需要大量文本資料用做訓練、再運用機器運算進行「接龍」、產出內容，受資料集影響大；而中研院爭議是源自於使用的Llama 2模型，因含有中國資料集、易產生相應觀點答案，加上中企、研究單位大力投入AI研發，都凸顯台灣需要自己的大型語言模型。

台灣人工智慧協會理事黃逸華分析，目前開發AI模型可將簡中資料轉換成繁中，或將簡中資料剃除，但繁中資料量相對較少，可能使AI模型較容易出現幻覺（Hallucinations；即無法作答的空白，可能以虛構來填補答案），或功能會較為侷限，且此問題是十數年積累、短期難解，若使用PTT等平台資料，處理成本又高。

李育杰也認為，PTT、Dcard等台灣本土社群的用語生命週期短，加上資料雜亂可能蘊含謾罵、火星文，品質不一定好，若要用在AI大型語言模型訓練需再經處理；即使都以繁中資料訓練，AI仍可能生成不如預期的答案，以現行技術無法一○○％掌控規則與結果，只能盡量隔絕不希望AI學習的資料與內容。

一手掌握經濟脈動點我訂閱自由財經Youtube頻道

不用抽不用搶現在用APP看新聞保證天天中獎　點我下載APP　按我看活動辦法

今日熱門新聞

看更多！請加入自由財經粉絲團

網友回應

繁中資料量落後簡中 不利台AI語言模型

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述

台算力、資料資源相對有限

繁中資料量落後簡中不利台AI語言模型