繁中版AI語言模型》受限智財法規開發借力國際巨頭

2023/11/05 05:30

台灣需要自己的大型語言模型，但繁體中文資料量不足、恐讓開發受限。（路透）台灣需要自己的大型語言模型，但繁體中文資料量不足、恐讓開發受限。（路透）

〔記者歐宇祥／台北報導〕台灣需要自己的大型語言模型，但繁體中文資料量不足、恐讓開發受限。台大電機工程學系教授李宏毅指出，除了資料量不足等問題，很多資料受限智慧財產權法等法律、難合法使用，現行開發者多是借力Meta模型Llama 2、再訓練後使用。

李宏毅說，AI模型在預訓練階段可使用從網路等不同來源搜集的資料，但若未取得授權，訓練完成的AI恐無法商業使用，政府專案開發的限制又比民間開發更多；中研院資訊科學研究所研究員古倫維指出，網路中蒐集到的資料，除了須確認版權許可，資料整理也會耗費高成本，對研究單位負擔大也耗時。

過濾排除兩岸差異論述

日前Meta與微軟聯手發表可商用的大型語言模型Llama 2，企業、研究開發者可有效降低AI開發成本，成為開發者利器。但專家也警告，Llama 2的訓練資料中包含中國資料集，自然也會影響到生成內容，使用ChatGPT也會產生資料含偏見、資安等問題，這都凸顯國科會TAIDE計畫的重要性。

除了從頭開始訓練AI模型，李宏毅說，另一個方法是向Llama 2等模型借力，在其基礎上再訓練，但現行技術也無法一○○％控制AI模型生成內容；中研院資通安全專題中心執行長李育杰認為，台灣要發展可信任的AI模型，在資料層面除使用開放文本、台灣本土語料庫、各部會特定場域訓練資料之外，也可過濾排除兩岸差異用語、惡意言論，使其符合台灣所需。

產出結果應合理、合法

AI恐生出不當內容更凸顯AI倫理與風控的重要性。古倫維指出，AI開發應關注資料、動機、產出結果是否合理並合法，且AI僅是工具，使用者須對產出結果負責；李宏毅表示，AI模型可在開發中、開放使用後進行風險控制，包含隔絕不合適的訓練資料、或針對生成結果設立限制，以免內容不適當，使用者若希望善用生成式AI，也應了解其原理。

一手掌握經濟脈動點我訂閱自由財經Youtube頻道

不用抽不用搶現在用APP看新聞保證天天中獎　點我下載APP　按我看活動辦法

繁中版AI語言模型》受限智財法規 開發借力國際巨頭

過濾排除兩岸差異論述

產出結果應合理、合法

繁中版AI語言模型》受限智財法規開發借力國際巨頭